TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024058553
公報種別公開特許公報(A)
公開日2024-04-25
出願番号2023076530
出願日2023-05-08
発明の名称音声信号に関連するコンテンツを決定する方法、コンピューター可読保存媒体に保存されたコンピュータープログラム及びコンピューティング装置
出願人アクションパワー コーポレイション
代理人弁護士法人クレオ国際法律特許事務所
主分類G10L 15/00 20130101AFI20240418BHJP(楽器;音響)
要約【課題】完全な音声認識結果テキストの中から、コア単語であるターゲット単語を決定する方法、プログラム及び装置を提供する。
【解決手段】コンピューティング装置において実行される、音声信号に関連するコンテンツを決定する方法であって、音声信号を変換してテキスト情報を生成する段階S110、複数のターゲット単語候補を決定する段階S120、複数のターゲット単語候補と生成されたテキスト情報との比較に基づき、複数のターゲット単語候補の中からターゲット単語を決定する段階S130及び前記ターゲット単語に関連するコンテンツを決定する段階S140を含む。
【選択図】図5
特許請求の範囲【請求項1】
コンピューティング装置によって行われる、音声信号に関連するコンテンツを決定する方法であって、
音声信号を変換してテキスト情報を生成する段階、
複数のターゲット単語候補を決定する段階、
前記複数のターゲット単語候補と前記生成されたテキスト情報との比較に基づき、前記複数のターゲット単語候補の中からターゲット単語を決定する段階、及び
前記ターゲット単語に関連するコンテンツを決定する段階、
を含み、
前記複数のターゲット単語候補の中からターゲット単語を決定する段階は、
前記複数のターゲット単語候補の各々に対し、前記テキスト情報との類似度を付与する段階、及び
前記類似度に基づき、前記ターゲット単語候補の中から前記ターゲット単語を決定する段階
を含み、
前記複数のターゲット単語候補の各々に対し、前記テキスト情報との類似度を付与する段階は、
前記複数のターゲット単語候補の各々に対し、前記テキスト情報のすべての単語との編集距離を演算する段階、及び
各ターゲット単語候補に対して演算された編集距離に基づき、前記各ターゲット単語候補に対して類似度を付与する段階
を含む、
方法。
続きを表示(約 1,700 文字)【請求項2】
請求項1において、
前記複数のターゲット単語候補を決定する段階は、
前記音声信号に関連するユーザー情報に基づき、前記複数のターゲット単語候補を決定する段階と、
前記生成されたテキスト情報から抽出されたコア単語(keyword)の情報に基づき、前記複数のターゲット単語候補を決定する段階と、
のうち、少なくとも1つを含む、
方法。
【請求項3】
請求項2において、
前記音声信号に関連するユーザー情報に基づき、前記複数のターゲット単語候補を決定する段階は、
ユーザーが使った音声認識モデルのタイプに係る情報に基づき、前記複数のターゲット単語候補を決定する段階
を含む、
方法。
【請求項4】
請求項2において、
前記生成されたテキスト情報から抽出されたコア単語に係る情報に基づき、前記複数のターゲット単語候補を決定する段階は、
前記生成されたテキスト情報における単語の出現頻度を分析し、複数のコア単語を決定する段階、及び
前記複数のコア単語に基づき、前記複数のターゲット単語候補を決定する段階
を含む、
方法。
【請求項5】
請求項4において、
前記生成されたテキスト情報における単語の出現頻度を分析し、複数のコア単語を抽出する段階は、
話題(topic)情報に基づき、前記生成されたテキスト情報を複数のテキスト部分に分ける段階、及び
前記分けられた複数のテキスト部分の各々における出現頻度を分析し、複数のコア単語を抽出する段階
を含む、
方法。
【請求項6】
請求項1において、
前記テキスト情報の中に、コンテンツソース(source)に係る単語又はコンテンツに関連する時間に係る単語が含まれている場合、前記複数のターゲット単語候補に含まれるか否かとは関係なく、前記コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を前記ターゲット単語としてすぐに決定する段階
をさらに含む、
方法。
【請求項7】
請求項1において、
前記各ターゲット単語候補に対して演算された編集距離に基づき、前記各ターゲット単語候補の類似度を付与する段階は、
各ターゲット単語候補に対して演算された編集距離をしきい値と比較する段階、及び
前記演算された前記編集距離が前記しきい値未満の場合、より高い類似度を付与する段階
を含む、
方法。
【請求項8】
請求項1において、
前記複数のターゲット単語候補の各々に対し、前記テキスト情報との類似度を付与する段階は、
前記複数のターゲット単語候補がコンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を含む場合、前記コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語に対しては、直接的な演算を行わずに、最も高い類似度を付与する段階、
を含む、
方法。
【請求項9】
請求項1において、
前記ターゲット単語に関連するコンテンツを決定する段階は、
複数のコンテンツ候補を決定する段階、及び
前記複数のコンテンツ候補の中から前記ターゲット単語に関連するコンテンツを決定する段階
を含む、
方法。
【請求項10】
請求項9において、
前記複数のコンテンツ候補を決定する段階は、
ターゲット単語集合がコンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を含む場合、前記コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語に基づき、前記複数のコンテンツ候補を決定する段階を含み、
前記複数のコンテンツ候補の中から前記ターゲット単語に関連するコンテンツを決定する段階は、
前記複数のコンテンツ候補の中から前記ターゲット単語集合の他のターゲット単語に関連するコンテンツを決定する段階を含む、
方法。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、音声信号に関連するコンテンツを決定する方法(METHOD FOR DETERMINING CONTENT ASSOCIATED WITH VOICE SIGNAL)に係り、より具体的には、音声認識結果テキスト等に基づき、関連コンテンツを決定し、決定されたコンテンツを提案する技術に関する。
続きを表示(約 1,300 文字)【背景技術】
【0002】
音声認識(STT;Speech-to-Text)とは、音声信号をテキストに変換する技術である。つまり、音声認識とは、音声信号を分析し、音声信号に対応するテキストを出力する技術である。
【0003】
このような音声認識により出力された結果テキストは、完全なものではないことが多い。例えば、音声認識結果テキストは、誤字や非文等を含む場合がある。
【0004】
従って、このような音声認識結果テキストに基づいて関連コンテンツを決定するという手法は、精度が低く、技術的に具現化することも困難である。例えば、音声認識結果テキストに基づき、関連コンテンツを決定するためには、音声認識結果テキストの中に、コア単語やターゲット単語が含まれているか否かを決定しなければならないが、音声認識結果テキストの不完全性により,このようなコア単語やターゲット単語が含まれているか否かを決定することが困難であるという問題点が存在する。
【0005】
大韓民国公開特許第10-2022-0051592号(2022年4月26日)は、インターネット講義提案システム及びその動作方法について開示している。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本開示は、不完全な音声認識(STT;Speech-to-Text)結果テキストの中から、コア単語であるターゲット単語を決定し、これに基づき、関連コンテンツを提案する方法を提供することを目的とする。
【0007】
しかし、本開示が解決しようとする技術的課題は、前述の技術的課題に限られるわけではなく、以下に説明する内容から、当業者にとって自明な範囲内において、多様な技術的課題が含まれることが含まれるものとする。
【課題を解決するための手段】
【0008】
前述の課題を実現するための本開示の一実施例に基づき、コンピューティング装置により実行される方法が開示される。前記方法は、音声信号を変換してテキスト情報を生成する段階、複数のターゲット単語候補を決定する段階、前記複数のターゲット単語候補と前記生成されたテキスト情報との比較に基づき、前記複数のターゲット単語候補の中からターゲット単語を決定する段階、及び前記ターゲット単語に関連するコンテンツを決定する段階を含むことが可能である。
【0009】
一実施例において、前記複数のターゲット単語を決定する段階は、前記音声信号に関連するユーザー情報に基づき、前記複数のターゲット単語候補を決定する段階と、前記生成されたテキスト情報から抽出されたコア単語(keyword)の情報に基づき、前記複数のターゲット単語候補を決定する段階とのうち、少なくとも1つの段階を含むことが可能である。
【0010】
一実施例において、前記音声信号に関連するユーザー情報に基づき、前記複数のターゲット単語候補を決定する段階は、前記ユーザーが使った音声認識モデルのタイプに係る情報に基づき、前記複数のターゲット単語候補を決定する段階を含むことが可能である。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

株式会社フジコー
吸音材
19日前
個人
歌唱補助マスク
3日前
三井化学株式会社
防音構造体
23日前
株式会社JVCケンウッド
情報処理装置
9日前
株式会社フェルナンデス
電気ギター用弦振動持続装置
9日前
ヤマハ株式会社
管楽器用スワブ
17日前
株式会社レゾナック
吸音材及び車両部材
10日前
株式会社河合楽器製作所
自動演奏装置及び自動演奏プログラム
19日前
株式会社河合楽器製作所
鍵盤装置の鍵
24日前
TDK株式会社
振動デバイス及びこれを備えるICカード
23日前
トヨタ自動車株式会社
車室の床下構造
17日前
富士通株式会社
評価プログラム、評価方法、評価装置
11日前
株式会社NTTドコモ
発話スタイル改善支援装置
16日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
18日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
18日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
23日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
23日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
23日前
ヤマハ株式会社
音響モデルの訓練方法
18日前
日産自動車株式会社
対話装置及び対話制御方法
17日前
ヤマハ株式会社
音響モデルの訓練方法
18日前
株式会社河合楽器製作所
鍵盤楽器のハンマー装置
23日前
株式会社河合楽器製作所
鍵盤楽器の鍵ガイド構造
23日前
株式会社河合楽器製作所
鍵盤用錘及び鍵盤楽器の鍵
23日前
株式会社河合楽器製作所
鍵盤用錘及び鍵盤楽器の鍵
23日前
ヤマハ株式会社
音波形の特性分布に係る表示方法
18日前
ヤマハ株式会社
楽曲生成方法、およびプログラム
16日前
福井経編興業株式会社
吸音体
22日前
株式会社河合楽器製作所
ドロップアクションを有するピアノ
24日前
福井経編興業株式会社
吸音体
22日前
ヤマハ株式会社
音響モデルの訓練システム及び方法
18日前
ヤマハ株式会社
プログラム、音響処理方法および音響処理システム
10日前
カシオ計算機株式会社
情報処理装置、電子楽器、制御方法及びプログラム
16日前
ヤマハ株式会社
演奏操作装置
22日前
カシオ計算機株式会社
電子機器、電子楽器システム、再生制御方法及びプログラム
18日前
学校法人日本大学
防音材の設計方法、製造方法、設計装置及び設計用プログラム
16日前
続きを見る