TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025089843
公報種別公開特許公報(A)
公開日2025-06-16
出願番号2023204753
出願日2023-12-04
発明の名称プログラム、情報処理装置、情報処理システム、及び文章表示方法
出願人株式会社聴覚研究所
代理人個人
主分類G06F 3/16 20060101AFI20250609BHJP(計算;計数)
要約【課題】表示されたテキストがどの発言者の発言であるかを認識しやすくする技術を提案する。
【解決手段】コンピュータを、取得部、出力部、入力部、及び表示部として機能させるためのプログラムである。出力部は、取得部により取得された複数の音声データを、複数の音声データそれぞれに設定された1つ以上の音声認識部のいずれかに対してに出力する。入力部は、1つ以上の音声認識部から、1つ以上の複数の音声データそれぞれに基づき1つ以上の音声認識部により生成された複数のテキストデータを入力する。表示部は、入力部により入力された複数のテキストデータそれぞれに基づく文章を、複数のテキストデータに係る複数の音声データごとに区別可能な態様で表示装置に表示させる。
【選択図】図1
特許請求の範囲【請求項1】
コンピュータを、
収音されたマイクが異なる複数の音声データを取得する取得部、
前記取得部により取得された前記複数の音声データを、前記複数の音声データそれぞれに設定された音声認識部であって、当該コンピュータの外部に備えられた1つ以上の外部装置が有する、又は、当該コンピュータの内部に備えられた、音声データからテキストデータを生成する1つ以上の音声認識部のいずれかに対して出力する出力部、
前記1つ以上の音声認識部から、前記1つ以上の前記複数の音声データそれぞれに基づき前記1つ以上の音声認識部により生成された複数のテキストデータを入力する入力部、
前記入力部により入力された前記複数のテキストデータそれぞれに基づく文章を、前記複数のテキストデータに係る前記複数の音声データごとに区別可能な態様で表示装置に表示させる表示部、
として機能させるプログラム。
続きを表示(約 1,900 文字)【請求項2】
請求項1に記載のプログラムにおいて、
前記音声認識部は、音声データに予め設定された言語の情報に基づいて、当該言語のテキストデータを生成するように構成されたものであって、
前記出力部は、前記複数の音声データそれぞれの出力先の前記1つ以上の音声認識部に、前記複数の音声データごとに予め設定された言語の情報を出力する、プログラム。
【請求項3】
請求項1に記載のプログラムにおいて、
さらに、
1つ以上の前記マイクにより収音された音声データに基づき、ノイズキャンセル及びビームフォーミングのうちの少なくともいずれか一方の処理を行った前記音声データを生成する処理データ生成部、としてコンピュータを機能させ、
前記出力部は、前記処理データ生成部により前記音声データが生成されたときには、当該生成された前記音声データを前記音声認識部に出力する、プログラム。
【請求項4】
請求項1に記載のプログラムにおいて、
さらに、
前記マイクにより収音され、所定の音量以上である音声に基づく音声データを生成する特定データ生成部、としてコンピュータを機能させ、
前記出力部は、前記特定データ生成部により前記音声データが生成されたときには、当該生成された前記音声データを前記音声認識部に出力する、プログラム。
【請求項5】
請求項1に記載のプログラムにおいて、
前記入力部は、前記テキストデータと共に、当該テキストデータに係る発言の開始時刻の情報を前記音声認識部から入力するように構成されており、
前記表示部は、前記複数の音声データに係る複数の前記テキストデータに基づく文章を、前記開始時刻に従って時系列順に表示する、プログラム。
【請求項6】
請求項1に記載のプログラムにおいて、
前記入力部は、前記テキストデータと共に、当該テキストデータに係る発言の開始時刻の情報と、終了時刻の情報と、を前記音声認識部から入力するように構成されており、
前記表示部は、同一のマイクから収音された音声データに係る複数のテキストデータについて、少なくとも次のいずれかを満たす場合には、第1の文章と、開始時刻が前記第1の文章の次である第2の文章と、を連続した1つの文章として表示させる、プログラム。
(i)前記第1の文章の終了時刻と、前記第2の文章の開始時刻と、が所定の間隔以下であること。
(ii)前記第1の文章の文字数が所定の文字数以下であること。
【請求項7】
請求項1に記載のプログラムにおいて、
前記表示部は、前記複数の音声データごとに、発言者の名称、タグ、アイコン、文章の文字色、及び、文章の背景色のうちの少なくともいずれか1つを設定して表示装置表示させる、プログラム。
【請求項8】
請求項2に記載のプログラムにおいて、
前記入力部は、前記音声認識部により生成された前記テキストデータに基づき前記予め設定された言語とは別の言語に翻訳されたテキストデータを入力可能であり、
前記表示部は、前記複数の音声データごとに、前記予め設定された言語のテキストデータ、及び、前記別の言語に翻訳されたテキストデータ、のうちの少なくとも一方に基づく文章を表示可能である、プログラム。
【請求項9】
請求項8に記載のプログラムにおいて、
前記表示部は、前記予め設定された言語のテキストデータに基づく文章と、前記別の言語に翻訳されたテキストデータに基づく文章と、を同時に、かつ、異なる表示態様で表示させる、プログラム。
【請求項10】
情報処理装置であって、
収音されたマイクが異なる複数の音声データを取得する取得部と、
前記取得部により取得された前記複数の音声データを、前記複数の音声データそれぞれに設定された音声認識部であって、音声データからテキストデータを生成する1つ以上の音声認識部のいずれかに対して出力する出力部と、
前記1つ以上の音声認識部から、前記1つ以上の前記複数の音声データそれぞれに基づき前記1つ以上の音声認識部により生成された複数のテキストデータを入力する入力部と、
前記入力部により入力された前記複数のテキストデータそれぞれに基づく文章を、前記複数のテキストデータに係る前記複数の音声データごとに区別可能な態様で表示装置に表示させる表示部と、
を備える情報処理装置。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示は、マイクで取得した音声データを画像表示装置などで文字で表示する技術に関する。
続きを表示(約 1,600 文字)【背景技術】
【0002】
発言者の音声を音声認識により認識し、認識された音声の内容を文字として画像表示装置により表示する技術が知られている。例えば特許文献1には、ウェブ会議などにおいて表示される資料と、音声に基づく文字との両方を見やすくする技術が提案されている。
【先行技術文献】
【特許文献】
【0003】
特開2022-134600号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
発明者は、複数の者が同じ場所にて会議を行う場合などにおいて同一のマイクを用いて音声データを収集した場合に、どの発言者の発言であるか認識できなくなったり、認識精度や収音性能が低下したりするという課題を見出した。
本開示は、表示されたテキストがどの発言者の発言であるかを認識しやすくする技術を提案する。
【課題を解決するための手段】
【0005】
本開示の一態様は、コンピュータを、取得部、出力部、入力部、及び表示部として機能させるためのプログラムである。取得部は、収音されたマイクが異なる複数の音声データを取得する。出力部は、前記取得部により取得された前記複数の音声データを、前記複数の音声データそれぞれに設定された1つ以上の音声認識部のいずれかに対して出力する。音声認識部は、当該コンピュータの外部に備えられた1つ以上の外部装置が有しているか、又は、当該コンピュータの内部に備えられており、音声データからテキストデータを生成する。入力部は、前記1つ以上の音声認識部から、前記1つ以上の前記複数の音声データそれぞれに基づき前記1つ以上の音声認識部により生成された複数のテキストデータを入力する。表示部は、前記入力部により入力された前記複数のテキストデータそれぞれに基づく文章を、前記複数のテキストデータに係る前記複数の音声データごとに区別可能な態様で表示装置に表示させる。
【0006】
このようなプログラムであれば、異なるマイクにより収音された複数の音声データごとに、区別可能な態様で表示させることができる。そのため、複数の発言者が同じ場所にいても誰の発言であるかを認識させやすくすることができる。
【0007】
上述したプログラムにおいて、前記音声認識部は、音声データに予め設定された言語の情報に基づいて、当該言語のテキストデータを生成するように構成されたものであってもよく、前記出力部は、前記複数の音声データそれぞれの出力先の前記1つ以上の音声認識部に、前記複数の音声データごとに予め設定された言語の情報を出力するように構成されていてもよい。
【0008】
このようなプログラムであれば、異なるマイクにより収音された複数の音声データごとに、設定された言語の文章を表示させることができる。そのため、複数の発言者による2つ以上の言語での発言があったときに、その発言内容をそれぞれ対応する言語の文章として表示することができる。
【0009】
なお、前記入力部は、前記音声認識部により生成された前記テキストデータに基づき前記予め設定された言語とは別の言語に翻訳されたテキストデータを入力可能であってもよい。また、前記表示部は、前記複数の音声データごとに、前記予め設定された言語のテキストデータ、及び、前記別の言語に翻訳されたテキストデータ、のうちの少なくとも一方に基づく文章を表示可能であってもよい。
【0010】
このようなプログラムであれば、発言者の発言が翻訳された文章を表示装置に表示させることができる。なお翻訳されたテキストデータは、音声認識部により生成されてもよいし、音声認識部とは別の翻訳機能を有する装置に翻訳前のテキストデータを送信して生成してもよい。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

株式会社聴覚研究所
プログラム、情報処理装置、情報処理システム、及び文章表示方法
4日前
個人
対話装置
8日前
個人
情報処理装置
8日前
個人
政治のAI化
1か月前
個人
物品給付年金
1か月前
個人
人物再現システム
2か月前
個人
在宅介護システム
1か月前
個人
RFタグ読取装置
1か月前
個人
情報処理装置
4日前
個人
プラグインホームページ
22日前
個人
AI飲食最適化プラグイン
1か月前
個人
情報入力装置
8日前
キヤノン株式会社
通信装置
1か月前
個人
物価スライド機能付生命保険
8日前
個人
マイホーム非電子入札システム
8日前
個人
電話管理システム及び管理方法
1か月前
個人
全アルゴリズム対応型プログラム
1か月前
株式会社BONNOU
管理装置
1日前
キヤノン株式会社
画像処理装置
29日前
個人
決済手数料0%のクレジットカード
11日前
個人
日誌作成支援システム
2か月前
大同特殊鋼株式会社
輝線検出方法
1か月前
シャープ株式会社
電子機器
1か月前
サクサ株式会社
カードの制動構造
10日前
株式会社CROSLAN
支援装置
1か月前
長屋印刷株式会社
画像形成システム
1か月前
トヨタ自動車株式会社
欠け検査装置
1か月前
ミサワホーム株式会社
情報処理装置
1か月前
株式会社ライト
情報処理装置
1日前
パテントフレア株式会社
交差型バーコード
24日前
株式会社アジラ
データ転送システム
1か月前
村田機械株式会社
割当補助システム
14日前
ひびきの電子株式会社
認証システム
1か月前
トヨタ自動車株式会社
情報処理装置
14日前
ミサワホーム株式会社
宅配ロッカー
28日前
オベック実業株式会社
端末用スタンド
1か月前
続きを見る