特許ウォッチ

公開番号2025089843
公報種別公開特許公報(A)
公開日2025-06-16
出願番号2023204753
出願日2023-12-04
発明の名称プログラム、情報処理装置、情報処理システム、及び文章表示方法
出願人株式会社聴覚研究所
代理人個人
主分類G06F 3/16 20060101AFI20250609BHJP(計算;計数)
要約【課題】表示されたテキストがどの発言者の発言であるかを認識しやすくする技術を提案する。
【解決手段】コンピュータを、取得部、出力部、入力部、及び表示部として機能させるためのプログラムである。出力部は、取得部により取得された複数の音声データを、複数の音声データそれぞれに設定された1つ以上の音声認識部のいずれかに対してに出力する。入力部は、1つ以上の音声認識部から、1つ以上の複数の音声データそれぞれに基づき1つ以上の音声認識部により生成された複数のテキストデータを入力する。表示部は、入力部により入力された複数のテキストデータそれぞれに基づく文章を、複数のテキストデータに係る複数の音声データごとに区別可能な態様で表示装置に表示させる。
【選択図】図1
特許請求の範囲【請求項１】
コンピュータを、
収音されたマイクが異なる複数の音声データを取得する取得部、
前記取得部により取得された前記複数の音声データを、前記複数の音声データそれぞれに設定された音声認識部であって、当該コンピュータの外部に備えられた１つ以上の外部装置が有する、又は、当該コンピュータの内部に備えられた、音声データからテキストデータを生成する１つ以上の音声認識部のいずれかに対して出力する出力部、
前記１つ以上の音声認識部から、前記１つ以上の前記複数の音声データそれぞれに基づき前記１つ以上の音声認識部により生成された複数のテキストデータを入力する入力部、
前記入力部により入力された前記複数のテキストデータそれぞれに基づく文章を、前記複数のテキストデータに係る前記複数の音声データごとに区別可能な態様で表示装置に表示させる表示部、
として機能させるプログラム。
続きを表示（約 1,900 文字）【請求項２】
請求項１に記載のプログラムにおいて、
前記音声認識部は、音声データに予め設定された言語の情報に基づいて、当該言語のテキストデータを生成するように構成されたものであって、
前記出力部は、前記複数の音声データそれぞれの出力先の前記１つ以上の音声認識部に、前記複数の音声データごとに予め設定された言語の情報を出力する、プログラム。
【請求項３】
請求項１に記載のプログラムにおいて、
さらに、
１つ以上の前記マイクにより収音された音声データに基づき、ノイズキャンセル及びビームフォーミングのうちの少なくともいずれか一方の処理を行った前記音声データを生成する処理データ生成部、としてコンピュータを機能させ、
前記出力部は、前記処理データ生成部により前記音声データが生成されたときには、当該生成された前記音声データを前記音声認識部に出力する、プログラム。
【請求項４】
請求項１に記載のプログラムにおいて、
さらに、
前記マイクにより収音され、所定の音量以上である音声に基づく音声データを生成する特定データ生成部、としてコンピュータを機能させ、
前記出力部は、前記特定データ生成部により前記音声データが生成されたときには、当該生成された前記音声データを前記音声認識部に出力する、プログラム。
【請求項５】
請求項１に記載のプログラムにおいて、
前記入力部は、前記テキストデータと共に、当該テキストデータに係る発言の開始時刻の情報を前記音声認識部から入力するように構成されており、
前記表示部は、前記複数の音声データに係る複数の前記テキストデータに基づく文章を、前記開始時刻に従って時系列順に表示する、プログラム。
【請求項６】
請求項１に記載のプログラムにおいて、
前記入力部は、前記テキストデータと共に、当該テキストデータに係る発言の開始時刻の情報と、終了時刻の情報と、を前記音声認識部から入力するように構成されており、
前記表示部は、同一のマイクから収音された音声データに係る複数のテキストデータについて、少なくとも次のいずれかを満たす場合には、第１の文章と、開始時刻が前記第１の文章の次である第２の文章と、を連続した１つの文章として表示させる、プログラム。
（ｉ）前記第１の文章の終了時刻と、前記第２の文章の開始時刻と、が所定の間隔以下であること。
（ｉｉ）前記第１の文章の文字数が所定の文字数以下であること。
【請求項７】
請求項１に記載のプログラムにおいて、
前記表示部は、前記複数の音声データごとに、発言者の名称、タグ、アイコン、文章の文字色、及び、文章の背景色のうちの少なくともいずれか１つを設定して表示装置表示させる、プログラム。
【請求項８】
請求項２に記載のプログラムにおいて、
前記入力部は、前記音声認識部により生成された前記テキストデータに基づき前記予め設定された言語とは別の言語に翻訳されたテキストデータを入力可能であり、
前記表示部は、前記複数の音声データごとに、前記予め設定された言語のテキストデータ、及び、前記別の言語に翻訳されたテキストデータ、のうちの少なくとも一方に基づく文章を表示可能である、プログラム。
【請求項９】
請求項８に記載のプログラムにおいて、
前記表示部は、前記予め設定された言語のテキストデータに基づく文章と、前記別の言語に翻訳されたテキストデータに基づく文章と、を同時に、かつ、異なる表示態様で表示させる、プログラム。
【請求項１０】
情報処理装置であって、
収音されたマイクが異なる複数の音声データを取得する取得部と、
前記取得部により取得された前記複数の音声データを、前記複数の音声データそれぞれに設定された音声認識部であって、音声データからテキストデータを生成する１つ以上の音声認識部のいずれかに対して出力する出力部と、
前記１つ以上の音声認識部から、前記１つ以上の前記複数の音声データそれぞれに基づき前記１つ以上の音声認識部により生成された複数のテキストデータを入力する入力部と、
前記入力部により入力された前記複数のテキストデータそれぞれに基づく文章を、前記複数のテキストデータに係る前記複数の音声データごとに区別可能な態様で表示装置に表示させる表示部と、
を備える情報処理装置。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本開示は、マイクで取得した音声データを画像表示装置などで文字で表示する技術に関する。
続きを表示（約 1,600 文字）【背景技術】
【０００２】
発言者の音声を音声認識により認識し、認識された音声の内容を文字として画像表示装置により表示する技術が知られている。例えば特許文献１には、ウェブ会議などにおいて表示される資料と、音声に基づく文字との両方を見やすくする技術が提案されている。
【先行技術文献】
【特許文献】
【０００３】
特開２０２２－１３４６００号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
発明者は、複数の者が同じ場所にて会議を行う場合などにおいて同一のマイクを用いて音声データを収集した場合に、どの発言者の発言であるか認識できなくなったり、認識精度や収音性能が低下したりするという課題を見出した。
本開示は、表示されたテキストがどの発言者の発言であるかを認識しやすくする技術を提案する。
【課題を解決するための手段】
【０００５】
本開示の一態様は、コンピュータを、取得部、出力部、入力部、及び表示部として機能させるためのプログラムである。取得部は、収音されたマイクが異なる複数の音声データを取得する。出力部は、前記取得部により取得された前記複数の音声データを、前記複数の音声データそれぞれに設定された１つ以上の音声認識部のいずれかに対して出力する。音声認識部は、当該コンピュータの外部に備えられた１つ以上の外部装置が有しているか、又は、当該コンピュータの内部に備えられており、音声データからテキストデータを生成する。入力部は、前記１つ以上の音声認識部から、前記１つ以上の前記複数の音声データそれぞれに基づき前記１つ以上の音声認識部により生成された複数のテキストデータを入力する。表示部は、前記入力部により入力された前記複数のテキストデータそれぞれに基づく文章を、前記複数のテキストデータに係る前記複数の音声データごとに区別可能な態様で表示装置に表示させる。
【０００６】
このようなプログラムであれば、異なるマイクにより収音された複数の音声データごとに、区別可能な態様で表示させることができる。そのため、複数の発言者が同じ場所にいても誰の発言であるかを認識させやすくすることができる。
【０００７】
上述したプログラムにおいて、前記音声認識部は、音声データに予め設定された言語の情報に基づいて、当該言語のテキストデータを生成するように構成されたものであってもよく、前記出力部は、前記複数の音声データそれぞれの出力先の前記１つ以上の音声認識部に、前記複数の音声データごとに予め設定された言語の情報を出力するように構成されていてもよい。
【０００８】
このようなプログラムであれば、異なるマイクにより収音された複数の音声データごとに、設定された言語の文章を表示させることができる。そのため、複数の発言者による２つ以上の言語での発言があったときに、その発言内容をそれぞれ対応する言語の文章として表示することができる。
【０００９】
なお、前記入力部は、前記音声認識部により生成された前記テキストデータに基づき前記予め設定された言語とは別の言語に翻訳されたテキストデータを入力可能であってもよい。また、前記表示部は、前記複数の音声データごとに、前記予め設定された言語のテキストデータ、及び、前記別の言語に翻訳されたテキストデータ、のうちの少なくとも一方に基づく文章を表示可能であってもよい。
【００１０】
このようなプログラムであれば、発言者の発言が翻訳された文章を表示装置に表示させることができる。なお翻訳されたテキストデータは、音声認識部により生成されてもよいし、音声認識部とは別の翻訳機能を有する装置に翻訳前のテキストデータを送信して生成してもよい。
（【００１１】以降は省略されています）

関連特許