特許ウォッチ

公開番号2025113610
公報種別公開特許公報(A)
公開日2025-08-04
出願番号2024007856
出願日2024-01-23
発明の名称情報処理システム、情報処理方法、及び情報処理プログラム
出願人シャープ株式会社
代理人個人,個人,個人
主分類G10L 15/22 20060101AFI20250728BHJP(楽器;音響)
要約【課題】音声をテキスト変換する音声認識精度を向上させることが可能な情報処理システム、情報処理方法、及び情報処理プログラムを提供する。
【解決手段】情報処理装置1は、ユーザーの発話音声をテキスト情報に変換する音声認識処理部113と、テキスト情報から所定長さの対象テキスト文を抽出する対象テキスト抽出処理部と、対象テキスト文に誤認識候補の文字が含まれる場合に、対象テキスト文の合計文字数が所定文字数未満であるか否か、又は、対象テキスト文の合計文字数に対する誤認識候補の文字数の割合が所定割合以上であるか否かを判定する認識判定処理部115と、合計文字数が所定文字数未満であると判定された場合、又は、割合が所定割合以上であると判定された場合に、補正テキスト文を抽出する補正テキスト抽出処理部と、対象テキスト文及び補正テキスト文に基づいて誤認識の文字を補正する補正処理部116と、を備える。
【選択図】図2
特許請求の範囲【請求項１】
ユーザーが発話した音声を認識してテキスト情報に変換する変換処理部と、
前記変換処理部により変換される前記テキスト情報から所定長さの第１テキスト文を抽出する第１抽出処理部と、
前記第１抽出処理部により抽出される前記第１テキスト文に誤認識候補の文字が含まれる場合に、前記第１テキスト文の合計文字数が所定文字数未満であるか否か、又は、前記第１テキスト文の合計文字数に対する前記誤認識候補の文字数の割合が所定割合以上であるか否かを判定する判定処理部と、
前記判定処理部により、前記合計文字数が前記所定文字数未満であると判定された場合、又は、前記割合が前記所定割合以上であると判定された場合に、前記テキスト情報から前記第１テキスト文とは異なる第２テキスト文を抽出する第２抽出処理部と、
前記第１テキスト文及び前記第２テキスト文に基づいて、前記誤認識候補の文字のうち誤認識の文字を補正する補正処理部と、
を備える情報処理システム。
続きを表示（約 1,600 文字）【請求項２】
前記補正処理部は、前記誤認識候補の文字をマスクした前記第１テキスト文と、前記第２テキスト文とに基づいて、前記誤認識の文字に対応する正解文字を予測し、マスクした前記誤認識の文字を前記正解文字に置き換える、
請求項１に記載の情報処理システム。
【請求項３】
前記第２抽出処理部は、前記テキスト情報から、時系列で前記第１テキスト文の直前のテキスト文を前記第２テキスト文として抽出する、
請求項１に記載の情報処理システム。
【請求項４】
前記第２抽出処理部は、前記テキスト情報から、時系列で前記第１テキスト文の直後のテキスト文を前記第２テキスト文として抽出する、
請求項１に記載の情報処理システム。
【請求項５】
前記第２抽出処理部は、前記テキスト情報から、前記第１テキスト文の内容と関連性のあるテキスト文を前記第２テキスト文として抽出する、
請求項１に記載の情報処理システム。
【請求項６】
前記第２抽出処理部は、前記第１テキスト文及び前記第２テキスト文の合計文字数が前記所定文字数以上になるまで、又は、前記第１テキスト文及び前記第２テキスト文の合計文字数に対する前記誤認識候補の文字数の割合が前記所定割合未満になるまで、前記第２テキスト文を抽出する、
請求項１に記載の情報処理システム。
【請求項７】
前記第２抽出処理部は、前記テキスト情報に対応する認識結果を表示する表示画面において、前記認識結果に含まれる複数のテキスト文の中から、一又は複数のテキスト文を選択する操作を受け付け、選択された前記一又は複数のテキスト文を前記第２テキスト文として抽出する、
請求項１に記載の情報処理システム。
【請求項８】
前記補正処理部により前記誤認識の文字が補正された前記第１テキスト文を表示装置に表示させる、
請求項１～７のいずれかに記載の情報処理システム。
【請求項９】
ユーザーが発話した音声を認識してテキスト情報に変換することと、
前記テキスト情報から所定長さの第１テキスト文を抽出することと、
前記第１テキスト文に誤認識候補の文字が含まれる場合に、前記第１テキスト文の合計文字数が所定文字数未満であるか否か、又は、前記第１テキスト文の合計文字数に対する前記誤認識候補の文字数の割合が所定割合以上であるか否かを判定することと、
前記合計文字数が前記所定文字数未満であると判定された場合、又は、前記割合が前記所定割合以上であると判定された場合に、前記テキスト情報から前記第１テキスト文とは異なる第２テキスト文を抽出することと、
前記第１テキスト文及び前記第２テキスト文に基づいて、前記誤認識候補の文字のうち誤認識の文字を補正することと、
を一又は複数のプロセッサーが実行する情報処理方法。
【請求項１０】
ユーザーが発話した音声を認識してテキスト情報に変換することと、
前記テキスト情報から所定長さの第１テキスト文を抽出することと、
前記第１テキスト文に誤認識候補の文字が含まれる場合に、前記第１テキスト文の合計文字数が所定文字数未満であるか否か、又は、前記第１テキスト文の合計文字数に対する前記誤認識候補の文字数の割合が所定割合以上であるか否かを判定することと、
前記合計文字数が前記所定文字数未満であると判定された場合、又は、前記割合が前記所定割合以上であると判定された場合に、前記テキスト情報から前記第１テキスト文とは異なる第２テキスト文を抽出することと、
前記第１テキスト文及び前記第２テキスト文に基づいて、前記誤認識候補の文字のうち誤認識の文字を補正することと、
を一又は複数のプロセッサーに実行させるための情報処理プログラム。

発明の詳細な説明【技術分野】
【０００１】
本開示は、ユーザーの発話音声をテキスト変換して表示する技術に関する。
続きを表示（約 2,600 文字）【背景技術】
【０００２】
従来、ユーザーの発話音声をテキスト情報に変換して表示する技術が知られている。例えば、ユーザーの発話音声をテキスト変換した文章（テキスト文）に含まれる固有表現の単語をマスク記号に置換し、マスク記号に置換した置換文章において、前記マスク記号を除く部分に基づいて前記マスク記号に対応するワードを予測し、前記マスク記号を前記ワードに補正して出力するシステムが知られている（例えば特許文献１参照）。
【先行技術文献】
【特許文献】
【０００３】
特許第７２１６８６３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかし、従来の技術では、例えば入力されるテキスト文が短い場合、又は、テキスト文に含まれるマスク箇所が多い場合には、マスク箇所に対する適切なワードを予測する精度が低下する問題が生じる。
【０００５】
本開示の目的は、音声をテキスト変換する音声認識精度を向上させることが可能な情報処理システム、情報処理方法、及び情報処理プログラムを提供することにある。
【課題を解決するための手段】
【０００６】
本開示の一の態様に係る情報処理システムは、変換処理部と第１抽出処理部と判定処理部と第２抽出処理部と補正処理部とを備える。前記変換処理部は、ユーザーが発話した音声を認識してテキスト情報に変換する。前記第１抽出処理部は、前記変換処理部により変換される前記テキスト情報から所定長さの第１テキスト文を抽出する。前記判定処理部は、前記第１抽出処理部により抽出される前記第１テキスト文に誤認識候補の文字が含まれる場合に、前記第１テキスト文の合計文字数が所定文字数未満であるか否か、又は、前記第１テキスト文の合計文字数に対する前記誤認識候補の文字数の割合が所定割合以上であるか否かを判定する。前記第２抽出処理部は、前記判定処理部により、前記合計文字数が前記所定文字数未満であると判定された場合、又は、前記割合が前記所定割合以上であると判定された場合に、前記テキスト情報から前記第１テキスト文とは異なる第２テキスト文を抽出する。前記補正処理部は、前記第１テキスト文及び前記第２テキスト文に基づいて、前記誤認識候補の文字のうち誤認識の文字を補正する。
【０００７】
本開示の他の態様に係る情報処理方法は、ユーザーが発話した音声を認識してテキスト情報に変換することと、前記テキスト情報から所定長さの第１テキスト文を抽出することと、前記第１テキスト文に誤認識候補の文字が含まれる場合に、前記第１テキスト文の合計文字数が所定文字数未満であるか否か、又は、前記第１テキスト文の合計文字数に対する前記誤認識候補の文字数の割合が所定割合以上であるか否かを判定することと、前記合計文字数が前記所定文字数未満であると判定された場合、又は、前記割合が前記所定割合以上であると判定された場合に、前記テキスト情報から前記第１テキスト文とは異なる第２テキスト文を抽出することと、前記第１テキスト文及び前記第２テキスト文に基づいて、前記誤認識候補の文字のうち誤認識の文字を補正することと、を一又は複数のプロセッサーが実行する情報処理方法である。
【０００８】
本開示の他の態様に係る情報処理プログラムは、ユーザーが発話した音声を認識してテキスト情報に変換することと、前記テキスト情報から所定長さの第１テキスト文を抽出することと、前記第１テキスト文に誤認識候補の文字が含まれる場合に、前記第１テキスト文の合計文字数が所定文字数未満であるか否か、又は、前記第１テキスト文の合計文字数に対する前記誤認識候補の文字数の割合が所定割合以上であるか否かを判定することと、前記合計文字数が前記所定文字数未満であると判定された場合、又は、前記割合が前記所定割合以上であると判定された場合に、前記テキスト情報から前記第１テキスト文とは異なる第２テキスト文を抽出することと、前記第１テキスト文及び前記第２テキスト文に基づいて、前記誤認識候補の文字のうち誤認識の文字を補正することと、を一又は複数のプロセッサーに実行させるための情報処理プログラムである。
【発明の効果】
【０００９】
本開示によれば、音声をテキスト変換する音声認識精度を向上させることが可能な情報処理システム、情報処理方法、及び情報処理プログラムを提供することできる。
【図面の簡単な説明】
【００１０】
図１は、本開示の実施形態に係る会議支援システムの適用例を示す図である。
図２は、本開示の実施形態に係る会議支援システムの構成を示すブロック図である。
図３は、本開示の実施形態に係る会議支援システムにおいて利用される機器情報の一例を示す図である。
図４は、本開示の実施形態に係る会議支援システムにおいて利用される発話情報の一例を示す図である。
図５Ａは、本開示の実施形態に係る会議支援システムにおいて表示される設定画面の一例を示す図である。
図５Ｂは、本開示の実施形態に係る会議支援システムにおいて表示される設定画面の一例を示す図である。
図６Ａは、ユーザーの発話内容の一例である。
図６Ｂは、本開示の実施形態に係る会議支援システムにおける音声認識結果の一例である。
図６Ｃは、本開示の実施形態に係る会議支援システムにおけるマスク処理の一例である。
図７は、本開示の実施形態に係る会議支援システムにおける音声認識結果の一例である。
図８は、本開示の実施形態に係る会議支援システムにおける補正結果の一例である。
図９は、本開示の実施形態に係る会議支援システムにおいて表示される会議画面の一例を示す図である。
図１０は、本開示の実施形態に係る会議支援装置において実行される会議支援処理の手順の一例を説明するためのフローチャートである。
図１１は、本開示の実施形態に係る会議支援システムにおける音声認識結果の一例である。
図１２は、本開示の実施形態に係る会議支援システムにおいて表示される会議画面の一例を示す図である。
【発明を実施するための形態】
（【００１１】以降は省略されています）

関連特許