TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025113610
公報種別公開特許公報(A)
公開日2025-08-04
出願番号2024007856
出願日2024-01-23
発明の名称情報処理システム、情報処理方法、及び情報処理プログラム
出願人シャープ株式会社
代理人個人,個人,個人
主分類G10L 15/22 20060101AFI20250728BHJP(楽器;音響)
要約【課題】音声をテキスト変換する音声認識精度を向上させることが可能な情報処理システム、情報処理方法、及び情報処理プログラムを提供する。
【解決手段】情報処理装置1は、ユーザーの発話音声をテキスト情報に変換する音声認識処理部113と、テキスト情報から所定長さの対象テキスト文を抽出する対象テキスト抽出処理部と、対象テキスト文に誤認識候補の文字が含まれる場合に、対象テキスト文の合計文字数が所定文字数未満であるか否か、又は、対象テキスト文の合計文字数に対する誤認識候補の文字数の割合が所定割合以上であるか否かを判定する認識判定処理部115と、合計文字数が所定文字数未満であると判定された場合、又は、割合が所定割合以上であると判定された場合に、補正テキスト文を抽出する補正テキスト抽出処理部と、対象テキスト文及び補正テキスト文に基づいて誤認識の文字を補正する補正処理部116と、を備える。
【選択図】図2
特許請求の範囲【請求項1】
ユーザーが発話した音声を認識してテキスト情報に変換する変換処理部と、
前記変換処理部により変換される前記テキスト情報から所定長さの第1テキスト文を抽出する第1抽出処理部と、
前記第1抽出処理部により抽出される前記第1テキスト文に誤認識候補の文字が含まれる場合に、前記第1テキスト文の合計文字数が所定文字数未満であるか否か、又は、前記第1テキスト文の合計文字数に対する前記誤認識候補の文字数の割合が所定割合以上であるか否かを判定する判定処理部と、
前記判定処理部により、前記合計文字数が前記所定文字数未満であると判定された場合、又は、前記割合が前記所定割合以上であると判定された場合に、前記テキスト情報から前記第1テキスト文とは異なる第2テキスト文を抽出する第2抽出処理部と、
前記第1テキスト文及び前記第2テキスト文に基づいて、前記誤認識候補の文字のうち誤認識の文字を補正する補正処理部と、
を備える情報処理システム。
続きを表示(約 1,600 文字)【請求項2】
前記補正処理部は、前記誤認識候補の文字をマスクした前記第1テキスト文と、前記第2テキスト文とに基づいて、前記誤認識の文字に対応する正解文字を予測し、マスクした前記誤認識の文字を前記正解文字に置き換える、
請求項1に記載の情報処理システム。
【請求項3】
前記第2抽出処理部は、前記テキスト情報から、時系列で前記第1テキスト文の直前のテキスト文を前記第2テキスト文として抽出する、
請求項1に記載の情報処理システム。
【請求項4】
前記第2抽出処理部は、前記テキスト情報から、時系列で前記第1テキスト文の直後のテキスト文を前記第2テキスト文として抽出する、
請求項1に記載の情報処理システム。
【請求項5】
前記第2抽出処理部は、前記テキスト情報から、前記第1テキスト文の内容と関連性のあるテキスト文を前記第2テキスト文として抽出する、
請求項1に記載の情報処理システム。
【請求項6】
前記第2抽出処理部は、前記第1テキスト文及び前記第2テキスト文の合計文字数が前記所定文字数以上になるまで、又は、前記第1テキスト文及び前記第2テキスト文の合計文字数に対する前記誤認識候補の文字数の割合が前記所定割合未満になるまで、前記第2テキスト文を抽出する、
請求項1に記載の情報処理システム。
【請求項7】
前記第2抽出処理部は、前記テキスト情報に対応する認識結果を表示する表示画面において、前記認識結果に含まれる複数のテキスト文の中から、一又は複数のテキスト文を選択する操作を受け付け、選択された前記一又は複数のテキスト文を前記第2テキスト文として抽出する、
請求項1に記載の情報処理システム。
【請求項8】
前記補正処理部により前記誤認識の文字が補正された前記第1テキスト文を表示装置に表示させる、
請求項1~7のいずれかに記載の情報処理システム。
【請求項9】
ユーザーが発話した音声を認識してテキスト情報に変換することと、
前記テキスト情報から所定長さの第1テキスト文を抽出することと、
前記第1テキスト文に誤認識候補の文字が含まれる場合に、前記第1テキスト文の合計文字数が所定文字数未満であるか否か、又は、前記第1テキスト文の合計文字数に対する前記誤認識候補の文字数の割合が所定割合以上であるか否かを判定することと、
前記合計文字数が前記所定文字数未満であると判定された場合、又は、前記割合が前記所定割合以上であると判定された場合に、前記テキスト情報から前記第1テキスト文とは異なる第2テキスト文を抽出することと、
前記第1テキスト文及び前記第2テキスト文に基づいて、前記誤認識候補の文字のうち誤認識の文字を補正することと、
を一又は複数のプロセッサーが実行する情報処理方法。
【請求項10】
ユーザーが発話した音声を認識してテキスト情報に変換することと、
前記テキスト情報から所定長さの第1テキスト文を抽出することと、
前記第1テキスト文に誤認識候補の文字が含まれる場合に、前記第1テキスト文の合計文字数が所定文字数未満であるか否か、又は、前記第1テキスト文の合計文字数に対する前記誤認識候補の文字数の割合が所定割合以上であるか否かを判定することと、
前記合計文字数が前記所定文字数未満であると判定された場合、又は、前記割合が前記所定割合以上であると判定された場合に、前記テキスト情報から前記第1テキスト文とは異なる第2テキスト文を抽出することと、
前記第1テキスト文及び前記第2テキスト文に基づいて、前記誤認識候補の文字のうち誤認識の文字を補正することと、
を一又は複数のプロセッサーに実行させるための情報処理プログラム。

発明の詳細な説明【技術分野】
【0001】
本開示は、ユーザーの発話音声をテキスト変換して表示する技術に関する。
続きを表示(約 2,600 文字)【背景技術】
【0002】
従来、ユーザーの発話音声をテキスト情報に変換して表示する技術が知られている。例えば、ユーザーの発話音声をテキスト変換した文章(テキスト文)に含まれる固有表現の単語をマスク記号に置換し、マスク記号に置換した置換文章において、前記マスク記号を除く部分に基づいて前記マスク記号に対応するワードを予測し、前記マスク記号を前記ワードに補正して出力するシステムが知られている(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
特許第7216863号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、従来の技術では、例えば入力されるテキスト文が短い場合、又は、テキスト文に含まれるマスク箇所が多い場合には、マスク箇所に対する適切なワードを予測する精度が低下する問題が生じる。
【0005】
本開示の目的は、音声をテキスト変換する音声認識精度を向上させることが可能な情報処理システム、情報処理方法、及び情報処理プログラムを提供することにある。
【課題を解決するための手段】
【0006】
本開示の一の態様に係る情報処理システムは、変換処理部と第1抽出処理部と判定処理部と第2抽出処理部と補正処理部とを備える。前記変換処理部は、ユーザーが発話した音声を認識してテキスト情報に変換する。前記第1抽出処理部は、前記変換処理部により変換される前記テキスト情報から所定長さの第1テキスト文を抽出する。前記判定処理部は、前記第1抽出処理部により抽出される前記第1テキスト文に誤認識候補の文字が含まれる場合に、前記第1テキスト文の合計文字数が所定文字数未満であるか否か、又は、前記第1テキスト文の合計文字数に対する前記誤認識候補の文字数の割合が所定割合以上であるか否かを判定する。前記第2抽出処理部は、前記判定処理部により、前記合計文字数が前記所定文字数未満であると判定された場合、又は、前記割合が前記所定割合以上であると判定された場合に、前記テキスト情報から前記第1テキスト文とは異なる第2テキスト文を抽出する。前記補正処理部は、前記第1テキスト文及び前記第2テキスト文に基づいて、前記誤認識候補の文字のうち誤認識の文字を補正する。
【0007】
本開示の他の態様に係る情報処理方法は、ユーザーが発話した音声を認識してテキスト情報に変換することと、前記テキスト情報から所定長さの第1テキスト文を抽出することと、前記第1テキスト文に誤認識候補の文字が含まれる場合に、前記第1テキスト文の合計文字数が所定文字数未満であるか否か、又は、前記第1テキスト文の合計文字数に対する前記誤認識候補の文字数の割合が所定割合以上であるか否かを判定することと、前記合計文字数が前記所定文字数未満であると判定された場合、又は、前記割合が前記所定割合以上であると判定された場合に、前記テキスト情報から前記第1テキスト文とは異なる第2テキスト文を抽出することと、前記第1テキスト文及び前記第2テキスト文に基づいて、前記誤認識候補の文字のうち誤認識の文字を補正することと、を一又は複数のプロセッサーが実行する情報処理方法である。
【0008】
本開示の他の態様に係る情報処理プログラムは、ユーザーが発話した音声を認識してテキスト情報に変換することと、前記テキスト情報から所定長さの第1テキスト文を抽出することと、前記第1テキスト文に誤認識候補の文字が含まれる場合に、前記第1テキスト文の合計文字数が所定文字数未満であるか否か、又は、前記第1テキスト文の合計文字数に対する前記誤認識候補の文字数の割合が所定割合以上であるか否かを判定することと、前記合計文字数が前記所定文字数未満であると判定された場合、又は、前記割合が前記所定割合以上であると判定された場合に、前記テキスト情報から前記第1テキスト文とは異なる第2テキスト文を抽出することと、前記第1テキスト文及び前記第2テキスト文に基づいて、前記誤認識候補の文字のうち誤認識の文字を補正することと、を一又は複数のプロセッサーに実行させるための情報処理プログラムである。
【発明の効果】
【0009】
本開示によれば、音声をテキスト変換する音声認識精度を向上させることが可能な情報処理システム、情報処理方法、及び情報処理プログラムを提供することできる。
【図面の簡単な説明】
【0010】
図1は、本開示の実施形態に係る会議支援システムの適用例を示す図である。
図2は、本開示の実施形態に係る会議支援システムの構成を示すブロック図である。
図3は、本開示の実施形態に係る会議支援システムにおいて利用される機器情報の一例を示す図である。
図4は、本開示の実施形態に係る会議支援システムにおいて利用される発話情報の一例を示す図である。
図5Aは、本開示の実施形態に係る会議支援システムにおいて表示される設定画面の一例を示す図である。
図5Bは、本開示の実施形態に係る会議支援システムにおいて表示される設定画面の一例を示す図である。
図6Aは、ユーザーの発話内容の一例である。
図6Bは、本開示の実施形態に係る会議支援システムにおける音声認識結果の一例である。
図6Cは、本開示の実施形態に係る会議支援システムにおけるマスク処理の一例である。
図7は、本開示の実施形態に係る会議支援システムにおける音声認識結果の一例である。
図8は、本開示の実施形態に係る会議支援システムにおける補正結果の一例である。
図9は、本開示の実施形態に係る会議支援システムにおいて表示される会議画面の一例を示す図である。
図10は、本開示の実施形態に係る会議支援装置において実行される会議支援処理の手順の一例を説明するためのフローチャートである。
図11は、本開示の実施形態に係る会議支援システムにおける音声認識結果の一例である。
図12は、本開示の実施形態に係る会議支援システムにおいて表示される会議画面の一例を示す図である。
【発明を実施するための形態】
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

シャープ株式会社
冷蔵庫
1か月前
シャープ株式会社
洗濯機
1か月前
シャープ株式会社
冷蔵庫
10日前
シャープ株式会社
洗濯機
1か月前
シャープ株式会社
冷蔵庫
1か月前
シャープ株式会社
洗濯機
17日前
シャープ株式会社
洗濯機
1か月前
シャープ株式会社
冷却庫
1か月前
シャープ株式会社
冷却庫
1か月前
シャープ株式会社
冷却庫
1か月前
シャープ株式会社
洗濯機
1か月前
シャープ株式会社
表示装置
26日前
シャープ株式会社
送風装置
13日前
シャープ株式会社
冷却装置
1か月前
シャープ株式会社
冷却装置
1か月前
シャープ株式会社
送風装置
6日前
シャープ株式会社
送風装置
6日前
シャープ株式会社
送風装置
13日前
シャープ株式会社
冷却装置
1か月前
シャープ株式会社
加湿装置
18日前
シャープ株式会社
表示装置
24日前
シャープ株式会社
冷却装置
10日前
シャープ株式会社
電気掃除機
1か月前
シャープ株式会社
加熱調理器
27日前
シャープ株式会社
加熱調理機
24日前
シャープ株式会社
加熱調理器
24日前
シャープ株式会社
加熱調理器
24日前
シャープ株式会社
加熱調理器
24日前
シャープ株式会社
加熱調理器
24日前
シャープ株式会社
加熱調理器
24日前
シャープ株式会社
加熱調理器
26日前
シャープ株式会社
画像形成装置
13日前
シャープ株式会社
画像形成装置
19日前
シャープ株式会社
画像形成装置
27日前
シャープ株式会社
画像形成装置
26日前
シャープ株式会社
画像形成装置
5日前
続きを見る