特許ウォッチ

公開番号2025135075
公報種別公開特許公報(A)
公開日2025-09-18
出願番号2024032655
出願日2024-03-05
発明の名称情報処理システム、音声認識システム、情報処理方法、及びプログラム
出願人株式会社リコー
代理人個人,個人
主分類G10L 15/22 20060101AFI20250910BHJP(楽器;音響)
要約【課題】音声認識の精度向上に係る時間およびコストを低減させること。
【解決手段】本発明は、端末装置とネットワークを介して通信可能な情報処理システムであって、1人以上のユーザーにより発話された音声データの音声認識結果を取得する音声認識結果取得部と、前記音声認識結果と、前記1人以上のユーザーに関連付けられた固有語彙と、を自然言語処理のモデルである大規模言語モデルに送信し、前記大規模言語モデルが該固有語彙に基づいて前記音声認識結果を修正した修正後の音声認識結果を前記大規模言語モデルから取得する修正部と、取得した前記修正後の音声認識結果を、前記端末装置に対して送信する通信部と、を有する。
【選択図】図14
特許請求の範囲【請求項１】
端末装置とネットワークを介して通信可能な情報処理システムであって、
１人以上のユーザーにより発話された音声データの音声認識結果を取得する音声認識結果取得部と、
前記音声認識結果と、前記１人以上のユーザーに関連付けられた固有語彙と、を自然言語処理のモデルである大規模言語モデルに送信し、前記大規模言語モデルが該固有語彙に基づいて前記音声認識結果を修正した修正後の音声認識結果を前記大規模言語モデルから取得する修正部と、
取得した前記修正後の音声認識結果を、前記端末装置に対して送信する通信部と、
を有する情報処理システム。
続きを表示（約 1,600 文字）【請求項２】
前記修正部は、前記大規模言語モデルに自然言語で処理の内容を通知するプロンプトプログラミングを用いて、前記音声認識結果取得部が取得した前記音声認識結果の修正を要求する、請求項１に記載の情報処理システム。
【請求項３】
前記音声認識結果取得部は、音声ファイルに含まれる全ての音声データの音声認識結果を取得し、
前記修正部は、前記全ての音声データが音声認識された全ての音声認識結果の修正を１回又は複数回に分けて前記大規模言語モデルに要求する、請求項１に記載の情報処理システム。
【請求項４】
前記音声認識結果取得部は、前記端末装置から送信された音声データがリアルタイムに音声認識された前記音声認識結果を取得し、
前記通信部は、前記音声認識結果が取得した前記音声認識結果を前記端末装置に送信し、
前記修正部は、前記通信部が前記音声認識結果を前記端末装置に送信した後に、前記１人以上のユーザーに関連付けられた固有語彙を用いて前記大規模言語モデルが前記音声認識結果を修正した修正後の音声認識結果を前記大規模言語モデルから受信し、
前記通信部は、前記修正部が取得した前記修正後の音声認識結果を前記端末装置に送信する、請求項１に記載の情報処理システム。
【請求項５】
前記修正部は、前記ユーザーに関連付けられた固有語彙及び音声認識結果と共に前記音声認識結果の修正要否を前記大規模言語モデルに問い合わせ、
修正が必要であるという応答を前記大規模言語モデルから受信した場合、
前記修正部は、前記１人以上のユーザーに関連付けられた固有語彙を用いて前記大規模言語モデルが前記音声認識結果を修正した修正後の音声認識結果を前記大規模言語モデルから受信する、請求項１に記載の情報処理システム。
【請求項６】
前記修正部は、前記大規模言語モデルによって修正が必要と判断された場合に、前記固有語彙に基づいて前記音声認識結果を修正し、前記修正が必要と判断されなかった場合に、前記固有語彙に基づいた前記音声認識結果の修正をしない、請求項５に記載の情報処理システム。
【請求項７】
前記情報処理システムは更に、前記１人以上のユーザーのうちの所定のユーザーと、前記端末装置に対して前記所定のユーザーが入力した前記固有語彙と、を関連付けて登録する固有語彙記憶部を有する、請求項１に記載の情報処理システム。
【請求項８】
前記音声認識結果取得部は、End－to－Endモデルで音声認識された前記音声認識結果を取得する、請求項１に記載の情報処理システム。
【請求項９】
端末装置と、情報処理システムと、前記情報処理システムと自然言語処理のモデルである大規模言語モデルを有する言語処理装置と、がネットワークを介してそれぞれ通信可能に接続された音声認識システムであって、
前記情報処理システムは、
１人以上のユーザーにより発話された音声データの音声認識結果を取得する音声認識結果取得部と、
前記音声認識結果と、前記１人以上のユーザーに関連付けられた固有語彙と、を前記言語処理装置に送信し、前記言語処理装置の前記大規模言語モデルが該固有語彙に基づいて前記音声認識結果を修正した修正後の音声認識結果を前記言語処理装置から取得する修正部と、
取得した前記修正後の音声認識結果を前記端末装置に対して送信する通信部と、を有し、
前記端末装置は、
前記情報処理システムから受信した前記修正後の音声認識結果を表示部に表示させる表示制御部を有する音声認識システム。
【請求項１０】
前記大規模言語モデルは、前記音声認識結果取得部が取得した前記音声認識結果に含まれる１つ以上の文字を、前記固有語彙に含まれる文字列で修正する、請求項９に記載の音声認識システム。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本発明は、情報処理システム、音声認識システム、情報処理方法、及びプログラムに関する。
続きを表示（約 2,400 文字）【背景技術】
【０００２】
高精度かつ頑健性に優れた音声認識モデルとして、End－to－Endモデルが知られている。End－to－Endモデルは従来のDNN－HMMモデル又はGMM－HMMモデルのように、音響モデル/言語モデル/発音辞書に機能が分割されておらず、１つのネットワークで音声データを文字データに直接変換する構成であるため、高度な属人的スキルも必要としないメリットがある。
【０００３】
音声認識結果は必ずしも発話どおりに変換されるものではないため、音声認識結果を補正する技術が知られている（例えば特許文献１参照）。特許文献１には、ユーザーが発話した音声データを認識した結果を、発話内容が分類されたカテゴリに対応するカテゴリ辞書に基づいて修正する技術が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、従来の技術では、音声認識の精度を向上させるために時間およびコストがかかってしまう。
【０００５】
本発明は、上記課題に鑑み、音声認識の精度向上に係る時間およびコストを低減させることを目的とする。
【課題を解決するための手段】
【０００６】
上記課題に鑑み、本発明は、端末装置とネットワークを介して通信可能な情報処理システムであって、１人以上のユーザーにより発話された音声データの音声認識結果を取得する音声認識結果取得部と、前記音声認識結果と、前記１人以上のユーザーに関連付けられた固有語彙と、を自然言語処理のモデルである大規模言語モデルに送信し、前記大規模言語モデルが該固有語彙に基づいて前記音声認識結果を修正した修正後の音声認識結果を前記大規模言語モデルから取得する修正部と、取得した前記修正後の音声認識結果を、前記端末装置に対して送信する通信部と、を有する。
【発明の効果】
【０００７】
固有語彙を大規模言語モデルに送信して修正後の音声認識結果を得るので、音声認識の精度向上に係る時間およびコストを低減させることができる。
【図面の簡単な説明】
【０００８】
DNN－HMMモデル及びEnd－to－Endモデルを説明する図である。
End－to－Endモデルを固有語彙に対応させる必要性を説明する図である。
End－to－Endモデルの追学習を模式的に説明する図である。
End－to－Endモデルによる音声認識結果を大規模言語モデルがユーザーの語彙で修正する方法を説明する図である。
固有語彙に対応する２つの方法（プロンプトプログラミング、ファインチューニング）を比較して説明する図である。
音声認識システムの一例のシステム構成を示す図である。
情報処理システム又はユーザー端末の一例のハードウェア構成を示す図である。
情報処理システム、及びユーザー端末の一例の機能構成を示す図である。
固有語彙記憶部に記憶されている固有語彙管理テーブルの一例を示す概念図である。
大規模言語モデルについて詳細に説明する図である。
音声認識で起こりやすい誤認識の例と、大規模言語モデルによる修正例を説明する図である。
リアルタイム認識と一括認識を対比して説明する図である。
音声認識システムが音声認識した音声認識結果（文字データ）を言語処理装置４０が修正する処理を説明するシーケンス図である（一括処理）。
音声認識システムが音声認識した音声認識結果（文字データ）を言語処理装置が修正する処理を説明するフローチャートの一例である。
ユーザーが図２２の固有語彙入力画面で登録した固有語彙の一例を示す図である。
情報処理システムが音声認識することで生成した音声認識結果（文字データ）の一例を示す図である。
「check_prompt」関数の一例を示す図である。
「correction_prompt」関数の一例を示す図である。
言語処理装置に送信されるcheck_promptの一例を示す図である。
「correction_prompt」関数により生成されるcorrection_promptプロンプトの一例を示す図である。
correction_promptに対して言語処理装置が返した応答メッセージの一例を示す図である。
ユーザー端末が表示する固有語彙入力画面の一例を示す図である。
ユーザー端末が音声認識結果（文字データ）を表示する音声認識画面の一例を示す図である。
音声認識と音声認識結果（文字データ）の修正の流れを説明するフローチャートの一例である。
音声認識システムが音声認識した音声認識結果（文字データ）を言語処理装置が修正する処理を説明するシーケンス図の一例である（リアルタイム認識）。
ユーザー端末が音声認識結果（文字データ）を表示する音声認識画面の一例を示す図である。
【発明を実施するための形態】
【０００９】
以下、本発明を実施するための形態の一例として音声認識システムと、音声認識システムが行う情報処理方法について図面を参照しながら説明する。
【００１０】
＜音声認識モデル＞
まず、図１を参照して、音声認識モデルについて説明する。図１（ａ）はDNN－HMMモデルを採用した音声認識モデル２０６における音声認識の流れを示し、図１（ｂ）はEnd－to－Endモデルを採用した音声認識モデル２０７の認識の流れを示す。なお、以下に示す各ステップ番号（S1,S2,S3,S4）で示される処理は、図１（ａ）、（ｂ）の各ステップ番号にそれぞれ対応する処理である。
（【００１１】以降は省略されています）

関連特許