TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025135075
公報種別公開特許公報(A)
公開日2025-09-18
出願番号2024032655
出願日2024-03-05
発明の名称情報処理システム、音声認識システム、情報処理方法、及びプログラム
出願人株式会社リコー
代理人個人,個人
主分類G10L 15/22 20060101AFI20250910BHJP(楽器;音響)
要約【課題】音声認識の精度向上に係る時間およびコストを低減させること。
【解決手段】本発明は、端末装置とネットワークを介して通信可能な情報処理システムであって、1人以上のユーザーにより発話された音声データの音声認識結果を取得する音声認識結果取得部と、前記音声認識結果と、前記1人以上のユーザーに関連付けられた固有語彙と、を自然言語処理のモデルである大規模言語モデルに送信し、前記大規模言語モデルが該固有語彙に基づいて前記音声認識結果を修正した修正後の音声認識結果を前記大規模言語モデルから取得する修正部と、取得した前記修正後の音声認識結果を、前記端末装置に対して送信する通信部と、を有する。
【選択図】図14
特許請求の範囲【請求項1】
端末装置とネットワークを介して通信可能な情報処理システムであって、
1人以上のユーザーにより発話された音声データの音声認識結果を取得する音声認識結果取得部と、
前記音声認識結果と、前記1人以上のユーザーに関連付けられた固有語彙と、を自然言語処理のモデルである大規模言語モデルに送信し、前記大規模言語モデルが該固有語彙に基づいて前記音声認識結果を修正した修正後の音声認識結果を前記大規模言語モデルから取得する修正部と、
取得した前記修正後の音声認識結果を、前記端末装置に対して送信する通信部と、
を有する情報処理システム。
続きを表示(約 1,600 文字)【請求項2】
前記修正部は、前記大規模言語モデルに自然言語で処理の内容を通知するプロンプトプログラミングを用いて、前記音声認識結果取得部が取得した前記音声認識結果の修正を要求する、請求項1に記載の情報処理システム。
【請求項3】
前記音声認識結果取得部は、音声ファイルに含まれる全ての音声データの音声認識結果を取得し、
前記修正部は、前記全ての音声データが音声認識された全ての音声認識結果の修正を1回又は複数回に分けて前記大規模言語モデルに要求する、請求項1に記載の情報処理システム。
【請求項4】
前記音声認識結果取得部は、前記端末装置から送信された音声データがリアルタイムに音声認識された前記音声認識結果を取得し、
前記通信部は、前記音声認識結果が取得した前記音声認識結果を前記端末装置に送信し、
前記修正部は、前記通信部が前記音声認識結果を前記端末装置に送信した後に、前記1人以上のユーザーに関連付けられた固有語彙を用いて前記大規模言語モデルが前記音声認識結果を修正した修正後の音声認識結果を前記大規模言語モデルから受信し、
前記通信部は、前記修正部が取得した前記修正後の音声認識結果を前記端末装置に送信する、請求項1に記載の情報処理システム。
【請求項5】
前記修正部は、前記ユーザーに関連付けられた固有語彙及び音声認識結果と共に前記音声認識結果の修正要否を前記大規模言語モデルに問い合わせ、
修正が必要であるという応答を前記大規模言語モデルから受信した場合、
前記修正部は、前記1人以上のユーザーに関連付けられた固有語彙を用いて前記大規模言語モデルが前記音声認識結果を修正した修正後の音声認識結果を前記大規模言語モデルから受信する、請求項1に記載の情報処理システム。
【請求項6】
前記修正部は、前記大規模言語モデルによって修正が必要と判断された場合に、前記固有語彙に基づいて前記音声認識結果を修正し、前記修正が必要と判断されなかった場合に、前記固有語彙に基づいた前記音声認識結果の修正をしない、請求項5に記載の情報処理システム。
【請求項7】
前記情報処理システムは更に、前記1人以上のユーザーのうちの所定のユーザーと、前記端末装置に対して前記所定のユーザーが入力した前記固有語彙と、を関連付けて登録する固有語彙記憶部を有する、請求項1に記載の情報処理システム。
【請求項8】
前記音声認識結果取得部は、End-to-Endモデルで音声認識された前記音声認識結果を取得する、請求項1に記載の情報処理システム。
【請求項9】
端末装置と、情報処理システムと、前記情報処理システムと自然言語処理のモデルである大規模言語モデルを有する言語処理装置と、がネットワークを介してそれぞれ通信可能に接続された音声認識システムであって、
前記情報処理システムは、
1人以上のユーザーにより発話された音声データの音声認識結果を取得する音声認識結果取得部と、
前記音声認識結果と、前記1人以上のユーザーに関連付けられた固有語彙と、を前記言語処理装置に送信し、前記言語処理装置の前記大規模言語モデルが該固有語彙に基づいて前記音声認識結果を修正した修正後の音声認識結果を前記言語処理装置から取得する修正部と、
取得した前記修正後の音声認識結果を前記端末装置に対して送信する通信部と、を有し、
前記端末装置は、
前記情報処理システムから受信した前記修正後の音声認識結果を表示部に表示させる表示制御部を有する音声認識システム。
【請求項10】
前記大規模言語モデルは、前記音声認識結果取得部が取得した前記音声認識結果に含まれる1つ以上の文字を、前記固有語彙に含まれる文字列で修正する、請求項9に記載の音声認識システム。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、情報処理システム、音声認識システム、情報処理方法、及びプログラムに関する。
続きを表示(約 2,400 文字)【背景技術】
【0002】
高精度かつ頑健性に優れた音声認識モデルとして、End-to-Endモデルが知られている。End-to-Endモデルは従来のDNN-HMMモデル又はGMM-HMMモデルのように、音響モデル/言語モデル/発音辞書に機能が分割されておらず、1つのネットワークで音声データを文字データに直接変換する構成であるため、高度な属人的スキルも必要としないメリットがある。
【0003】
音声認識結果は必ずしも発話どおりに変換されるものではないため、音声認識結果を補正する技術が知られている(例えば特許文献1参照)。特許文献1には、ユーザーが発話した音声データを認識した結果を、発話内容が分類されたカテゴリに対応するカテゴリ辞書に基づいて修正する技術が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の技術では、音声認識の精度を向上させるために時間およびコストがかかってしまう。
【0005】
本発明は、上記課題に鑑み、音声認識の精度向上に係る時間およびコストを低減させることを目的とする。
【課題を解決するための手段】
【0006】
上記課題に鑑み、本発明は、端末装置とネットワークを介して通信可能な情報処理システムであって、1人以上のユーザーにより発話された音声データの音声認識結果を取得する音声認識結果取得部と、前記音声認識結果と、前記1人以上のユーザーに関連付けられた固有語彙と、を自然言語処理のモデルである大規模言語モデルに送信し、前記大規模言語モデルが該固有語彙に基づいて前記音声認識結果を修正した修正後の音声認識結果を前記大規模言語モデルから取得する修正部と、取得した前記修正後の音声認識結果を、前記端末装置に対して送信する通信部と、を有する。
【発明の効果】
【0007】
固有語彙を大規模言語モデルに送信して修正後の音声認識結果を得るので、音声認識の精度向上に係る時間およびコストを低減させることができる。
【図面の簡単な説明】
【0008】
DNN-HMMモデル及びEnd-to-Endモデルを説明する図である。
End-to-Endモデルを固有語彙に対応させる必要性を説明する図である。
End-to-Endモデルの追学習を模式的に説明する図である。
End-to-Endモデルによる音声認識結果を大規模言語モデルがユーザーの語彙で修正する方法を説明する図である。
固有語彙に対応する2つの方法(プロンプトプログラミング、ファインチューニング)を比較して説明する図である。
音声認識システムの一例のシステム構成を示す図である。
情報処理システム又はユーザー端末の一例のハードウェア構成を示す図である。
情報処理システム、及びユーザー端末の一例の機能構成を示す図である。
固有語彙記憶部に記憶されている固有語彙管理テーブルの一例を示す概念図である。
大規模言語モデルについて詳細に説明する図である。
音声認識で起こりやすい誤認識の例と、大規模言語モデルによる修正例を説明する図である。
リアルタイム認識と一括認識を対比して説明する図である。
音声認識システムが音声認識した音声認識結果(文字データ)を言語処理装置40が修正する処理を説明するシーケンス図である(一括処理)。
音声認識システムが音声認識した音声認識結果(文字データ)を言語処理装置が修正する処理を説明するフローチャートの一例である。
ユーザーが図22の固有語彙入力画面で登録した固有語彙の一例を示す図である。
情報処理システムが音声認識することで生成した音声認識結果(文字データ)の一例を示す図である。
「check_prompt」関数の一例を示す図である。
「correction_prompt」関数の一例を示す図である。
言語処理装置に送信されるcheck_promptの一例を示す図である。
「correction_prompt」関数により生成されるcorrection_promptプロンプトの一例を示す図である。
correction_promptに対して言語処理装置が返した応答メッセージの一例を示す図である。
ユーザー端末が表示する固有語彙入力画面の一例を示す図である。
ユーザー端末が音声認識結果(文字データ)を表示する音声認識画面の一例を示す図である。
音声認識と音声認識結果(文字データ)の修正の流れを説明するフローチャートの一例である。
音声認識システムが音声認識した音声認識結果(文字データ)を言語処理装置が修正する処理を説明するシーケンス図の一例である(リアルタイム認識)。
ユーザー端末が音声認識結果(文字データ)を表示する音声認識画面の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、本発明を実施するための形態の一例として音声認識システムと、音声認識システムが行う情報処理方法について図面を参照しながら説明する。
【0010】
<音声認識モデル>
まず、図1を参照して、音声認識モデルについて説明する。図1(a)はDNN-HMMモデルを採用した音声認識モデル206における音声認識の流れを示し、図1(b)はEnd-to-Endモデルを採用した音声認識モデル207の認識の流れを示す。なお、以下に示す各ステップ番号(S1,S2,S3,S4)で示される処理は、図1(a)、(b)の各ステップ番号にそれぞれ対応する処理である。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

株式会社リコー
画像形成装置
7日前
株式会社リコー
画像形成装置
8日前
株式会社リコー
画像形成装置
今日
株式会社リコー
画像投射システム
今日
株式会社リコー
投薬管理システム
8日前
株式会社リコー
樹脂粒子およびその製造方法
8日前
株式会社リコー
印刷ファイル前処理メカニズム
7日前
株式会社リコー
画像形成装置及び画像形成方法
8日前
株式会社リコー
導光部材、光学系及び表示装置
1日前
株式会社リコー
媒体供給装置及び画像形成システム
8日前
株式会社リコー
機器、情報処理方法及びプログラム
8日前
株式会社リコー
原稿処理装置及び原稿処理システム
8日前
株式会社リコー
表示端末、表示方法、及びプログラム
8日前
株式会社リコー
表示端末、表示方法、及びプログラム
7日前
株式会社リコー
レーザ照射装置、及びレーザ照射方法
7日前
株式会社リコー
液体吐出ヘッド及び液体を吐出する装置
1日前
株式会社リコー
画像形成装置、制御方法およびプログラム
1日前
株式会社リコー
画像形成装置及び画像形成装置の制御方法
1日前
株式会社リコー
サブレンジ伝達関数を生成するための機構
1日前
株式会社リコー
印刷方法、インクセット及び印刷物の製造方法
8日前
株式会社リコー
ローラ部材、ベルト装置、及び、画像形成装置
今日
株式会社リコー
液体循環装置、液体吐出装置および画像形成装置
8日前
株式会社リコー
モジュール部品の製造方法、及びモジュール部品
7日前
株式会社リコー
画像読取装置、画像形成装置および画像読取方法
9日前
株式会社リコー
画像形成装置、画像形成方法、およびプログラム
7日前
株式会社リコー
感光体、画像形成装置及びプロセスカートリッジ
1日前
株式会社リコー
情報処理システム、情報処理方法およびプログラム
今日
株式会社リコー
表示装置、表示システム、特定方法およびプログラム
1日前
株式会社リコー
情報処理システム、情報処理方法、およびプログラム
今日
株式会社リコー
情報処理装置、ログ管理方法、及びログ管理プログラム
8日前
株式会社リコー
情報処理システム、情報処理装置、方法およびプログラム
7日前
株式会社リコー
ポイント管理システム、ポイント管理方法およびプログラム
9日前
株式会社リコー
アクチュエータユニット、液体吐出ヘッド及び液体を吐出する装置
1日前
株式会社リコー
情報処理システム、インフラ計測システム、計測方法、プログラム
7日前
株式会社リコー
液体吐出ヘッド、液体を吐出する装置及び液体吐出ヘッドの製造方法
1日前
株式会社リコー
光電変換素子、太陽電池モジュール、電子機器、及び電源モジュール
1日前
続きを見る