TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025007075
公報種別公開特許公報(A)
公開日2025-01-17
出願番号2023108240
出願日2023-06-30
発明の名称音声認識システム、及び、音声認識方法
出願人オンキヨー株式会社
代理人
主分類G10L 15/22 20060101AFI20250109BHJP(楽器;音響)
要約【課題】従来の音声認識において、メモリが不足することを防止する手段を提供することである。
【解決手段】音声認識システムは、音声認識処理の結果であるテキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理を実行する。そして、音声認識システムは、検出処理によって検出された区切りよりも前のテキストデータを保持し、テキストデータに対応する音声データと、音声認識処理を実行するにあたって一時的に記憶部に生成されたデータを破棄する破棄処理を実行し、破棄処理によって破棄された区間を除いた音声データに対して、音声認識処理を実行する。
【選択図】図1
特許請求の範囲【請求項1】
音声データを記憶部に記憶し、前記記憶部を作業領域として前記記憶部に記憶した前記音声データから音声を認識し、テキストデータに変換する音声認識処理と、
前記音声認識処理の結果である前記テキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理と、
前記記憶部に記憶されている、前記検出処理によって検出された区切りよりも前の前記テキストデータを保持し、前記テキストデータに対応する音声データと、前記音声認識処理を実行するにあたって一時的に前記記憶部に生成されたデータと、を破棄する破棄処理と、
を実行し、
前記破棄処理によって破棄された区間を除いた前記音声データに対して、前記音声認識処理を実行することを特徴とする音声認識システム。
続きを表示(約 1,200 文字)【請求項2】
前記検出処理において、所定の基準によって区切られる区切りを文章としての区切りとし、前記テキストデータにおいて文章としての区切りを検出することを特徴とする請求項1に記載の音声認識システム。
【請求項3】
前記検出処理において、所定の基準によって区切られる区切りを一定時間のフィラー又は特定の単語が続く場合とし、前記テキストデータにおいて一定時間のフィラー又は特定の単語が続いたことを検出することを特徴とする請求項1に記載の音声認識システム。
【請求項4】
前記検出処理において、所定の基準によって区切られる区切りを句点とし、前記テキストデータにおいて句点を検出することを特徴とする請求項1に記載の音声認識システム。
【請求項5】
前記音声認識処理において、前記音声データから、有向グラフとして表現した出力候補のグラフであるラティスを生成し、生成したラティスの候補の中から最も可能性が高い候補を選択することで、音声を認識することを特徴とする請求項1に記載の音声認識システム。
【請求項6】
前記音声認識処理を実行する前の前記音声データに音声区間を検出する音声区間検出処理を実行し、
前記音声区間検出処理が実行された前記音声データに対して、前記音声認識処理を実行することを特徴とする請求項1に記載の音声認識システム。
【請求項7】
前記音声認識処理において、前記音声データから所定の間隔ごとに音声を認識することを特徴とする請求項1に記載の音声認識システム。
【請求項8】
前記所定の間隔は、一定の間隔又は互いに異なる間隔であることを特徴とする請求項7に記載の音声認識システム。
【請求項9】
前記破棄処理において、前記記憶部に記憶されている、前記検出処理によって検出された区切りよりも後の前記テキストデータを破棄することを特徴とする請求項1に記載の音声認識システム。
【請求項10】
音声データを記憶部に記憶し、前記記憶部を作業領域として前記記憶部に記憶した前記音声データから音声を認識し、テキストデータに変換する音声認識処理と、
前記音声認識処理の結果である前記テキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理と、
前記記憶部に記憶されている、前記検出処理によって検出された区切りよりも前の前記テキストデータを保持し、前記テキストデータに対応する音声データと、前記音声認識処理を実行するにあたって一時的に前記記憶部に生成されたデータと、を破棄する破棄処理と、
を実行し、
前記破棄処理によって破棄された区間を除いた前記音声データに対して、前記音声認識処理を実行することを特徴とする音声認識方法。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、音声認識システム、及び、音声認識方法に関する。
続きを表示(約 1,900 文字)【背景技術】
【0002】
従来の音声認識として、種々の手法が知られており、その一つとして、以下の手法がある。すなわち、入力された音声を音声認識する際、発話された文を構成する可能性のある1つ以上の文字又は単語を、有向グラフとして表現した出力候補のグラフであるラティス(lattice)を生成し、ラティスの候補の中から最も可能性が高い候補を選択する手法(以下、この手法を「従来手法」という。)である。しかし、入力された音声時間が長ければ長いほど、このラティスが巨大となり大量のメモリを要することになる。そのため、従来手法を用いた音声認識では、例えば、VAD(Voice Activity Detection)を用いて音声区間を抽出し、無音区間を除去することで、音声認識に一度に入力されるデータを音声区間のみに制限し、メモリの消費を抑えていた。
【0003】
しかし、VADによりデータを制限し、従来手法を用いて音声認識を行う音声認識システムにおいて、VADにおいてノイズが音声と認識され、音声区間を適切に抽出できない音源では、ノイズも音声区間となるため、データ制限の効果がなく、メモリ不足に陥る問題を解決できない。
【0004】
なお、特許文献1には、音声データのテキスト化処理において、音声データをテキストデータに変換するエンジンに負担をかけることなく、正確なテキストデータを提供するために、声データを所定の単位時間で分割して分割データを生成し、分割データから無音部を削除する音声テキスト化装置が開示されている。また、引用文献2には、分析区間毎に入力音声の有声/無声判定し、有声区間のみをネットワーク入力の対象区間にするための装置について開示されている。
【先行技術文献】
【特許文献】
【0005】
特開2019-090917号公報
特開平05-316197号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述したように、従来手法を用いた音声認識において、ノイズが音声と認識され、音声区間を適切に抽出できない音源の場合、メモリ不足に陥る問題がある。
【0007】
本発明の目的は、従来の音声認識において、メモリが不足することを防止する手段を提供することである。
【課題を解決するための手段】
【0008】
第1の発明の音声認識システムは、音声データを記憶部に記憶し、前記記憶部を作業領域として前記記憶部に記憶した前記音声データから音声を認識し、テキストデータに変換する音声認識処理と、前記音声認識処理の結果である前記テキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理と、前記記憶部に記憶されている、前記検出処理によって検出された区切りよりも前の前記テキストデータを保持し、前記テキストデータに対応する音声データと、前記音声認識処理を実行するにあたって一時的に前記記憶部に生成されたデータと、を破棄する破棄処理と、を実行し、前記破棄処理によって破棄された区間を除いた前記音声データに対して、前記音声認識処理を実行することを特徴とする。
【0009】
本発明では、音声認識システムは、音声認識処理の結果であるテキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理を実行する。そして、音声認識システムは、検出処理によって検出された区切りよりも前のテキストデータを保持し、テキストデータに対応する音声データと、音声認識処理を実行するにあたって一時的に記憶部に生成されたデータと、を破棄する破棄処理を実行し、破棄処理によって破棄された区間を除いた音声データに対して、音声認識処理を実行する。これにより、所定の基準の区切りとして、例えば、一定時間のフィラー、特定の単語の連続、又は句点が設定されれば、文章の途中で区切られることがないため、文章の途中で区切られることによる誤認識を防止することができる。
【0010】
また、上述のように、記憶部に記憶されている、検出処理によって検出された区切りよりも前のテキストデータに対応する音声データと、音声認識処理を実行するにあたって一時的に記憶部に生成されたデータと、が破棄されるため、音声認識システムが備える記憶部の記憶容量(メモリ)を開放することができ、長時間の音声認識による記憶部の記憶容量(メモリ)の枯渇を防ぐことができる。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
ハリセン
14日前
個人
管部材の製造方法
14日前
個人
ギター演奏用ピック
23日前
ブラザー工業株式会社
カラオケ装置
11日前
ヤマハ株式会社
ヘルムホルツ共鳴器
7日前
ヤマハ株式会社
電子楽器
11日前
ブラザー工業株式会社
カラオケ装置
11日前
日産自動車株式会社
防音構造体
1日前
セイコーエプソン株式会社
吸音ボード
1日前
カシオ計算機株式会社
蓋部材および鍵盤楽器
16日前
オンキヨー株式会社
音声認識システム、及び、音声認識方法
14日前
ヤマハ株式会社
シンバルワッシャ
14日前
株式会社イノアックコーポレーション
遮音カバー
14日前
株式会社第一興商
カラオケ装置
14日前
株式会社第一興商
カラオケ装置
7日前
株式会社エクシング
カラオケシステム、及び、カラオケ装置
14日前
京セラ株式会社
音出力装置及び音出力方法
1日前
トヨタ自動車株式会社
制御装置及び制御方法
11日前
日本放送協会
音声認識装置およびプログラム
1日前
本田技研工業株式会社
能動型騒音低減装置
1日前
本田技研工業株式会社
能動型騒音低減装置
7日前
ヤマハ株式会社
検出システムおよび楽器
14日前
株式会社アナザーウェア
鍵盤画面表示プログラム及びそのシステム
7日前
トヨタ自動車株式会社
異音診断システム
7日前
株式会社SOKEN
遮音部
11日前
ローランド株式会社
打楽器および張力の付与方法
14日前
ソフトバンクグループ株式会社
行動制御システム
23日前
ローランド株式会社
打楽器およびロッドの締付方法
14日前
ローランド株式会社
楽音処理装置、及び楽音処理方法
22日前
ローランド株式会社
鍵盤装置および鍵のガイド方法
22日前
ローランド株式会社
鍵盤装置および鍵のガイド方法
22日前
ローランド株式会社
鍵盤装置および鍵のガイド方法
22日前
カシオ計算機株式会社
電子楽器及び電子鍵盤楽器
16日前
カシオ計算機株式会社
電子楽器及び電子鍵盤楽器
16日前
カシオ計算機株式会社
電子楽器及び電子鍵盤楽器
16日前
株式会社イノアックコーポレーション
ダクト
11日前
続きを見る