特許ウォッチ

公開番号2025007075
公報種別公開特許公報(A)
公開日2025-01-17
出願番号2023108240
出願日2023-06-30
発明の名称音声認識システム、及び、音声認識方法
出願人オンキヨー株式会社
代理人
主分類G10L 15/22 20060101AFI20250109BHJP(楽器;音響)
要約【課題】従来の音声認識において、メモリが不足することを防止する手段を提供することである。
【解決手段】音声認識システムは、音声認識処理の結果であるテキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理を実行する。そして、音声認識システムは、検出処理によって検出された区切りよりも前のテキストデータを保持し、テキストデータに対応する音声データと、音声認識処理を実行するにあたって一時的に記憶部に生成されたデータを破棄する破棄処理を実行し、破棄処理によって破棄された区間を除いた音声データに対して、音声認識処理を実行する。
【選択図】図1
特許請求の範囲【請求項１】
音声データを記憶部に記憶し、前記記憶部を作業領域として前記記憶部に記憶した前記音声データから音声を認識し、テキストデータに変換する音声認識処理と、
前記音声認識処理の結果である前記テキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理と、
前記記憶部に記憶されている、前記検出処理によって検出された区切りよりも前の前記テキストデータを保持し、前記テキストデータに対応する音声データと、前記音声認識処理を実行するにあたって一時的に前記記憶部に生成されたデータと、を破棄する破棄処理と、
を実行し、
前記破棄処理によって破棄された区間を除いた前記音声データに対して、前記音声認識処理を実行することを特徴とする音声認識システム。
続きを表示（約 1,200 文字）【請求項２】
前記検出処理において、所定の基準によって区切られる区切りを文章としての区切りとし、前記テキストデータにおいて文章としての区切りを検出することを特徴とする請求項１に記載の音声認識システム。
【請求項３】
前記検出処理において、所定の基準によって区切られる区切りを一定時間のフィラー又は特定の単語が続く場合とし、前記テキストデータにおいて一定時間のフィラー又は特定の単語が続いたことを検出することを特徴とする請求項１に記載の音声認識システム。
【請求項４】
前記検出処理において、所定の基準によって区切られる区切りを句点とし、前記テキストデータにおいて句点を検出することを特徴とする請求項１に記載の音声認識システム。
【請求項５】
前記音声認識処理において、前記音声データから、有向グラフとして表現した出力候補のグラフであるラティスを生成し、生成したラティスの候補の中から最も可能性が高い候補を選択することで、音声を認識することを特徴とする請求項１に記載の音声認識システム。
【請求項６】
前記音声認識処理を実行する前の前記音声データに音声区間を検出する音声区間検出処理を実行し、
前記音声区間検出処理が実行された前記音声データに対して、前記音声認識処理を実行することを特徴とする請求項１に記載の音声認識システム。
【請求項７】
前記音声認識処理において、前記音声データから所定の間隔ごとに音声を認識することを特徴とする請求項１に記載の音声認識システム。
【請求項８】
前記所定の間隔は、一定の間隔又は互いに異なる間隔であることを特徴とする請求項７に記載の音声認識システム。
【請求項９】
前記破棄処理において、前記記憶部に記憶されている、前記検出処理によって検出された区切りよりも後の前記テキストデータを破棄することを特徴とする請求項１に記載の音声認識システム。
【請求項１０】
音声データを記憶部に記憶し、前記記憶部を作業領域として前記記憶部に記憶した前記音声データから音声を認識し、テキストデータに変換する音声認識処理と、
前記音声認識処理の結果である前記テキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理と、
前記記憶部に記憶されている、前記検出処理によって検出された区切りよりも前の前記テキストデータを保持し、前記テキストデータに対応する音声データと、前記音声認識処理を実行するにあたって一時的に前記記憶部に生成されたデータと、を破棄する破棄処理と、
を実行し、
前記破棄処理によって破棄された区間を除いた前記音声データに対して、前記音声認識処理を実行することを特徴とする音声認識方法。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本発明は、音声認識システム、及び、音声認識方法に関する。
続きを表示（約 1,900 文字）【背景技術】
【０００２】
従来の音声認識として、種々の手法が知られており、その一つとして、以下の手法がある。すなわち、入力された音声を音声認識する際、発話された文を構成する可能性のある１つ以上の文字又は単語を、有向グラフとして表現した出力候補のグラフであるラティス（lattice）を生成し、ラティスの候補の中から最も可能性が高い候補を選択する手法（以下、この手法を「従来手法」という。）である。しかし、入力された音声時間が長ければ長いほど、このラティスが巨大となり大量のメモリを要することになる。そのため、従来手法を用いた音声認識では、例えば、ＶＡＤ（Voice Activity Detection）を用いて音声区間を抽出し、無音区間を除去することで、音声認識に一度に入力されるデータを音声区間のみに制限し、メモリの消費を抑えていた。
【０００３】
しかし、ＶＡＤによりデータを制限し、従来手法を用いて音声認識を行う音声認識システムにおいて、ＶＡＤにおいてノイズが音声と認識され、音声区間を適切に抽出できない音源では、ノイズも音声区間となるため、データ制限の効果がなく、メモリ不足に陥る問題を解決できない。
【０００４】
なお、特許文献１には、音声データのテキスト化処理において、音声データをテキストデータに変換するエンジンに負担をかけることなく、正確なテキストデータを提供するために、声データを所定の単位時間で分割して分割データを生成し、分割データから無音部を削除する音声テキスト化装置が開示されている。また、引用文献２には、分析区間毎に入力音声の有声／無声判定し、有声区間のみをネットワーク入力の対象区間にするための装置について開示されている。
【先行技術文献】
【特許文献】
【０００５】
特開２０１９－０９０９１７号公報
特開平０５－３１６１９７号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
上述したように、従来手法を用いた音声認識において、ノイズが音声と認識され、音声区間を適切に抽出できない音源の場合、メモリ不足に陥る問題がある。
【０００７】
本発明の目的は、従来の音声認識において、メモリが不足することを防止する手段を提供することである。
【課題を解決するための手段】
【０００８】
第１の発明の音声認識システムは、音声データを記憶部に記憶し、前記記憶部を作業領域として前記記憶部に記憶した前記音声データから音声を認識し、テキストデータに変換する音声認識処理と、前記音声認識処理の結果である前記テキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理と、前記記憶部に記憶されている、前記検出処理によって検出された区切りよりも前の前記テキストデータを保持し、前記テキストデータに対応する音声データと、前記音声認識処理を実行するにあたって一時的に前記記憶部に生成されたデータと、を破棄する破棄処理と、を実行し、前記破棄処理によって破棄された区間を除いた前記音声データに対して、前記音声認識処理を実行することを特徴とする。
【０００９】
本発明では、音声認識システムは、音声認識処理の結果であるテキストデータにおいて、所定の基準によって区切られる区切りを検出する検出処理を実行する。そして、音声認識システムは、検出処理によって検出された区切りよりも前のテキストデータを保持し、テキストデータに対応する音声データと、音声認識処理を実行するにあたって一時的に記憶部に生成されたデータと、を破棄する破棄処理を実行し、破棄処理によって破棄された区間を除いた音声データに対して、音声認識処理を実行する。これにより、所定の基準の区切りとして、例えば、一定時間のフィラー、特定の単語の連続、又は句点が設定されれば、文章の途中で区切られることがないため、文章の途中で区切られることによる誤認識を防止することができる。
【００１０】
また、上述のように、記憶部に記憶されている、検出処理によって検出された区切りよりも前のテキストデータに対応する音声データと、音声認識処理を実行するにあたって一時的に記憶部に生成されたデータと、が破棄されるため、音声認識システムが備える記憶部の記憶容量（メモリ）を開放することができ、長時間の音声認識による記憶部の記憶容量（メモリ）の枯渇を防ぐことができる。
（【００１１】以降は省略されています）

関連特許