TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025161473
公報種別公開特許公報(A)
公開日2025-10-24
出願番号2024064681
出願日2024-04-12
発明の名称音声言語処理装置およびプログラム
出願人日本放送協会
代理人個人,個人,個人,個人
主分類G06F 40/44 20200101AFI20251017BHJP(計算;計数)
要約【課題】様々な言語処理のタスクを実行するために、音声による入力文を受け付けることのできる音声言語処理装置を提供する。
【解決手段】音声言語処理装置は、エンコーダー部と、大規模言語モデル処理部とを備える。エンコーダー部は、音声をエンコードする処理を行ってエンコードされた音声情報を出力する。大規模言語モデル処理部は、入力されるタスクプロンプトと、入力される入力文と、に基づいて前記タスクプロンプトと前記入力文とに基づいた出力文を出力する。前記大規模言語モデル処理部は、マスク付きマルチヘッドアテンション部と、前記エンコードされた音声が前記入力文を表すように作用させてマルチヘッドアテンションの処理を行うクロスアテンション部と、フィードフォワードネットワーク部と、を備える。クロスアテンション部からの出力に0以上且つ1以下の所定値を乗算する機構を設ける。
【選択図】図1
特許請求の範囲【請求項1】
音声をエンコードする処理を行ってエンコードされた音声情報を出力するエンコーダー部と、
入力されるタスクプロンプトと、入力される入力文と、に基づいて前記タスクプロンプトと前記入力文とに基づいた出力文を出力する大規模言語モデル処理部と、
を備え、
前記大規模言語モデル処理部は、
前記タスクプロンプトと、前記大規模言語モデル処理部からの過去の出力と、に基づいてマルチヘッドアテンションの処理を行うマスク付きマルチヘッドアテンション部と、
前記マスク付きマルチヘッドアテンション部からの出力をQ(クエリー)として入力し、前記エンコーダー部から出力された前記エンコードされた音声情報をV(バリュー)およびK(キー)として入力して、前記エンコードされた音声が前記入力文を表すように作用させてマルチヘッドアテンションの処理を行うクロスアテンション部と、
前記クロスアテンション部からの出力に、0以上且つ1以下の第1所定値を乗算して出力する第1ゲート部と、
前記第1ゲート部からの出力と、前記マスク付きマルチヘッドアテンション部からの出力とを加算して出力する第1加算部と、
前記第1加算部からの出力を入力としてフィードフォワードネットワークの処理を行い当該処理の結果を出力するフィードフォワードネットワーク部と、
前記フィードフォワードネットワーク部からの出力に、0以上且つ1以下の第2所定値を乗算して出力する第2ゲート部と、
前記第2ゲート部からの出力と、前記第1加算部からの出力とを加算して出力する第2加算部と、
を備え、
前記第1所定値および前記第2所定値のそれぞれは、初期値を0として学習用データを用いた学習により求められた値である、
音声言語処理装置。
続きを表示(約 1,100 文字)【請求項2】
前記大規模言語モデル処理部は、
前記タスクプロンプトと、前記入力文のテキストデータと、前記出力文のテキストデータの正解と、の組として与えられる学習用データを用いて、前記エンコードされた音声情報を前記クロスアテンション部のV(バリュー)およびK(キー)として入力しないようにしながら、事前に学習したものである、
請求項1に記載の音声言語処理装置。
【請求項3】
前記エンコーダー部および前記大規模言語モデル処理部は、
入力文に対応する音声と、前記タスクプロンプトと、前記入力文のテキストの正解および前記出力文のテキストの正解と、の組として与えられる学習用データを用いて、学習したものである、
請求項2に記載の音声言語処理装置。
【請求項4】
音声をエンコードする処理を行ってエンコードされた音声情報を出力するエンコーダー部と、
入力されるタスクプロンプトと、入力される入力文と、に基づいて前記タスクプロンプトと前記入力文とに基づいた出力文を出力する大規模言語モデル処理部と、
を備え、
前記大規模言語モデル処理部は、
前記タスクプロンプトと、前記大規模言語モデル処理部からの過去の出力と、に基づいてマルチヘッドアテンションの処理を行うマスク付きマルチヘッドアテンション部と、
前記マスク付きマルチヘッドアテンション部からの出力をQ(クエリー)として入力し、前記エンコーダー部から出力された前記エンコードされた音声情報をV(バリュー)およびK(キー)として入力して、前記エンコードされた音声が前記入力文を表すように作用させてマルチヘッドアテンションの処理を行うクロスアテンション部と、
前記クロスアテンション部からの出力に、0以上且つ1以下の第1所定値を乗算して出力する第1ゲート部と、
前記第1ゲート部からの出力と、前記マスク付きマルチヘッドアテンション部からの出力とを加算して出力する第1加算部と、
前記第1加算部からの出力を入力としてフィードフォワードネットワークの処理を行い当該処理の結果を出力するフィードフォワードネットワーク部と、
前記フィードフォワードネットワーク部からの出力に、0以上且つ1以下の第2所定値を乗算して出力する第2ゲート部と、
前記第2ゲート部からの出力と、前記第1加算部からの出力とを加算して出力する第2加算部と、
を備え、
前記第1所定値および前記第2所定値のそれぞれは、初期値を0として学習用データを用いた学習により求められた値である、
音声言語処理装置、としてコンピューターを作用させるためのプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、音声言語処理装置およびプログラムに関する。
続きを表示(約 3,600 文字)【背景技術】
【0002】
機械学習を行うことのできる大規模言語モデルを用いて、入力される言語(テキスト等)に基づく様々なタスクの処理を行う研究がなされている。
【0003】
非特許文献1では、次単語予測タスクのための事前学習を行い、様々なタスクを解くことのできる大規模言語モデルGPT3について記載されている。
【0004】
非特許文献2に記載されている技術では、大規模言語モデルを音声認識デコーダーに導入している。そして、音声認識デコーダーに、音声の前情報をプロンプトとして入力することによって精度を向上させている。
【0005】
非特許文献3に記載されている技術では、デコーダーモデル(デコーダー部分のみを使用した大規模言語モデル)Palm-2を利用して、マルチモーダル生成モデルAudioPaLMを提案している。具体的には、Palm-2の入力埋め込み層を音声入力用に拡張し、音声入力をトークン化して大規模言語モデルへの入力としている。
【0006】
非特許文献4には、大規模言語モデルに人間がフィードバックを行い人間の意図に沿ったテキストを生成する技術が記載されている。
【0007】
非特許文献5に記載されている技術は、言語モデルにゲーティング機構(gating mechanism)を利用して画像エンコーダー(visual encoder)を導入した視覚言語モデル(vision language model)Flamingoを提案している。この技術では、画像エンコーダーから渡される画像モーダル情報を利用したテキスト生成を可能にしている。
【先行技術文献】
【非特許文献】
【0008】
Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei,“Language Models are Few-Shot Learners”,arXiv:2005.14165v4 [cs.CL],22 Jul 2020,https://arxiv.org/abs/2005.14165.
Yuang Li, Yu Wu, Jinyu Li, Shujie Liu,“PROMPTING LARGE LANGUAGE MODELS FOR ZERO-SHOT DOMAIN ADAPTATION IN SPEECH RECOGNITION”,arXiv:2306.16007v1 [cs.CL],28 Jun 2023,https://arxiv.org/abs/2306.16007.
Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, Ankur Bapna, Zalan Borsos, Felix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor Ramanovich, Marco Tagliasacchi, Alexandru Tudor, Mihajlo Velimirovic, Damien Vincent, Jiahui Yu, Yongqiang Wang, Vicky Zayats, Neil Zeghidour, Yu Zhang, Zhishuai Zhang, Lukas Zilka, Christian Frank,“AudioPaLM: A Large Language Model That Can Speak and Listen”,arXiv:2306.12925v1 [cs.CL],22 Jun 2023,https://arxiv.org/abs/2306.12925.
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe,“Training language models to follow instructions with human feedback”,arXiv:2203.02155v1 [cs.CL],4 Mar 2022,https://arxiv.org/abs/2203.02155.
Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karen Simonyan,“Flamingo: a Visual Language Model for Few-Shot Learning”,arXiv:2204.14198v2 [cs.CV],15 Nov 2022,https://arxiv.org/abs/2204.14198.
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、従来技術では、音声言語を入力することによって様々なタスクを実行させるためには、問題がある。
【0010】
従来技術を用いる場合に、例えば音声認識処理システムと、それに後続するタスクの処理(例えば、機械対話や機械翻訳等)のシステムとを組み合わせることにより、音声対話や音声翻訳等のアプリケーションが実現可能である。しかしながら、従来技術をそのまま用いた場合には、複数のモデルを組み合わせることによって誤りが伝播してしまい、処理の精度が悪化するという問題がある。また、音声として発話された言語を一度音声認識処理によってテキスト化してしまうと、元の音声に含まれていた重要な情報(韻律や、男声/女声の区別や、大人の声/子供の声の区別等)が失われてしまい、後続のタスクに利用することができない。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

日本放送協会
撮像装置
9か月前
日本放送協会
撮像装置
2か月前
日本放送協会
配線構造
5か月前
日本放送協会
収音装置
2か月前
日本放送協会
マイクロホン
7か月前
日本放送協会
光学計測装置
7か月前
日本放送協会
表示システム
5日前
日本放送協会
アンテナ装置
2か月前
日本放送協会
基板固定装置
1か月前
日本放送協会
無線通信装置
6か月前
日本放送協会
光分布生成装置
2か月前
日本放送協会
磁性細線メモリ
6か月前
日本放送協会
接続用配線基板
今日
日本放送協会
無線伝送システム
9か月前
日本放送協会
広視野角撮像装置
1か月前
日本放送協会
広視野角撮像装置
1か月前
日本放送協会
磁性細線デバイス
9か月前
日本放送協会
映像伝送システム
5か月前
日本放送協会
レンズアダプター
11か月前
日本放送協会
データ管理システム
9か月前
日本放送協会
角度選択フィルター
4か月前
日本放送協会
3次元映像表示装置
2か月前
日本放送協会
3次元映像表示装置
6か月前
日本放送協会
良撮影位置推定装置
4か月前
日本放送協会
送信装置及び受信装置
9か月前
日本放送協会
送信装置及び受信装置
8か月前
日本放送協会
受信装置及び送出装置
10か月前
日本放送協会
送信装置及び受信装置
1か月前
日本放送協会
送信装置及び受信装置
11か月前
日本放送協会
送信装置及び受信装置
8か月前
日本放送協会
衛星放送受信システム
11か月前
日本放送協会
送信装置及び受信装置
12か月前
日本放送協会
受信装置及びプログラム
2か月前
日本放送協会
縮小装置及びプログラム
3か月前
日本放送協会
受信装置及びプログラム
2か月前
日本放送協会
受信装置及びプログラム
4か月前
続きを見る