TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024174145
公報種別公開特許公報(A)
公開日2024-12-13
出願番号2024172526,2023024961
出願日2024-10-01,2020-04-08
発明の名称音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム
出願人日本電信電話株式会社,国立大学法人 東京大学
代理人個人,個人,個人
主分類G06F 16/683 20190101AFI20241206BHJP(計算;計数)
要約【課題】的確かつ効率よく生成された、テキストベース音響信号検索で用いることができるデータベースを用いて、所望の音響信号に関する自然言語表現をクエリとして、当該自然言語表現に対応する音響信号を検索する技術を提供する。
【解決手段】音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と前記音響信号に対応する自然言語表現として生成したい自然言語表現の指標から前記音響信号に対応する自然言語表現を生成する自然言語表現デコーダであるデータ生成モデルを用いて音響信号から生成した、当該音響信号に対応する自然言語表現と前記音響信号とを含むレコードから構成される音響信号データベースを記録する記録部と、前記音響信号データベースを用いて、入力となる自然言語表現(以下、入力自然言語表現という)から、前記入力自然言語表現に対応する音響信号を検索結果として決定する検索部とを含む。
【選択図】図19
特許請求の範囲【請求項1】
音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と前記音響信号に対応する自然言語表現として生成したい自然言語表現の指標から前記音響信号に対応する自然言語表現を生成する自然言語表現デコーダであるデータ生成モデルを用いて音響信号から生成した、当該音響信号に対応する自然言語表現と前記音響信号とを含むレコードから構成される音響信号データベースを記録する記録部と、
前記音響信号データベースを用いて、入力となる自然言語表現(以下、入力自然言語表現という)から、前記入力自然言語表現に対応する音響信号を検索結果として決定する検索部と、
を含む音響信号検索装置。
続きを表示(約 1,300 文字)【請求項2】
請求項1に記載の音響信号検索装置であって、
前記音響信号データベースは、
ある音響信号に対して、当該音響信号を含むレコードが2以上ある場合、当該2以上のレコードに含まれる自然言語表現の中には指標の値が異なる自然言語表現が2以上ある
ことを特徴とする音響信号検索装置。
【請求項3】
音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と前記音響信号に対応する自然言語表現として生成したい自然言語表現の指標から前記音響信号に対応する自然言語表現を生成する自然言語表現デコーダであるデータ生成モデルを用いて音響信号から生成した、当該音響信号に対応する自然言語表現と前記音響信号とを含むレコードから構成される音響信号データベースを記録する記録部を含む音響信号検索装置が、前記音響信号データベースを用いて、入力となる自然言語表現(以下、入力自然言語表現という)から、前記入力自然言語表現に対応する音響信号を検索結果として決定する検索ステップと、
を含む音響信号検索方法。
【請求項4】
第1ドメインのデータから前記第1ドメインのデータに対応する潜在変数を生成する第1ドメインエンコーダと、前記潜在変数と前記第1ドメインのデータに対応する自然言語表現として生成したい自然言語表現の指標から前記第1ドメインのデータに対応する自然言語表現を生成する自然言語表現デコーダであるデータ生成モデルを用いて第1ドメインのデータから生成した、当該第1ドメインのデータに対応する自然言語表現と前記第1ドメインのデータとを含むレコードから構成される第1ドメインデータベースを記録する記録部と、
前記第1ドメインデータベースを用いて、入力となる自然言語表現(以下、入力自然言語表現という)から、前記入力自然言語表現に対応する第1ドメインのデータを検索結果として決定する検索部と、
を含むデータ検索装置。
【請求項5】
第1ドメインのデータから前記第1ドメインのデータに対応する潜在変数を生成する第1ドメインエンコーダと、前記潜在変数と前記第1ドメインのデータに対応する自然言語表現として生成したい自然言語表現の指標から前記第1ドメインのデータに対応する自然言語表現を生成する自然言語表現デコーダであるデータ生成モデルを用いて第1ドメインのデータから生成した、当該第1ドメインのデータに対応する自然言語表現と前記第1ドメインのデータとを含むレコードから構成される第1ドメインデータベースを記録する記録部を含むデータ検索装置が、前記第1ドメインデータベースを用いて、入力となる自然言語表現(以下、入力自然言語表現という)から、前記入力自然言語表現に対応する第1ドメインのデータを検索結果として決定する検索ステップと、
を含むデータ検索方法。
【請求項6】
請求項1または2に記載の音響信号検索装置、請求項4に記載のデータ検索装置のいずれかとしてコンピュータを機能させるためのプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、音響信号を検索する技術に関する。
続きを表示(約 2,000 文字)【背景技術】
【0002】
近年、膨大な量の音響信号が蓄積されるようになり、目的の音響信号を効率的に検索する技術(以下、音響信号検索技術という)の需要が増大している。例えば、音響情報を他者に伝える際に、類似する音を音響信号データベースから選択して説明に用いることは、設備の保守点検・警備・ヘルプデスク業務など様々な場面において効率的な情報伝達を可能とする。また、効果音データベースから適切な効果音を選択することは、映像やゲーム、楽曲などの制作において重要な役割を果たす。
【0003】
音響信号検索技術の手法には、音響信号をクエリとする検索手法とテキストデータをクエリとする検索手法がある。後者のテキストデータをクエリとする検索手法では、音響信号に付与された分類タグや説明文などとクエリとを照合することによる検索を行う。こうしたテキストデータを用いた検索の1つとして、擬音語をクエリとした検索が提案されている。人間が日常生活で用いる擬音語をクエリとして用いることで、より自然なヒューマン・コンピュータ・インタラクションが実現される。非特許文献1では、例えば擬音語をクエリとした検索として、音響信号にあらかじめ付与された擬音語タグと擬音語クエリとの間のテキスト類似度に基づくテキストベース音響信号検索が提案されている。
【先行技術文献】
【非特許文献】
【0004】
岡本香帆里, 山西良典, 松下光範, “複数観点に基づく探索的効果音検索システム:SERVAの開発とユーザ観察”, DEIM Forum 2016, E3-6, 2016年.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、擬音語をクエリとするテキストベース音響信号検索には、以下に挙げる問題がある。
【0006】
(問題)検索対象となるデータベース中の全音響信号に対する擬音語タグの付与が必要なことである。擬音語の付与を人手で行う場合は、大規模なデータベースに対する検索を行うために多大な人的コストが必要となる。擬音語自動付与によるタグ付けを行う場合は、十分な精度を保ちつつ十分な数の擬音語タグを付与できるとは限らない。
【0007】
以上、擬音語をクエリとするテキストベース音響信号検索について説明したが、以上の問題は、より一般に、音響信号の特徴を記述したテキストを音響信号にタグ付けした場合におけるテキストベース音響信号検索についてもいえることである。つまり、テキストベース音響信号検索で用いるデータベースのレコードに含まれるべき、音響信号の特徴を記述した文と当該音響信号との組を的確かつ効率よく生成することは難しい。
【0008】
そこで本発明では、的確かつ効率よく生成された、テキストベース音響信号検索で用いることができるデータベースを用いて、所望の音響信号に関する自然言語表現をクエリとして、当該自然言語表現に対応する音響信号を検索する技術を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の一態様は、音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と前記音響信号に対応する自然言語表現として生成したい自然言語表現の指標から前記音響信号に対応する自然言語表現を生成する自然言語表現デコーダであるデータ生成モデルを用いて音響信号から生成した、当該音響信号に対応する自然言語表現と前記音響信号とを含むレコードから構成される音響信号データベースを記録する記録部と、前記音響信号データベースを用いて、入力となる自然言語表現(以下、入力自然言語表現という)から、前記入力自然言語表現に対応する音響信号を検索結果として決定する検索部とを含む。
【0010】
本発明の一態様は、第1ドメインのデータから前記第1ドメインのデータに対応する潜在変数を生成する第1ドメインエンコーダと、前記潜在変数と前記第1ドメインのデータに対応する自然言語表現として生成したい自然言語表現の指標から前記第1ドメインのデータに対応する自然言語表現を生成する自然言語表現デコーダであるデータ生成モデルを用いて第1ドメインのデータから生成した、当該第1ドメインのデータに対応する自然言語表現と前記第1ドメインのデータとを含むレコードから構成される第1ドメインデータベースを記録する記録部と、前記第1ドメインデータベースを用いて、入力となる自然言語表現(以下、入力自然言語表現という)から、前記入力自然言語表現に対応する第1ドメインのデータを検索結果として決定する検索部とを含む。
【発明の効果】
(【0011】以降は省略されています)

特許ウォッチbot のツイートを見る
この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
物品
14日前
個人
認証システム
28日前
個人
自動精算システム
7日前
個人
保証金管理システム
22日前
個人
救急搬送システム
14日前
個人
鑑定証明システム
28日前
キヤノン株式会社
印刷装置
7日前
個人
業界地図作成システム
1か月前
個人
人的価値発掘システム
1か月前
株式会社宗建
SNSサーバー
2か月前
株式会社MRC
集客システム
22日前
キヤノン電子株式会社
情報処理装置
1か月前
個人
生成AIとの常時接続システム
14日前
個人
技術マッチングシステム
1か月前
個人
コンテンツ開示順位判定システム
9日前
ミサワホーム株式会社
管理装置
1か月前
株式会社ネットブリッジ
展示販売装置
29日前
ミサワホーム株式会社
システム
1か月前
株式会社SEKT
文字認識装置
3日前
トヨタ自動車株式会社
推定装置
今日
トヨタ自動車株式会社
分析装置
22日前
個人
未来型家系図構築システム
2日前
キヤノン株式会社
印刷管理装置
20日前
株式会社COLORS
表示装置
8日前
キヤノン株式会社
印刷制御装置
1か月前
個人
配送システムおよび同包箱
1か月前
大同特殊鋼株式会社
棒材計数装置
2か月前
ミサワホーム株式会社
プログラム
28日前
個人
文字入力方法、文字入力プログラム
1か月前
個人
動作のデザイン評価の方法及び装置
2か月前
トヨタ自動車株式会社
表認識装置
2日前
キヤノン電子株式会社
業務管理システム
7日前
オムロン株式会社
認証中継サーバ
2か月前
ローム株式会社
ソース機器
14日前
個人
後払いポイントシステム「先用後利」
29日前
トヨタ自動車株式会社
作業評価装置
14日前
続きを見る