TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024174145
公報種別公開特許公報(A)
公開日2024-12-13
出願番号2024172526,2023024961
出願日2024-10-01,2020-04-08
発明の名称音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム
出願人日本電信電話株式会社,国立大学法人 東京大学
代理人個人,個人,個人
主分類G06F 16/683 20190101AFI20241206BHJP(計算;計数)
要約【課題】的確かつ効率よく生成された、テキストベース音響信号検索で用いることができるデータベースを用いて、所望の音響信号に関する自然言語表現をクエリとして、当該自然言語表現に対応する音響信号を検索する技術を提供する。
【解決手段】音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と前記音響信号に対応する自然言語表現として生成したい自然言語表現の指標から前記音響信号に対応する自然言語表現を生成する自然言語表現デコーダであるデータ生成モデルを用いて音響信号から生成した、当該音響信号に対応する自然言語表現と前記音響信号とを含むレコードから構成される音響信号データベースを記録する記録部と、前記音響信号データベースを用いて、入力となる自然言語表現(以下、入力自然言語表現という)から、前記入力自然言語表現に対応する音響信号を検索結果として決定する検索部とを含む。
【選択図】図19
特許請求の範囲【請求項1】
音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と前記音響信号に対応する自然言語表現として生成したい自然言語表現の指標から前記音響信号に対応する自然言語表現を生成する自然言語表現デコーダであるデータ生成モデルを用いて音響信号から生成した、当該音響信号に対応する自然言語表現と前記音響信号とを含むレコードから構成される音響信号データベースを記録する記録部と、
前記音響信号データベースを用いて、入力となる自然言語表現(以下、入力自然言語表現という)から、前記入力自然言語表現に対応する音響信号を検索結果として決定する検索部と、
を含む音響信号検索装置。
続きを表示(約 1,300 文字)【請求項2】
請求項1に記載の音響信号検索装置であって、
前記音響信号データベースは、
ある音響信号に対して、当該音響信号を含むレコードが2以上ある場合、当該2以上のレコードに含まれる自然言語表現の中には指標の値が異なる自然言語表現が2以上ある
ことを特徴とする音響信号検索装置。
【請求項3】
音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と前記音響信号に対応する自然言語表現として生成したい自然言語表現の指標から前記音響信号に対応する自然言語表現を生成する自然言語表現デコーダであるデータ生成モデルを用いて音響信号から生成した、当該音響信号に対応する自然言語表現と前記音響信号とを含むレコードから構成される音響信号データベースを記録する記録部を含む音響信号検索装置が、前記音響信号データベースを用いて、入力となる自然言語表現(以下、入力自然言語表現という)から、前記入力自然言語表現に対応する音響信号を検索結果として決定する検索ステップと、
を含む音響信号検索方法。
【請求項4】
第1ドメインのデータから前記第1ドメインのデータに対応する潜在変数を生成する第1ドメインエンコーダと、前記潜在変数と前記第1ドメインのデータに対応する自然言語表現として生成したい自然言語表現の指標から前記第1ドメインのデータに対応する自然言語表現を生成する自然言語表現デコーダであるデータ生成モデルを用いて第1ドメインのデータから生成した、当該第1ドメインのデータに対応する自然言語表現と前記第1ドメインのデータとを含むレコードから構成される第1ドメインデータベースを記録する記録部と、
前記第1ドメインデータベースを用いて、入力となる自然言語表現(以下、入力自然言語表現という)から、前記入力自然言語表現に対応する第1ドメインのデータを検索結果として決定する検索部と、
を含むデータ検索装置。
【請求項5】
第1ドメインのデータから前記第1ドメインのデータに対応する潜在変数を生成する第1ドメインエンコーダと、前記潜在変数と前記第1ドメインのデータに対応する自然言語表現として生成したい自然言語表現の指標から前記第1ドメインのデータに対応する自然言語表現を生成する自然言語表現デコーダであるデータ生成モデルを用いて第1ドメインのデータから生成した、当該第1ドメインのデータに対応する自然言語表現と前記第1ドメインのデータとを含むレコードから構成される第1ドメインデータベースを記録する記録部を含むデータ検索装置が、前記第1ドメインデータベースを用いて、入力となる自然言語表現(以下、入力自然言語表現という)から、前記入力自然言語表現に対応する第1ドメインのデータを検索結果として決定する検索ステップと、
を含むデータ検索方法。
【請求項6】
請求項1または2に記載の音響信号検索装置、請求項4に記載のデータ検索装置のいずれかとしてコンピュータを機能させるためのプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、音響信号を検索する技術に関する。
続きを表示(約 2,000 文字)【背景技術】
【0002】
近年、膨大な量の音響信号が蓄積されるようになり、目的の音響信号を効率的に検索する技術(以下、音響信号検索技術という)の需要が増大している。例えば、音響情報を他者に伝える際に、類似する音を音響信号データベースから選択して説明に用いることは、設備の保守点検・警備・ヘルプデスク業務など様々な場面において効率的な情報伝達を可能とする。また、効果音データベースから適切な効果音を選択することは、映像やゲーム、楽曲などの制作において重要な役割を果たす。
【0003】
音響信号検索技術の手法には、音響信号をクエリとする検索手法とテキストデータをクエリとする検索手法がある。後者のテキストデータをクエリとする検索手法では、音響信号に付与された分類タグや説明文などとクエリとを照合することによる検索を行う。こうしたテキストデータを用いた検索の1つとして、擬音語をクエリとした検索が提案されている。人間が日常生活で用いる擬音語をクエリとして用いることで、より自然なヒューマン・コンピュータ・インタラクションが実現される。非特許文献1では、例えば擬音語をクエリとした検索として、音響信号にあらかじめ付与された擬音語タグと擬音語クエリとの間のテキスト類似度に基づくテキストベース音響信号検索が提案されている。
【先行技術文献】
【非特許文献】
【0004】
岡本香帆里, 山西良典, 松下光範, “複数観点に基づく探索的効果音検索システム:SERVAの開発とユーザ観察”, DEIM Forum 2016, E3-6, 2016年.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、擬音語をクエリとするテキストベース音響信号検索には、以下に挙げる問題がある。
【0006】
(問題)検索対象となるデータベース中の全音響信号に対する擬音語タグの付与が必要なことである。擬音語の付与を人手で行う場合は、大規模なデータベースに対する検索を行うために多大な人的コストが必要となる。擬音語自動付与によるタグ付けを行う場合は、十分な精度を保ちつつ十分な数の擬音語タグを付与できるとは限らない。
【0007】
以上、擬音語をクエリとするテキストベース音響信号検索について説明したが、以上の問題は、より一般に、音響信号の特徴を記述したテキストを音響信号にタグ付けした場合におけるテキストベース音響信号検索についてもいえることである。つまり、テキストベース音響信号検索で用いるデータベースのレコードに含まれるべき、音響信号の特徴を記述した文と当該音響信号との組を的確かつ効率よく生成することは難しい。
【0008】
そこで本発明では、的確かつ効率よく生成された、テキストベース音響信号検索で用いることができるデータベースを用いて、所望の音響信号に関する自然言語表現をクエリとして、当該自然言語表現に対応する音響信号を検索する技術を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の一態様は、音響信号から前記音響信号に対応する潜在変数を生成する音響信号エンコーダと、前記潜在変数と前記音響信号に対応する自然言語表現として生成したい自然言語表現の指標から前記音響信号に対応する自然言語表現を生成する自然言語表現デコーダであるデータ生成モデルを用いて音響信号から生成した、当該音響信号に対応する自然言語表現と前記音響信号とを含むレコードから構成される音響信号データベースを記録する記録部と、前記音響信号データベースを用いて、入力となる自然言語表現(以下、入力自然言語表現という)から、前記入力自然言語表現に対応する音響信号を検索結果として決定する検索部とを含む。
【0010】
本発明の一態様は、第1ドメインのデータから前記第1ドメインのデータに対応する潜在変数を生成する第1ドメインエンコーダと、前記潜在変数と前記第1ドメインのデータに対応する自然言語表現として生成したい自然言語表現の指標から前記第1ドメインのデータに対応する自然言語表現を生成する自然言語表現デコーダであるデータ生成モデルを用いて第1ドメインのデータから生成した、当該第1ドメインのデータに対応する自然言語表現と前記第1ドメインのデータとを含むレコードから構成される第1ドメインデータベースを記録する記録部と、前記第1ドメインデータベースを用いて、入力となる自然言語表現(以下、入力自然言語表現という)から、前記入力自然言語表現に対応する第1ドメインのデータを検索結果として決定する検索部とを含む。
【発明の効果】
(【0011】以降は省略されています)

特許ウォッチbot のツイートを見る
この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
情報提示方法
13日前
個人
アカウントマップ
6日前
個人
プログラム
12日前
個人
プログラム
5日前
個人
発想支援方法及びシステム
16日前
個人
分類処理プログラム及び方法
16日前
個人
学習装置及び推論装置
5日前
富士通株式会社
金融システム
13日前
トヨタ自動車株式会社
管理装置
今日
株式会社プレニーズ
仲介システム
6日前
村田機械株式会社
人員配置システム
16日前
トヨタ自動車株式会社
生成装置
13日前
NISSHA株式会社
入力装置
16日前
中国電力株式会社
要領書作成支援システム
16日前
株式会社パークアシスト
情報伝送システム
16日前
株式会社Starl
ポイント管理システム
12日前
トヨタ自動車株式会社
情報処理装置
16日前
トヨタ自動車株式会社
駐車場発電システム
12日前
個人
クリックベースの反復的AI画像生成ツール
6日前
東京瓦斯株式会社
環境教育システム
12日前
日鉄テックスエンジ株式会社
情報処理装置
6日前
geeva株式会社
イベント配布物セット
6日前
旭精工株式会社
自動サービス装置、管理システム
12日前
株式会社野村総合研究所
寄付支援システム
12日前
株式会社野村総合研究所
寄付支援システム
12日前
アルプスアルパイン株式会社
入力装置
16日前
ぷらっとホーム株式会社
取引システム
12日前
株式会社Ales
コンテンツ生成方法
今日
日本信号株式会社
一体型リーダライタ
6日前
個人
音や香り等と連動するプロジェクターシステム
6日前
個人
保育計画作成支援システム
12日前
トヨタ自動車株式会社
再配達管理装置
16日前
株式会社日立製作所
制御デバイス
12日前
アスエネ株式会社
温室効果ガス排出量管理方法
16日前
アスエネ株式会社
温室効果ガス排出量管理方法
16日前
アスエネ株式会社
温室効果ガス排出量管理方法
16日前
続きを見る