TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025069446
公報種別
公開特許公報(A)
公開日
2025-04-30
出願番号
2025019994,2022508207
出願日
2025-02-10,2021-03-04
発明の名称
情報処理方法及び情報処理装置
出願人
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
,
Panasonic Intellectual Property Corporation of America
代理人
個人
,
個人
,
個人
主分類
G10L
17/08 20130101AFI20250422BHJP(楽器;音響)
要約
【課題】話者認識処理を実行するための演算負荷を抑制する。
【解決手段】情報処理方法は、条件情報と、発話音声の話者特徴量とを取得し(S20、S21)、条件情報に基づいて、複数の登録話者特徴量を取得し(S221)、取得された複数の登録話者特徴量のそれぞれと、話者特徴量との類似度に基づき、発話音声の話者が複数の登録話者特徴量にそれぞれ対応する複数の登録話者のいずれであるかを特定する(S231)。
【選択図】図10
特許請求の範囲
【請求項1】
条件情報と、発話音声の話者特徴量とを取得し、
前記条件情報に基づいて、複数の登録話者特徴量を取得し、
取得された前記複数の登録話者特徴量のそれぞれと、前記話者特徴量との類似度に基づき、前記発話音声の話者が前記複数の登録話者特徴量にそれぞれ対応する複数の登録話者のいずれであるかを特定する、
情報処理方法。
続きを表示(約 970 文字)
【請求項2】
前記条件情報は、前記発話音声の収録状況を示す情報、または、前記発話音声のデータ属性である、
請求項1に記載の情報処理方法。
【請求項3】
前記収録状況は、前記発話音声を収録する際の雑音レベル及び使用マイクの少なくとも一つを示し、
前記発話音声のデータ属性は、前記発話音声の話者の性別または前記発話音声の言語を示す、
請求項2に記載の情報処理方法。
【請求項4】
前記複数の登録話者特徴量のそれぞれは、前記複数の登録話者のうちいずれか一人の登録話者と、複数の条件のうちいずれか1つの条件とに対応づけて記憶装置に記憶された特徴量であり、
前記条件情報に合致する複数の登録話者特徴量は、前記記憶装置に記憶された複数の登録話者特徴量から選択される、
請求項1~3のいずれか1項に記載の情報処理方法。
【請求項5】
前記発話音声から、前記発話音声の話者の固有の特徴量である前記話者特徴量を算出することで、前記話者特徴量を取得し、
前記発話音声を分析することで、前記条件情報を取得する、
請求項1~4のいずれか1項に記載の情報処理方法。
【請求項6】
さらに、前記発話音声についての音響特徴量を計算し、
前記発話音声についての前記音響特徴量から、DNN(Deep Neural Network)を用いて、前記話者特徴量を算出することで、前記話者特徴量を取得する、
請求項1~5のいずれか1項に記載の情報処理方法。
【請求項7】
プロセッサと、
メモリとを備え、
前記プロセッサは、前記メモリを用いて、
条件情報と、発話音声の話者特徴量とを取得し、
前記条件情報に基づいて、複数の登録話者特徴量を取得し、
取得された前記複数の登録話者特徴量のそれぞれと、前記話者特徴量との類似度に基づき、前記発話音声の話者が前記複数の登録話者特徴量にそれぞれ対応する複数の登録話者のいずれであるかを特定する、
情報処理装置。
【請求項8】
請求項1~6のいずれか1項に記載の情報処理方法をコンピュータに実行させるプログラム。
発明の詳細な説明
【技術分野】
【0001】
本開示は、情報処理方法等に関する。
続きを表示(約 1,200 文字)
【背景技術】
【0002】
例えば電話会議システム等、電話回線またはネットワークを介して、2人以上で音声を用いてコミュニケーションができる遠隔会議システムがある。
【0003】
遠隔会議システムにおいて、3人以上で音声を用いたコミュニケーションを行う場合、誰が発話しているかすなわち話者を表示させたい場合がある。
【0004】
例えば特許文献1には、話者認識処理の技術を用いて、雑音が混入する環境下であっても高精度に話者を認識することができる話者認識装置等が提案されている。ここで、話者認識技術は、登録対象の話者の発話音声を予め収集し、収集した発話音声から算出した特徴量と、新たに取得する話者認識の対象となる発話音声との類似度に基づいて、取得した発話音声の話者が登録された話者でのいずれであるかを判定する技術である。
【先行技術文献】
【特許文献】
【0005】
特開2020―60757号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記のような遠隔会議システムにおいて上記特許文献1に開示される話者認識処理を適用する場合、話者の発話音声を送信する送信側の装置ではなく発話音声を受信する受信側の装置に適用することになる。このため、受信側の装置は、発話音声を受信するだけでなく、話者認識処理を行うことになるので、受信側の装置は演算負荷が高くなってしまうという課題がある。
【0007】
本開示は、上述の事情を鑑みてなされたもので、話者認識処理を実行するための演算負荷を抑制することができる情報処理方法等を提供することを目的とする。
【課題を解決するための手段】
【0008】
本開示の一態様に係る情報処理方法は、条件情報と、発話音声の話者特徴量とを取得し、前記条件情報に基づいて、複数の登録話者特徴量を取得し、取得された前記複数の登録話者特徴量のそれぞれと、前記話者特徴量との類似度に基づき、前記発話音声の話者が前記複数の登録話者特徴量にそれぞれ対応する複数の登録話者のいずれであるかを特定する。
【0009】
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROM等の記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
【発明の効果】
【0010】
本開示の情報処理方法等によれば、話者認識処理を実行するための演算負荷を抑制することができる。
【図面の簡単な説明】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
リアルタイム翻訳システム
20日前
個人
10デジタルサラウンドラジオ
5日前
三井化学株式会社
遮音構造体
14日前
トヨタ自動車株式会社
音声制御装置
13日前
トヨタ自動車株式会社
情報処理装置
20日前
ヤマハ株式会社
鍵盤楽器
13日前
株式会社しくみ
音声翻訳プログラム
15日前
株式会社Gottsu
サキソフォーン向けねじ込み式スクリュー
7日前
ソフトバンクグループ株式会社
システム
21日前
ソフトバンクグループ株式会社
システム
27日前
株式会社SCALER
カラオケ管理システム
22日前
ソフトバンクグループ株式会社
システム
21日前
株式会社田中
防音材を充填した金属パイプ
20日前
カシオ計算機株式会社
電子楽器、方法およびプログラム
7日前
日本音響エンジニアリング株式会社
放射音制御構造体及びその設計支援方法
23日前
カシオ計算機株式会社
楽音処理装置、方法およびプログラム
7日前
カシオ計算機株式会社
プログラム、方法および情報処理装置
21日前
カシオ計算機株式会社
プログラム、方法および情報処理装置
21日前
日本放送協会
演奏箇所追跡装置及びそのプログラム
5日前
Fusion Cubic株式会社
コールセンタ用プログラム及びコールセンタ用装置
21日前
ビーサイズ株式会社
情報処理装置、情報処理端末、情報処理方法、情報処理プログラム
5日前
カシオ計算機株式会社
センサ装置、電子機器、および電子楽器
13日前
パイオニア株式会社
案内装置
26日前
Wovn Technologies株式会社
動画編集装置及びプログラム
5日前
本田技研工業株式会社
能動型効果音発生装置、及び、能動型効果音発生装置の制御方法
21日前
カシオ計算機株式会社
プログラム、情報処理装置、電子楽器、及び情報処理方法
20日前
カシオ計算機株式会社
演奏ガイド装置、演奏ガイド方法、およびプログラム
20日前
カシオ計算機株式会社
情報処理装置、電子楽器、発音制御方法及びプログラム
7日前
株式会社博報堂
音声データ分析装置、音声データ分析方法およびコンピュータプログラム
15日前
個人
音楽のキー推定方法、音楽のキー推定装置、及び音楽のキー推定プログラム
20日前
ヤマハ株式会社
音声処理方法、音声処理システム、プログラムおよび音声処理ソフトウェア
6日前
カシオ計算機株式会社
譜面立て及び楽器
21日前
ヤマハ株式会社
検出システムおよび鍵盤装置
26日前
ソニーグループ株式会社
情報処理装置および方法、並びにプログラム
26日前
ヤマハ株式会社
信号処理装置、弦楽器、及びプログラム
13日前
ヤマハ株式会社
スピーカ付きパーティションシステム
7日前
続きを見る
他の特許を見る