TOP特許意匠商標
特許ウォッチ DM通知 Twitter
10個以上の画像は省略されています。
公開番号2021189424
公報種別公開特許公報(A)
公開日20211213
出願番号2020204340
出願日20201209
発明の名称マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム
出願人ネイバー コーポレーション,NAVER Corporation,LINE株式会社
代理人個人,個人,個人
主分類G10L 25/51 20130101AFI20211115BHJP(楽器;音響)
要約【課題】 マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステムを提供する。
【解決手段】 話者ダイアライゼーション方法は、複数の電子機器から各電子機器で録音された音声ファイルを受信する段階、前記各電子機器の前記音声ファイルに対して計算された埋め込み行列に基づいて候補クラスタ数を推定する段階、前記各電子機器の候補クラスタ数を利用して最終クラスタ数を決定する段階、および前記最終クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階を含む。
【選択図】図4
特許請求の範囲【請求項1】
コンピュータシステムが実行する話者ダイアライゼーション方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記話者ダイアライゼーション方法は、
前記少なくとも1つのプロセッサにより、複数の電子機器から各電子機器で録音された音声ファイルを受信する段階、
前記少なくとも1つのプロセッサにより、前記各電子機器の前記音声ファイルに対して計算された埋め込み行列に基づいて候補クラスタ数を推定する段階、
前記少なくとも1つのプロセッサにより、前記各電子機器の候補クラスタ数を利用して最終クラスタ数を決定する段階、および
前記少なくとも1つのプロセッサにより、前記最終クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階
を含む、話者ダイアライゼーション方法。
続きを表示(約 1,400 文字)【請求項2】
前記受信する段階は、
前記各電子機器の前記音声ファイルに対してエンドポイント検出(EPD)を実行する段階、および
前記各電子機器のEPD結果を統合してEPDユニオンを生成する段階
を含む、請求項1に記載の話者ダイアライゼーション方法。
【請求項3】
前記推定する段階は、
前記各電子機器の前記音声ファイルのEPD結果から埋め込み抽出をすることで類似度行列を計算する段階、および
前記各電子機器の前記類似度行列を利用して前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階
を含む、請求項1に記載の話者ダイアライゼーション方法。
【請求項4】
前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階は、
前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、および
前記抽出された固有値を整列した後、隣接する固有値の差に基づいて前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階
を含む、請求項3に記載の話者ダイアライゼーション方法。
【請求項5】
前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階は、
前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、
前記抽出された固有値を整列した後、隣接する固有値の差を基準として選択された固有値の個数を前記候補クラスタ数として決定する段階、および
前記候補クラスタ数の決定過程で選択されずに残った固有値を利用して前記信頼度値を計算する段階
を含む、請求項3に記載の話者ダイアライゼーション方法。
【請求項6】
前記残った固有値を利用して前記信頼度値を計算する段階は、
前記残った固有値のうちで最も大きい固有値を前記類似度行列の信頼度値として決定すること
を特徴とする、請求項5に記載の話者ダイアライゼーション方法。
【請求項7】
前記残った固有値を利用して前記信頼度値を計算する段階は、
前記残った固有値の平均を計算した平均値を前記類似度行列の信頼度値として決定すること
を特徴とする、請求項5に記載の話者ダイアライゼーション方法。
【請求項8】
前記推定する段階は、
前記音声ファイルのEPD結果に対して学習された加重値に基づいて前記類似度行列に対する加重和を適用する段階
をさらに含む、請求項3に記載の話者ダイアライゼーション方法。
【請求項9】
前記決定する段階は、
前記信頼度値が最も大きい類似度行列で推定された候補クラスタ数を前記最終クラスタ数として決定すること
を特徴とする、請求項3に記載の話者ダイアライゼーション方法。
【請求項10】
前記実行する段階は、
前記各電子機器の前記音声ファイルのEPD結果から埋め込み抽出をすることで類似度行列を計算する段階、および
前記各電子機器の類似度行列を平均し、平均類似度行列と前記最終クラスタ数に基づいて前記話者ダイアライゼーションクラスタリングを実行する段階
を含む、請求項1に記載の話者ダイアライゼーション方法。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
以下の説明は、話者ダイアライゼーション(speaker diarization)技術に関する。
続きを表示(約 1,100 文字)【背景技術】
【0002】
話者ダイアライゼーションとは、複数の話者が発声した内容を録音した音声ファイルから話者ごとに発声区間を分割する技術である。
【0003】
話者ダイアライゼーション技術は、オーディオデータから話者境界区間を検出するものであって、話者に対する先行知識の使用の可否によって距離基盤方式とモデル基盤方式とに分けられる。
【0004】
例えば、特許文献1(登録日2018年2月23日)では、話者の音声を認識する環境の変化や話者の発話状態の影響を受けずに、話者の音声に基づいて話者を区分することができる話者認識モデルを生成する技術が開示されている。
【0005】
このような話者ダイアライゼーション技術は、会議、インタビュー、取引、裁判などように複数の話者が一定の順序をもたずに発声する状況において発声内容を話者ごとに分割して自動記録する諸般の技術であって、議事録の自動作成などに活用されている。
【先行技術文献】
【特許文献】
【0006】
韓国登録特許第10−1833731号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
マルチデバイスによる話者ダイアライゼーション性能を向上させることができる方法およびシステムを提供する。
【0008】
各ユーザが保有している個人機器を活用するマルチデバイス環境で話者ダイアライゼーションを実行することができる方法およびシステムを提供する。
【0009】
信頼度に基づいて話者数(クラスタ数)を推定することができる方法およびシステムを提供する。
【課題を解決するための手段】
【0010】
コンピュータシステムが実行する話者ダイアライゼーション方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記話者ダイアライゼーション方法は、前記少なくとも1つのプロセッサにより、複数の電子機器から各電子機器で録音された音声ファイルを受信する段階、前記少なくとも1つのプロセッサにより、前記各電子機器の前記音声ファイルに対して計算された埋め込み行列に基づいて候補クラスタ数を推定する段階、前記少なくとも1つのプロセッサにより、前記各電子機器の候補クラスタ数を利用して最終クラスタ数を決定する段階、および前記少なくとも1つのプロセッサにより、前記最終クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階を含む、話者ダイアライゼーション方法を提供する。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
弦楽器
2日前
個人
弦楽器およびその製造方法
1日前
株式会社タツミ楽器
減音作用を有するリード
2日前
トヨタ自動車株式会社
車両用トランスアクスル
今日
株式会社東芝
対話管理
今日
トヨタ紡織株式会社
騒音軽減装置
1日前
トヨタ自動車株式会社
制御システム
今日
株式会社東芝
差分抽出装置、方法及びプログラム
1日前
株式会社東芝
辞書編集装置、辞書編集方法、及びプログラム
1日前
ヤマハ株式会社
音響処理システム、音響処理方法およびプログラム
1日前
キヤノン株式会社
音声対話装置、音声対話装置の制御方法及びプログラム
2日前
株式会社デンソーテン
音声処理装置、音声処理方法、音声処理システム及び端末
今日
株式会社TBSテレビ
音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム
2日前
カシオ計算機株式会社
情報処理装置、情報処理方法、情報処理プログラム、及び、電子楽器
1日前
ハーマン インターナショナル インダストリーズ, インコーポレイテッド
エンジンオーダーキャンセレーションのための仮想場所ノイズ信号推定
1日前