TOP
|
特許
|
意匠
|
商標
特許ウォッチ
DM通知
Twitter
他の特許を見る
公開番号
2023038924
公報種別
公開特許公報(A)
公開日
2023-03-17
出願番号
2022139730
出願日
2022-09-02
発明の名称
音声を介して健康状態を診断するためのペアになったニューラルネットワーク
出願人
カナリー・スピーチ,エルエルシー
代理人
個人
,
個人
,
個人
主分類
G10L
25/66 20130101AFI20230310BHJP(楽器;音響)
要約
【課題】人の音声を処理して健康診断を改善する。
【解決手段】方法は、第1の期間に対応する第1のオーディオ信号を受信するステップ610と、第1のオーディオ信号から第1の特徴ベクトルを計算するステップ620と、第1の特徴ベクトルを処理することによって、第1の音声埋め込みベクトルを計算するステップ630と、第2の期間に対応する第2のオーディオ信号を受信するステップ640と、第2のオーディオ信号から第2の特徴ベクトルを計算するステップ650と、第2の特徴ベクトルを処理することによって、第2の音声埋め込みベクトルを計算するステップ660と、第1の音声埋め込みベクトルと前記第2の音声埋め込みベクトルとの間の要素ごとの差分を計算するステップ670と、数学的モデルを用いて要素ごとの差分を処理することによって、第1の期間と第2の期間との間の健康状態の変化を示す変化値を計算するステップ680と、を含む。
【選択図】図6
特許請求の範囲
【請求項1】
第1の期間に対応する第1のオーディオ信号を受信するステップであって、前記第1のオーディオ信号が人の音声を含む、受信するステップと、
前記第1のオーディオ信号から第1の特徴ベクトルを計算するステップと、
ニューラルネットワークを用いて前記第1の特徴ベクトルを処理することによって、第1の音声埋め込みベクトルを計算するステップと、
第2の期間に対応する第2のオーディオ信号を受信するステップであって、前記第2のオーディオ信号が前記人の音声を含む、受信するステップと
前記第2のオーディオ信号から第2の特徴ベクトルを計算するステップと、
前記ニューラルネットワークを用いて前記第2の特徴ベクトルを処理することによって、第2の音声埋め込みベクトルを計算するステップと、
前記第1の音声埋め込みベクトルと前記第2の音声埋め込みベクトルとの間の要素ごとの差分を計算するステップと、
数学的モデルを用いて前記要素ごとの差分を処理することによって、前記第1の期間と前記第2の期間との間の健康状態の変化を示す変化値を計算するステップと、
を含む、コンピュータ実装方法。
続きを表示(約 1,300 文字)
【請求項2】
前記第1の期間における健康状態を示す第1の健康状態ラベルを取得するステップと、
前記第1の健康状態ラベルおよび前記変化値を処理することによって、前記第2の期間における健康状態を示す第2の健康状態ラベルを計算するステップと、
を含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記第2の健康状態ラベルを計算するステップが、前記第1の健康状態ラベルと前記変化値とを加算するステップを含む、請求項2に記載のコンピュータ実装方法。
【請求項4】
前記第1の特徴ベクトルを計算するステップが、(i)前記第1のオーディオ信号に対して音声認識を実行して、認識されたテキストを取得するステップと、(ii)前記認識されたテキストに対応するワードピース符号化を取得するステップとを含み、
前記ニューラルネットワークが、複数の順伝播型ニューラルネットワーク層と、複数の自己注意ニューラルネットワーク層と、
を含む、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記数学的モデルが、第2のニューラルネットワークを含む、請求項1に記載のコンピュータ実装方法。
【請求項6】
前記数学的モデルが、全結合ニューラルネットワークを含む、請求項1に記載のコンピュータ実装方法。
【請求項7】
前記健康状態が、ストレス、うつ、不安、心的外傷後ストレス障害、脳震盪、パーキンソン病、アルツハイマー病、またはうっ血性心不全に対応する、請求項1に記載のコンピュータ実装方法。
【請求項8】
前記変化値を計算するステップが、反対称変化値を計算するステップを含む、請求項1に記載のコンピュータ実装方法。
【請求項9】
第1の期間に対応する第1のオーディオ信号を受信することであって、前記第1のオーディオ信号が人の音声を含む、受信することと、
前記第1のオーディオ信号から第1の特徴ベクトルを計算することと、
ニューラルネットワークを用いて前記第1の特徴ベクトルを処理して、第1の音声埋め込みベクトルを計算することと、
第2の期間に対応する第2のオーディオ信号を受信することであって、前記第2のオーディオ信号が前記人の音声を含む、受信することと、
前記第2のオーディオ信号から第2の特徴ベクトルを計算することと、
前記ニューラルネットワークを用いて前記第2の特徴ベクトルを処理して、第2の音声埋め込みベクトルを計算することと、
前記第1の音声埋め込みベクトルと前記第2の音声埋め込みベクトルとの間の要素ごとの差分を計算することと、
数学的モデルを用いて前記要素ごとの差分を処理して、前記第1の期間と前記第2の期間との間の健康状態の変化を示す変化値を計算することと、
を行うように構成された少なくとも1つのコンピュータを備える、システム。
【請求項10】
前記第1の特徴ベクトルが、音響特徴を含む、請求項9に記載のシステム。
(【請求項11】以降は省略されています)
発明の詳細な説明
【背景技術】
【0001】
[0001]健康状態の診断が改善されることは、社会にとって多くの利点がある。例えば、健康状態の診断が改善されると、生活の質が向上し、平均余命が延び、さらには、早期診断および治療が遅い診断および治療よりも効果的である場合には、医療費が削減される可能性がある。
続きを表示(約 2,300 文字)
【0002】
[0002]健康状態は、様々な仕方で診断されることがある。健康状態には、患者の音声を使用して診断するものがある。例えば、人の音声は、精神的健康状態(ストレス、うつ、不安)、脳震盪、アルツハイマー病、およびうっ血性心不全を診断する際に使用されることがある。
【0003】
[0003]場合によっては、人が、診断を決定する際に、人の音声を聞いてその音声の性質を使用することがある。場合によっては、数学的モデル(ニューラルネットワークなど)が音声を処理して診断を決定することができ、訓練された医療専門家よりも正確な診断を提供することがある。数学的モデルを用いて健康状態を診断するための改善された技術は、社会に多くのさらなる利点を提供することができる。
【先行技術文献】
【特許文献】
【0004】
米国特許第10152988号明細書
【発明の概要】
【課題を解決するための手段】
【0005】
[0004]本発明およびその特定の実施形態の以下の詳細な説明は、以下の図面を参照することによって理解され得る。
【図面の簡単な説明】
【0006】
[0005]図1Aは、数学的モデルを用いて音声を処理して、健康状態ラベルを決定するための例示的なシステムの図である。 [0006]図1Bは、数学的モデルを用いて、第1の期間からの第1の音声および第2の期間からの第2の音声を処理して、第1の期間と第2の期間との間の健康状態の変化を決定するための例示的なシステムの図である。
【0007】
[0007]図1Cは、数学的モデルを用いて、第1の期間からの第1の音声、第1の期間からの第1の健康状態ラベル、および第2の期間からの第2の音声を処理して、第2の期間の第2の健康状態ラベルを決定するための例示的なシステムの図である。 [0008]図1Dは、数学的モデルを用いて、以前の期間からの音声と健康状態ラベルとの複数の以前のペアと、現在の時間からの現在の音声サンプルとを処理して、現在の時間に対する健康状態ラベルを決定するための例示的なシステムの図である。
[0009]図2は、数学的モデルを用いて、第1の期間からの第1の音声および第2の期間からの第2の音声を処理して、第1の期間と第2の期間との間の健康状態の変化を決定するための例示的なシステムの図である。
[0010]図3は、数学的モデルを用いて、2つの期間からの音声を処理して、要素ごとの差分を使用して健康状態の変化を決定するための例示的なシステムの図である。
[0011]図4は、数学的モデルを用いて、第1の期間からの第1の音声および第1の健康状態ラベル、ならびに第2の期間からの第2の音声を処理して、第2の期間の第2の健康状態ラベルを決定するための例示的なシステムの図である。
[0012]図5は、数学的モデルを用いて、以前の期間からの以前の音声と健康状態ラベルとの複数のペアと、現在の期間からの現在の音声とを処理して、現在の期間に対する現在の健康状態ラベルを決定するための例示的なシステムの図である。
[0013]図6は、数学的モデルを用いて、2つの期間からの音声を処理して、要素ごとの差分を使用して健康状態の変化を決定するための例示的な方法の流れ図である。
[0014]図7は、数学的モデルを用いて、第1の期間からの第1の音声および第1の健康状態ラベル、ならびに第2の期間からの第2の音声を処理して、第2の期間の第2の健康状態ラベルを決定するための例示的な方法の流れ図である。
[0015]図8は、本明細書に記載される技術のいずれかを実施するためのコンピューティング装置800の一実施態様のコンポーネントを示す図である。
【発明を実施するための形態】
【0008】
[0016]声は人によって響きが異なり、様々な異なる性質および態様がある。人によって声の響きが異なるため、健康状態を診断することが困難になる場合がある。単純な例では、第1の人について、彼または彼女の声は通常は滑らかに聞こえるが、長時間話した後は、声がかすれて、「声が出なくなってしまう」ことがある。しかしながら、第2の人について、彼または彼女の声は、常にかすれていて、それが彼らの通常の話し方である場合がある。
【0009】
[0017]人の声の処理を介して健康状態の診断を改善するために、複数の期間からの人の声のサンプルが使用されてもよい。上記の例を続けると、声がかすれていない第1の期間からの人の声のサンプルは、第2の期間に、その人が、声が出なくなったかどうかを判定するのに役立つであろう。本明細書では、2つ以上の期間からの人の音声を処理することによって健康状態の診断を改善するための技術が記載される。
【0010】
[0018]本明細書に記載される技術を使用して任意の適切な健康状態が診断され得る。例えば、健康状態は、精神的健康状態(例えば、ストレス、うつ、不安、および心的外傷後ストレス障害)、脳震盪、パーキンソン病、アルツハイマー病、およびうっ血性心不全を含むことができる。一部の実施態様では、健康状態は、患者が病院から退院した後に再入院する可能性、心不全の治療を受けた後に再入院する可能性など、健康関連のイベントが発生する可能性を含むことができる。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
他の特許を見る