特許ウォッチ

公開番号2025093900
公報種別公開特許公報(A)
公開日2025-06-24
出願番号2024216304
出願日2024-12-11
発明の名称言語障害に対処するためオーディオサンプルから抽出された発語特徴を用いた的を絞ったフィードバックの自動生成
出願人クリックセラピューティクスインコーポレイテッド,Click Therapeutics, Inc.
代理人個人,個人
主分類G10L 15/00 20130101AFI20250617BHJP(楽器;音響)
要約【課題】ユーザーからの言語コミュニケーションの発語分類に基づいて、発語の指示を与えるためのシステムおよび方法を提供する。
【解決手段】計算システムは、ユーザーからの第1オーディオサンプルを用いて、第1言語コミュニケーションの発語特徴を生成することができる。計算システムは、複数の発語分類から、発語特徴に基づいて第1言語コミュニケーションの第1発語分類を特定することができる。計算システムは、複数のアクションから、第1発語分類に基づいて、ユーザーの発話を定義する発語特徴の1つ以上を修正することを含む1つのアクションを選択することができる。計算システムは、複数のアクションから選択されたこの1つのアクションによって定義された発話を行うようユーザーに促すメッセージを提示する指示を提供することができる。ユーザーが病態に対処するために服用している薬剤の効能を高めることができる。
【選択図】図1
特許請求の範囲【請求項１】
ユーザーからの言語コミュニケーションの発語分類に基づいて、発語の指示を提供する方法であって：
1つ以上のプロセッサによって、ユーザーからの第1言語コミュニケーションの第1オーディオサンプルを特定する段階と；
前記1つ以上のプロセッサによって、前記第1オーディオサンプルを用いて、前記第1言語コミュニケーションの複数の第1発語特徴を生成する段階と；
前記1つ以上のプロセッサによって、複数の発語分類から、前記複数の第1発語特徴に基づいて前記第1言語コミュニケーションの第1発語分類を特定する段階と；
前記1つ以上のプロセッサによって、複数のアクションから、前記第1発語分類に基づいて前記ユーザーの発話を定義する前記発語特徴の1つ以上を修正することを含む1つのアクションを選択する段階と；
前記1つ以上のプロセッサによって、前記複数のアクションから選択された前記1つのアクションによって定義された前記発話を行うよう前記ユーザーに促すメッセージを提示する指示を提供する段階とを含む、方法。
続きを表示（約 1,400 文字）【請求項２】
前記第1発語分類を特定する段階は、前記言語コミュニケーションが理解不能であると判断する段階をさらに含み、
前記1つのアクションを選択する段階は、前記ユーザーが前記発話における前記複数の第1発語特徴の少なくとも1つを修正するように前記1つのアクションを選択する段階をさらに含む、請求項1に記載の方法。
【請求項３】
前記第1発語分類を特定する段階は、前記言語コミュニケーションが理解可能であると判断する段階をさらに含み、
前記1つのアクションを選択する段階は、前記ユーザーが、前記発話における前記複数の第1発語特徴の1つ以上を維持するように前記1つのアクションを選択する段階を含む、請求項1に記載の方法。
【請求項４】
前記複数の第1発語特徴を特定する段階は、前記複数の第1発語特徴の少なくとも1つの重症度を示すスコアを生成する段階をさらに含み、
前記指示を提供する段階は、前記ユーザーに提示するための前記スコアを特定する前記メッセージを含む前記指示を提供する段階をさらに含む、請求項1に記載の方法。
【請求項５】
前記複数の第1発語特徴は、対応する複数のスコアをさらに含み、前記複数のスコアのそれぞれは、それぞれの発語特徴の尺度に沿って定義されている、請求項1に記載の方法。
【請求項６】
前記第1発語分類を特定する段階は、(i)前記複数のスコアの平均、(ii)前記複数のスコアの重み付き組み合わせ、(iii)複数の第2スコアからなるデータセットとの比較、(iv)ニューラルネットワークモデル、または(v)生成トランスフォーマーモデルのうち少なくとも1つに基づいて前記第1発語分類を特定する段階をさらに含む、請求項5に記載の方法。
【請求項７】
前記第1発語分類を特定する段階は、機械学習(ML)モデルを前記複数の第1発語特徴に適用する段階をさらに含み、前記機械学習(ML)モデルは、複数の例を含む訓練データセットを使用して設定され、前記複数の例のそれぞれは、(i)第2言語コミュニケーションのそれぞれの第2オーディオサンプルと、(ii)前記複数の発語分類からのそれぞれの第2分類を特定する、請求項1に記載の方法。
【請求項８】
前記指示を提供する段階は、(i)前記複数の第1発語特徴の1つ以上と、(ii)前記発話を修正する前記1つのアクションとの少なくとも1つを特定する前記メッセージを含む前記指示を提供する段階をさらに含む、請求項1に記載の方法。
【請求項９】
前記1つ以上のプロセッサによって、前記複数の第1発語特徴の少なくとも1つに基づいて、複数の要因からの1つの要因を前記第1発語分類の原因として特定する段階をさらに含み、
前記指示を提供する段階は、前記1つの要因を、前記第1発語分類の前記原因として特定する前記メッセージを提供する段階をさらに含む、請求項1に記載の方法。
【請求項１０】
前記1つ以上のプロセッサによって、前記1つのアクションに従って前記第1オーディオサンプルを修正することによって、前記ユーザーに再生するために第2オーディオサンプルを生成する段階をさらに含む、請求項1に記載の方法。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
関連出願の相互参照
本出願は、2024年12月3日に出願された「言語障害に対処するためオーディオサンプルから抽出された発語特徴を用いた的を絞ったフィードバックの自動生成(Automated Generation of Targeted Feedback Using Speech Characteristics Extracted from Audio Samples to Address Speech Defects)」と題する米国非仮特許出願第18/967,074号の利益と優先権を主張する。この米国非仮特許出願は、2023年12月12日に出願された「言語障害に対処するためオーディオサンプルから抽出された発語特徴を用いた的を絞ったフィードバックの自動生成」と題する米国仮特許出願第63/609,270号の利益と優先権を主張するものであり、この仮特許出願は、参照によりその全体が本明細書に組み込まれる。
続きを表示（約 4,000 文字）【背景技術】
【０００２】
言語障害には、言語音の生成において、個人の効果的なコミュニケーション能力に影響を及ぼしうる障害や逸脱が含まれる。これらの障害は様々な形で現れ、発話の明瞭さ、流暢さ、または全体的な了解度に影響を及ぼしうる。言語障害はさまざまに分類されている。構音障害では、音が歪んだり、置き換えられたり、省略されたりして、発語の明瞭度が低下する。流暢性障害では、発話の自然な流れが阻害され、言葉を発する際の吃音、(低く不明瞭な)つぶやき、反復、引き伸ばし、途絶などが生じる。音声障害は、声の質、高さ、音量に影響を及ぼすことがある。このような発声障害には、アロギア(言葉の貧困)や感情の表出が鈍るなどのさまざまな種類の神経障害をはじめ、広範な原因が考えられる。
【０００３】
言語障害のある個人の日常生活は、その病態によって悪影響を受けることがある。例えば、言語障害は不明瞭な話し方や歪んだ発語を生じうるため、他者から理解されにくく、誤解が生じやすく、他者に情報を効果的に伝えることができない。さらに、言語障害のある人は、誤解されたり否定的に判断されたりすることを恐れて、社会的な状況を避けたり、会話から遠ざかったりすることがある。さらに、発語障害が続くと、精神的なストレスや不安を感じるようになることもある。否定的判断、嘲笑、拒絶に対する恐怖が感情的苦痛を増大させ、コミュニケーションの問題をさらに悪化させてしまうことがある。
【０００４】
言語障害の治療には、(例えば、言語聴覚士の指導のもとで)発語介入技法を用いることもある。多様な言語障害が存在するため、患者の言語障害の治療には困難が伴うことがある。各言語障害にはそれぞれ固有の特徴があり、また各患者の声には固有の抑揚があり、それにより治療が難しくなる。例えば、単調な話し方をする人に対する治療と、吃音のある人に対する治療は異なることがある。さらに、個々人に合わせた解決策を用いなければ、各患者の発語の違いにより、個人に対する治療が長引いてしまうことがある。そのため、個人の発語に合わせた治療法でなければ、言語障害を持つ個人の治療には効果がない可能性がある。
【０００５】
さらに、発語障害や言語障害の評価や治療における主観性は、発語障害や言語障害を持つ人に効果的な治療を提供する上での課題ともなりうる。例えば、発語および言語疾患の評価には、たとえコンピューター支援治療法であっても、言語聴覚士による主観的な判断が含まれることが多い。言語聴覚士が異なれば、発語サンプルや治療セッションでのパフォーマンスの解釈が異なり、診断や治療計画にばらつきが生じることがある。ましてや、治療を受けるために言語聴覚士を確保することが困難な場合もある。
【発明の概要】
【０００６】
上記および他の技術的課題に対処するため、本明細書に記載されたデジタル治療アプリケーションをユーザーに提供することができ、ここでは、ユーザーが言語コミュニケーションの音声サンプルを自分で録音することを可能にし、その後、デジタル治療アプリケーションから、特定の言語障害および発話障害に対処するための矯正アクションを伴う直接的な、的を絞った、リアルタイムのフィードバックを迅速に受信することによって、発話障害および発話障害への対処が可能となる。デジタル治療アプリケーションの文脈では、ユーザーの発語を修正するための的を絞った治療と指示とを含む出力は、時間の経過とともに治療に対するユーザーのアドヒアランスすなわち遵守を向上させるユーザー固有の介入をリアルタイムで提供することができる。さらに、デジタル治療アプリケーションは、ユーザーの特定の発話に対処することを目的とした、より的を絞った個別化された応答を提供することができるため、そうでなければあまり効果的でない発話介入に使われてしまうであろうユーザーの時間、労力、および計算リソース（例えば、処理およびメモリ）を節約することができる。さらに、このデジタル治療アプリケーションは、ユーザーが自分自身でどこでも繰り返し自己練習することを可能にし、さらに、複数の異なる病理学者の主観的で一貫性のない意見の影響を受けることなく、客観的な測定を受けることを可能にする。
【０００７】
このアプリケーションは、ユーザーデバイスのマイクロフォンを通じて言語コミュニケーションを記録するようユーザーに促すことができる。例えば、ユーザーは、デバイス上のアプリケーションのグラフィカルユーザインタフェースに表示された一連の単語または句を発話するように指示される。言語コミュニケーションのオーディオサンプルを取得すると、アプリケーション（またはアプリケーションと連動するサービス）はオーディオサンプルを処理し、ユーザーの言語コミュニケーションの一組の発語特徴を特定することができる。これら発語特徴は、例えば、呼吸(respiration)、発声(phonation)、構音(articulation)、共鳴（resonance）、韻律(prosody)、ピッチ(pitch)、ジッター(jitter)、シマー(shimmer)、リズム(rhythm)などを含むことができる。各発語特徴について、アプリケーションは、理解可能な発語に関して、対応する発語特徴の客観的な重症度を示すスコアを計算することができる。アプリケーションは、オーディオサンプルと同時に取得されるビデオ録画を使用して、言語コミュニケーションに付随するユーザーの非言語的特徴を特定することもできる。非言語的特徴には、ジェスチャー、顔の表情、またはアイコンタクトなどを含めることができる。
【０００８】
一組の発語特徴を使用して、このデジタル治療アプリケーションは、ユーザーの言語コミュニケーションを分類することができる。分類は、言語コミュニケーションが理解可能であるか、または理解不可能であるかを識別することができ、(低く不明瞭な)つぶやき(mumbling)、舌もつれ(lisp)、麻痺性構音障害(dysarthria)などを有するものとして発話を識別することができる。分類は、オーディオサンプルから特定された一組の発語特徴の任意の数の関数に基づいてもよく、ビデオ録画から特定された非言語的特徴によって補強してもよい。例えば、アプリケーションは、発語特徴を機械学習モデルに適用して、口頭による発語の分類を決定することができる。モデルは、教師あり学習技法に従って、訓練データセットを使用して訓練されたものでもよい。訓練データセットは、一組の例を含むことができ、各例は、別の個人による言語コミュニケーションのサンプル音声記録と、その言語コミュニケーションの分類を示す注釈とを含む。ユーザーの発語を分類するために他の関数を使用することもできる。
【０００９】
言語コミュニケーションの分類に基づいて、このデジタル治療アプリケーションは、言語コミュニケーションにおけるユーザーによる単語の発語に関して、ユーザーのアクションを選択することができる。分類が、言語コミュニケーションが理解可能であることを示す場合、アプリケーションは、ユーザーが自分の単語発話方法を維持すべきことを特定することができる。それとは対照的に、分類が、言語コミュニケーションが理解不能であることを示す場合、アプリケーションは、ユーザーの発話を修正するための矯正アクションを選択することができる。矯正アクションは、発語特徴の1つ以上と、発語特徴に関する重症度に関連付けることができる。例えば、ユーザーによる言語コミュニケーションがつぶやきとして分類される場合、アプリケーションは、つぶやきに対処するために、発話時に明瞭度を高め、ペーシング(pacing)を含むアクションを選択することができる。さらに、アプリケーションは、発語特徴に基づいて、分類の原因要素（または診断）を特定することができる。例えば、ユーザーの言語コミュニケーションが理解不能と分類された場合、アプリケーションは、その分類に至った原因要素の一部として、重症度が最も高い発語特徴を特定することができる。
【００１０】
デジタル治療アプリケーションは、分類目的で発話するようユーザーに指示するメッセージを含む指示を生成することができる。この指示は、分類そのものだけでなく、各発語特徴のスコアも特定することができる。このようにして、ユーザーは、ユーザーの発語の分類に関連する各発語特徴の程度を視覚的に確認することができる。さらに、アプリケーションは、矯正アクションが適用された、ユーザーからのオーディオサンプルの修正バージョンを生成することができる。修正バージョンは、含まれる単語を他の人が理解できるようにするには単語の発声がどのように聞こえるべきかというような言語コミュニケーションの音声を含むことができる。アプリケーションは、テキスト・音声(TTS)技術を使用して、ユーザーからのオーディオサンプルを処理し、修正バージョンを出力することができる。アプリケーションは、ユーザーのデバイス上のグラフィカルユーザーインターフェースを介してメッセージを表示することにより、ユーザーに指示を与えることができる。アプリケーションはまた、オーディオサンプルの修正バージョンの再生を行うこともできる。このようにして、ユーザーは、ユーザーの発語分類に対して特定された矯正アクションを含む自分の声を聞いた後で、自分の単語の発話を調整することができる。
（【００１１】以降は省略されています）

関連特許