特許ウォッチ

公開番号2025090076
公報種別公開特許公報(A)
公開日2025-06-17
出願番号2023205061
出願日2023-12-05
発明の名称情報処理装置、情報処理方法、およびプログラム
出願人ソニーグループ株式会社
代理人個人,個人,個人
主分類G10L 25/78 20130101AFI20250610BHJP(楽器;音響)
要約【課題】デバイスの装着者による発話の検出率を向上させる。
【解決手段】本技術の情報処理装置は、デバイスの装着者の発話に関する物理量を検出するセンサで取得されたセンサ信号と、センサ信号に基づいて発話の有無を検出する発話検出機能による発話の有無の検出結果とに基づいて、発話検出機能のキャリブレーションを行うキャリブレーション部を備える。本技術は、例えば、装着者の発話検出を行うイヤホンに適用することができる。
【選択図】図12
特許請求の範囲【請求項１】
デバイスの装着者の発話に関する物理量を検出するセンサで取得されたセンサ信号と、前記センサ信号に基づいて前記発話の有無を検出する発話検出機能による前記発話の有無の検出結果とに基づいて、前記発話検出機能のキャリブレーションを行うキャリブレーション部を備える
情報処理装置。
続きを表示（約 890 文字）【請求項２】
前記デバイスは、前記装着者の耳に装着される
請求項１に記載の情報処理装置。
【請求項３】
前記センサは、前記発話により生じる振動を検出する加速度センサである
請求項１に記載の情報処理装置。
【請求項４】
前記発話検出機能においては、学習モデルが用いられることにより前記発話の有無の検出が行われ、
前記キャリブレーションは、前記センサ信号に対する前処理のパラメータの調整を含み、
前記前処理は、前記学習モデルに入力するための情報を前記センサ信号に基づいて生成する処理を含む
請求項１に記載の情報処理装置。
【請求項５】
前記前処理は、３軸の前記センサ信号にそれぞれ重み付けして合成することで、前記学習モデルに入力するための、特定方向の振動を示す情報を生成する
請求項４に記載の情報処理装置。
【請求項６】
前記キャリブレーション部は、前記デバイスの外部の装置に備えられる
請求項４に記載の情報処理装置。
【請求項７】
前記キャリブレーション部は、前記デバイスの外部の装置により提示されたガイドに従って前記装着者が行った前記発話に関する前記物理量の検出結果を示す前記センサ信号と、前記発話検出機能による、前記ガイドに従って前記装着者が行った前記発話の有無の検出結果とに基づいて、前記キャリブレーションを行う
請求項６に記載の情報処理装置。
【請求項８】
前記キャリブレーション部は、前記デバイスに備えられる
請求項４に記載の情報処理装置。
【請求項９】
前記キャリブレーション部は、前記前処理に用いられる前記パラメータを、複数の候補の中から選択する
請求項８に記載の情報処理装置。
【請求項１０】
前記キャリブレーションは、前記発話の有無の検出に用いられる学習モデルの再学習を含む
請求項１に記載の情報処理装置。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、デバイスの装着者による発話の検出率を向上させることができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
続きを表示（約 1,400 文字）【背景技術】
【０００２】
イヤホン（インナーイヤーヘッドホン）、TWS（True Wireless Stereo）、補聴器などのユーザが耳に装着するデバイスのUX(User Experience)を改善するための技術が多く開発されている。特許文献１には、イヤホンから再生される音質を改善するのに良好な装着状態を装着者に報知する技術が記載されている。また、デバイスのUXを改善するために、デバイスでの環境検出の需要が高まっている。
【０００３】
例えば、イヤホンの装着者が発話すると、イヤホンが装着者の発話を検出し、再生している楽曲をミュートしたり、外音を取り込むモードに遷移したりする。装着者がスマートフォンなどを制御しなくても、イヤホンが、装着者の発話の有無に応じてシームレスに各種の機能を実行することで、装着者はイヤホンを装着しながら例えば目の前の人物と会話をすることができる。
【先行技術文献】
【特許文献】
【０００４】
特開２０２０－１５０３２０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
装着者の発話は、例えば、イヤホンに搭載されたマイク（マイクロフォン）で取得される音声信号やセンサで取得されるセンサ信号に基づいて検出される。装着者の発話を精度よく検出するためには、マイクロフォンやセンサで取得される信号のS/N(Signal-to-Noise ratio)を高くすることが重要である。
【０００６】
例えば、装着者の発話により生じる振動を加速度センサで検出する場合、当該振動は頭部内を伝搬してイヤホンに到達するため、加速度信号のS/Nが、個人差やイヤホンの装着方法によって大きく変わる。個人ごとの加速度信号の平均値に基づいて、発話検出に用いられるパラメータを決めることで、平均的な装着者による発話の検出率を向上させることができるが、平均から外れた装着者による発話の検出率は低下する。
【０００７】
特許文献１に記載の技術では、装着者の発話により生じ、頭部内を伝搬してイヤホンに到達した振動の検出結果を示す加速度信号のS/Nを改善することができない。
【０００８】
本技術はこのような状況に鑑みてなされたものであり、デバイスの装着者による発話の検出率を向上させることができるようにするものである。
【課題を解決するための手段】
【０００９】
本技術の第１の側面の情報処理装置は、デバイスの装着者の発話に関する物理量を検出するセンサで取得されたセンサ信号と、前記センサ信号に基づいて前記発話の有無を検出する発話検出機能による前記発話の有無の検出結果とに基づいて、前記発話検出機能のキャリブレーションを行うキャリブレーション部を備える。
【００１０】
本技術の第１の側面の情報処理方法は、情報処理装置が、デバイスの装着者の発話に関する物理量を検出するセンサで取得されたセンサ信号と、前記センサ信号に基づいて前記発話の有無を検出する発話検出機能による前記発話の有無の検出結果とに基づいて、前記発話検出機能のキャリブレーションを行う。
（【００１１】以降は省略されています）

関連特許