特許ウォッチ

公開番号2024161564
公報種別公開特許公報(A)
公開日2024-11-19
出願番号2024139640,2022183285
出願日2024-08-21,2018-04-09
発明の名称音声認識デバイス及び音声認識デバイスの連携方法
出願人マクセル株式会社
代理人弁理士法人武和国際特許事務所
主分類G10L 15/22 20060101AFI20241112BHJP(楽器;音響)
要約【課題】複数の音声認識デバイスを連携して利用する。
【解決手段】音声認識デバイスは、音声入力部と、音声出力部と、他の音声認識デバイスとの間でデータの送受信を行う通信制御部と、他の音声認識デバイスに対して音声入力部から入力された音声データを送信し、他の音声認識デバイスから受信した音声データを音声出力部から出力する会話モード実行部と、音声入力部から入力された音声をテキストデータに変換する音声認識部と、テキストデータから会話モード実行部の起動を指示する会話起動ホットワードを検出するホットワード検出部と、他の音声認識デバイスに対して制御コマンドを送信するコマンド送信部と、を備える。ホットワード検出部が会話起動ホットワードを検出すると、コマンド送信部は、他の音声認識デバイスに対して当該他の音声認識デバイスに備えられた会話モード実行部を起動させる制御コマンドを送信する。
【選択図】図5
特許請求の範囲【請求項１】
音声認識デバイスであって、
音声入力部と、
音声出力部と、
他の音声認識デバイスとの間でデータの送受信を行う通信インタフェースと、
前記音声認識デバイスを用いた会話が許可された人物と当該人物の声特徴データとを紐
づけた声認証データ、及び、前記会話が許可された人物と、当該人物の各音声認識デバイ
スからの応答回数とを関連付けた第１利用状況データを記憶する記憶部と、
制御部と、を備え、
前記通信インタフェースは、複数の他の音声認識デバイスと通信し、
前記制御部は、
前記他の音声認識デバイスに対して前記音声入力部から入力された音声データを送信し
、
前記他の音声認識デバイスから受信した音声データを前記音声出力部から出力し、
前記音声入力部から入力された音声に会話起動ホットワードがある場合、会話モードを
実行し、
前記音声入力部は、
特定の人物を呼び出す音声の入力を受け付け、
前記制御部は、
前記音声入力部から入力される音声データの声特徴データを抽出し、
前記記憶部に記憶された前記声認証データと一致するかどうかを検出し、
前記声認証データとの一致を検出した場合、
前記第１利用状況データにおいて応答回数が高い順に従って、前記複数の他の音声認識
デバイスに対して前記会話モードを起動させる制御コマンドを送信し、
前記人物が応答しない場合、前記人物の通信機器に前記音声データを送信する、
ことを特徴とする音声認識デバイス。
続きを表示（約 2,600 文字）【請求項２】
音声認識デバイスであって、
音声入力部と、
音声出力部と、
他の音声認識デバイスとの間でデータの送受信を行う通信インタフェースと、
前記音声認識デバイスを用いた会話が許可された人物と当該人物の声特徴データとを紐
づけた声認証データを記憶する記憶部と、
センサと、
制御部と、を備え、
前記通信インタフェースは、複数の他の音声認識デバイスと通信し、
前記制御部は、
前記他の音声認識デバイスに対して前記音声入力部から入力された音声データを送信し
、
前記他の音声認識デバイスから受信した音声データを前記音声出力部から出力し、
前記音声入力部から入力された音声にホットワードがある場合、会話モードを実行し、
前記入力される音声データの声特徴データを抽出し、
当該声特徴データと前記声認証データと一致するかどうかを検出し、
前記声認証データと一致する場合に会話起動ホットワードを検出すると、前記他の音声
認識デバイスに前記会話モードを起動させる制御コマンドを送信し、
前記人物が応答しない場合、前記人物の通信機器に前記音声データを送信し、
更に、留守番ホットワードがある場合、前記センサの検知に基づいて動作する留守番モ
ードを実行し、前記留守番モードの実行中に前記声特徴データと前記声認証データとの一
致を検出すると、前記留守番モードを停止する、
ことを特徴とする音声認識デバイス。
【請求項３】
請求項１又は２に記載の音声認識デバイスであって、
前記制御部は、前記会話起動ホットワードを検出すると、前記会話起動ホットワードが
検出された音声データと当該音声データの再生コマンドを前記他の音声認識デバイスに送
信する、
ことを特徴とする音声認識デバイス。
【請求項４】
請求項１又は２に記載の音声認識デバイスであって、
前記制御部は、前記声特徴データと前記声認証データとの一致を検出した場合に、前記
他の音声認識デバイスに対して前記制御コマンドを送信する、
ことを特徴とする音声認識デバイス。
【請求項５】
請求項１又は２に記載の音声認識デバイスであって、
撮像部を更に備え、
前記記憶部は、前記音声認識デバイスを用いた会話が許可された人物と当該人物の撮像
画像とを紐づけた顔認証データを更に記憶し、
前記制御部は、前記撮像部が撮像した撮像画像と、前記顔認証データとの一致を更に検
出し、
前記撮像画像と前記顔認証データとの一致を検出した場合に、前記他の音声認識デバイ
スに対して前記制御コマンドを送信する、
ことを特徴とする音声認識デバイス。
【請求項６】
請求項１又は２に記載の音声認識デバイスであって、
前記制御部は、前記他の音声認識デバイスが人物の存在を検知したことを示す人物検知
情報に基づき、前記人物検知情報を出力した前記他の音声認識デバイスに対して前記制御
コマンドを送信する、
ことを特徴とする音声認識デバイス。
【請求項７】
請求項１又は２に記載の音声認識デバイスであって、
タイマーを更に備え、
前記音声入力部は、特定の人物を呼び出す音声の入力を受け付け、
前記制御部は、前記特定の人物を呼び出す音声及び当該音声を前記他の音声識別デバイ
スにおいて再生させる再生コマンドを前記他の音声認識デバイスに送信し、
前記特定の人物を呼び出す音声及び前記再生コマンドを送信してからの経過時間を前記
タイマーから取得し、
前記経過時間が予め定められた待機時間以上になると、前記特定の人物からの応答メッ
セージが無いことを通知する応答メッセージを前記音声出力部から出力させる、
ことを特徴とする音声認識デバイス。
【請求項８】
請求項１に記載の音声認識デバイスであって、
前記制御部は、前記特定の人物を呼び出す音声及び当該音声を前記複数の他の音声識別
デバイスの其々において再生させる再生コマンドを前記複数の他の音声認識デバイスの全
てに対して送信し、
前記通信インタフェースは、複数の他の音声認識デバイスの内の一つから、前記特定の
人物からの応答メッセージを受信すると、当該応答メッセージを送信した他の音声認識デ
バイスとの通信は維持し、残りの他の音声認識デバイスとの通信は切断する、
ことを特徴とする音声認識デバイス。
【請求項９】
請求項２に記載の音声認識デバイスであって、
前記音声入力部は、特定の人物を呼び出す音声の入力を受け付け、
前記制御部は、前記特定の人物を呼び出す音声及び当該音声を前記複数の他の音声識別
デバイスの其々において再生させる再生コマンドを前記複数の他の音声認識デバイスの全
てに対して送信し、
前記通信インタフェースは、複数の他の音声認識デバイスの内の一つから、前記特定の
人物からの応答メッセージを受信すると、当該応答メッセージを送信した他の音声認識デ
バイスとの通信は維持し、残りの他の音声認識デバイスとの通信は切断する、
ことを特徴とする音声認識デバイス。
【請求項１０】
請求項１に記載の音声認識デバイスであって、
時刻計測部を更に備え、
前記記憶部は、前記音声認識デバイスから、前記複数の他の音声認識デバイスを呼びか
ける順序を時間帯に応じて定めた第２利用状況データを更に記憶し、
前記制御部は、前記会話起動ホットワードを検出した時刻を前記時刻計測部から取得し
、前記第２利用状況データの前記時刻が含まれる時間帯に定められた呼びかけ優先順位に
従って、前記複数の他の音声認識デバイスの其々に対して前記制御コマンドを送信する、
ことを特徴とする音声認識デバイス。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本発明は、音声認識デバイス及び音声認識デバイスの連携方法に関する。
続きを表示（約 2,200 文字）【背景技術】
【０００２】
近年、発話者の発する音声内容を音声認識し、発話内容を解析することで、発話内容に
則した応答を付属するスピーカーから音声出力する、所謂スマートスピーカー、あるいは
ＡＩスピーカーと呼ばれる音声認識技術及び人工知能技術を用いた音声認識デバイスが製
品化されつつある。例えば、特許文献１には音声認識技術の一例として「発話入力に音声
認識アルゴリズムを適用した結果得られた解釈候補が、冗長性を減少させて統合化された
方法で提示される方法を提供するために、ユーザに解釈候補の中から選択する機会を提示
し、重複要素なしでこれらの選択肢を提示するように構成される（要約抜粋）」との記載
がある。また特許文献２には「自動音声認識システムにおける、音声認識モデル及びデー
タの使用を管理するための機能として、ユーザがいつシステムを利用する可能性があるか
を予測するために追跡され得る（要約抜粋）」とする記載がある。
【先行技術文献】
【特許文献】
【０００３】
特開２０１３－６８９５２号公報
特表２０１５－５３７２５８号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
上記のスマートスピーカー等の音声認識デバイスは、当該デバイスに対して当該デバイ
スの周辺にいる者が音声で指示等を与えることにより当該デバイスで処理し応答を得るも
のであるが、当該デバイスを複数個で連携して使用することについては開示していない。
つまり、宅内での使用例としてはリビングで家族が当該デバイスを共有して天気予報、ニ
ュース、音楽などのインターネット上に存する情報取得を要求すると、それに応じた内容
を音声出力するだけで、リビング以外の例えば、子供部屋にある、更に別の音声認識デバ
イスとの間では何らのコミュニケーションや連携動作を行うことが想定されていない。こ
のため、複数の音声認識デバイスを連携して使用することができず、音声認識デバイスの
新たな利用態様について工夫の余地がある。
【０００５】
本発明は上記実情に鑑みてなされたものであり、複数の音声認識デバイスを連携して利
用することができる音声認識デバイス及び音声認識デバイスの連携方法を提供することを
目的とする。
【課題を解決するための手段】
【０００６】
上記目的を達成するために、本発明は特許請求の範囲に記載の構成を有する。
【発明の効果】
【０００７】
本発明によれば、複数の音声認識デバイスを連携して利用することができる音声認識デ
バイス及び音声認識デバイスの連携方法を提供することができる。上記以外の目的・構成
・効果は下記実施形態において明らかにされる。
【図面の簡単な説明】
【０００８】
本実施形態に係る音声認識デバイスのハードウェア構成図
音声認識デバイスの機能ブロック図
参照メモリに記憶されるホットワードデータの例を示す図
参照メモリに記憶される声認証データの例を示す図
音声認識デバイスを用いた連携システムを示す図
連携システムにおける第１の呼びかけ動作を示すフローチャート
所在推定データの一例を示す図
通常モード／会話モードの第１の切り替え処理の流れを示すフローチャート
通常モード／会話モードの第２の切り替え処理の流れを示すフローチャート
新規設置時の第１の設定処理について示す概念図
新規設置時の第２の設定処理について示す概念図
新規設置時の第２の設定処理の流れを示すフローチャート
第２実施形態における家屋内の音声認識デバイスの連携システムの概要構成を示す図
人物についての時間帯ごとの利用状況を記録した利用状況データの一例を示す図
人物についての時間帯ごとの呼び出し先優先順位を記録した呼び出し優先順位データの一例を示す図
音声認識デバイスと携帯通信端末とをドックで接続する例を示す図
留守番モードへの切替処理を示すフローチャート
【発明を実施するための形態】
【０００９】
以下、本発明の実施形態の例を、図面を用いて説明する。なお、各種の図面において、
同一の機能には同一の符号を付し、重複説明を省略する。
【００１０】
＜第１実施形態＞
図１は、本実施形態に係る音声認識デバイス１のハードウェア構成図である。音声認識
デバイス１は、音声認識専用の装置であっても、携帯電話端末、スマートフォン、パーソ
ナルコンピュータ、ゲーム機器、等のように従来から存する通信機能を有する電子機器で
あっても良い。また、音声認識デバイス１は、通信機能として、有線ＬＡＮ、無線ＬＡＮ
、携帯電話回線の無線通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＲＦＩＤなどの近接無線
、等の一般的な通信機能を用いてもよく、それら通信機能に対応する通信インタフェース
を一つ、又は複数備える。
（【００１１】以降は省略されています）

関連特許