特許ウォッチ

公開番号2025174291
公報種別公開特許公報(A)
公開日2025-11-28
出願番号2024080476
出願日2024-05-16
発明の名称データ処理装置、データ処理方法、及びデータ処理プログラム
出願人ソフトバンクグループ株式会社
代理人弁理士法人太陽国際特許事務所
主分類G10L 13/10 20130101AFI20251120BHJP(楽器;音響)
要約【課題】本開示は、電子コンテンツに基づいて生成モデルから出力される人工音声の質を高めるデータ処理装置、方法及びプログラムを提供する。
【解決手段】データ処理装置は、プロセッサを備え、前記プロセッサは、テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像(コマ画像70A)と、前記特定区画の画像に示されるキャラクタの感情を推定する指示を示す指示文70Bとを含んだプロンプト70を、入力データに応じた情報を生成する生成モデルに入力し、前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる。
【選択図】図3
特許請求の範囲【請求項１】
プロセッサを備え、
前記プロセッサは、
テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、
前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像と、前記特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトを、入力データに応じた情報を生成する生成モデルに入力し、
前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる、
データ処理装置。
続きを表示（約 1,800 文字）【請求項２】
前記プロセッサは、
前記特定区画の画像にオノマトペが含まれる場合、前記特定区画の画像と、前記オノマトペを解釈する指示とを含んだプロンプトを、前記生成モデルに入力し、
前記表示部に前記特定区画の画像が表示された場合、前記生成モデルが出力した前記オノマトペの解釈結果に基づいて生成された効果音を前記出力部から出力させる、
請求項１に記載のデータ処理装置。
【請求項３】
前記プロセッサは、
前記表示部に前記特定区画の画像が表示されている間に、ユーザによる所定操作を受け付けた場合、前記生成モデルが生成した前記キャラクタの感情の推定内容を、所定の人工音声で前記出力部から出力させる、
請求項１に記載のデータ処理装置。
【請求項４】
前記プロセッサは、
前記出力部からの前記特定区画の画像に応じた音の出力が終了した場合、前記出力部による音出力機能及び振動部による振動機能の少なくとも一方を用いて、特定の音の出力及び特定の振動の発生の少なくとも一方を行う、
請求項１に記載のデータ処理装置。
【請求項５】
前記プロセッサは、
前記コンテンツが映像化されている場合、所定の声質の人工音声を出力可能な仮想役者が複数記憶された役者データベースから、前記キャラクタの声を担当した特定の役者に対応する特定の仮想役者を抽出し、
前記表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記特定の仮想役者による人工音声で前記出力部から出力させる、
請求項１に記載のデータ処理装置。
【請求項６】
前記プロセッサは、
前記特定の役者が複数人存在する場合、複数の前記特定の役者の中からユーザによる一の役者の選択を受け付け、
前記役者データベースから、選択を受け付けた前記一の役者に対応する第１仮想役者を抽出し、
前記表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記第１仮想役者による人工音声で前記出力部から出力させる、
請求項５に記載のデータ処理装置。
【請求項７】
前記プロセッサは、
前記コンテンツが映像化されていない場合、前記電子コンテンツを前記生成モデルに入力して解釈した前記キャラクタの特徴を取得し、
取得した前記キャラクタの特徴と、当該特徴に適した声質を有する役者を尋ねる指示とを含んだプロンプトを、前記生成モデルに入力し、
所定の声質の人工音声を出力可能な仮想役者が複数記憶された役者データベースから、前記生成モデルが出力した役者に対応する第２仮想役者を抽出し、
前記表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記第２仮想役者による人工音声で前記出力部から出力させる、
請求項１に記載のデータ処理装置。
【請求項８】
テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、
前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像と、前記特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトを、入力データに応じた情報を生成する生成モデルに入力し、
前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる、
処理をコンピュータが実行するデータ処理方法。
【請求項９】
テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、
前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像と、前記特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトを、入力データに応じた情報を生成する生成モデルに入力し、
前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる、
処理をコンピュータに実行させるデータ処理プログラム。

発明の詳細な説明【技術分野】
【０００１】
本開示の技術は、データ処理装置、データ処理方法、及びデータ処理プログラムに関する。
続きを表示（約 1,800 文字）【背景技術】
【０００２】
特許文献１には、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、ユーザ発話を受信するステップと、前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと前記プロンプトをエンコードするステップと、前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップ、を含む、方法が開示されている。
【先行技術文献】
【特許文献】
【０００３】
特開２０２２－１８０２８２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら従来技術では、上記の言語モデルのような生成モデルから出力される人工音声の質について未だ改善の余地がある。
【課題を解決するための手段】
【０００５】
第１態様のデータ処理装置は、プロセッサを備え、前記プロセッサは、テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像と、前記特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトを、入力データに応じた情報を生成する生成モデルに入力し、前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる。
【０００６】
第１態様のデータ処理装置では、プロセッサは、電子コンテンツを取得する。生成モデルには、電子コンテンツにおける特定区画の画像と、特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトが入力される。そして、表示部に特定区画の画像が表示された場合、出力部からは、生成モデルが推定したキャラクタの感情に基づいて生成された人工音声で特定区画におけるキャラクタの台詞が出力される。これにより、当該データ処理装置によれば、出力部から抑揚のない人工音声が出力される構成に比べて、電子コンテンツに対するユーザの没入感を高めることができる。
【０００７】
第２態様のデータ処理装置は、第１態様において、前記プロセッサは、前記特定区画の画像にオノマトペが含まれる場合、前記特定区画の画像と、前記オノマトペを解釈する指示とを含んだプロンプトを、前記生成モデルに入力し、前記表示部に前記特定区画の画像が表示された場合、前記生成モデルが出力した前記オノマトペの解釈結果に基づいて生成された効果音を前記出力部から出力させる。
【０００８】
第２態様のデータ処理装置では、特定区画の画像にオノマトペが含まれる場合、生成モデルには、特定区画の画像と、オノマトペを解釈する指示とを含んだプロンプトが入力される。そして、表示部に特定区画の画像が表示された場合、出力部からは、生成モデルが出力したオノマトペの解釈結果に基づいて生成された効果音が出力される。これにより、当該データ処理装置によれば、オノマトペに応じた効果音が出力部から出力されない構成に比べて、電子コンテンツに対するユーザの没入感を高めることができる。
【０００９】
第３態様のデータ処理装置は、第１態様又は第２態様において、前記プロセッサは、前記表示部に前記特定区画の画像が表示されている間に、ユーザによる所定操作を受け付けた場合、前記生成モデルが生成した前記キャラクタの感情の推定内容を、所定の人工音声で前記出力部から出力させる。
【００１０】
第３態様のデータ処理装置では、表示部に特定区画の画像が表示されている間に、ユーザによる所定操作を受け付けた場合、出力部からは、生成モデルが生成したキャラクタの感情の推定内容が所定の音声で出力される。これにより、当該データ処理装置によれば、キャラクタの台詞のみが音声出力される構成に比べて、電子コンテンツの内容に対するユーザの理解度を高めることができる。
（【００１１】以降は省略されています）

関連特許