TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025119830
公報種別公開特許公報(A)
公開日2025-08-15
出願番号2024014878
出願日2024-02-02
発明の名称情報処理装置、情報処理装置の制御方法およびプログラム
出願人キヤノン株式会社
代理人個人
主分類H04N 23/60 20230101AFI20250807BHJP(電気通信技術)
要約【課題】所望の画像を選択して、この選択された画像と、当該画像と対応付けられたテキストとが含まれるレイアウト画像を取得することができる情報処理装置、情報処理装置の制御方法およびプログラムを提供することを目的とする。
【解決手段】情報処理装置120は、人物の画像が含まれる画像データ900Aと、画像データ900Aと関連付けられた音声データ900Bとを取得する取得手段(ネットワーク制御部502)と、音声データ900Bをテキストデータに変換する変換手段(音声データ変換部509)と、画像データ900Aを選択する選択手段(入力装置407)と、テキストデータの中における特定テキストデータと、選択手段で選択された画像データ900Aとを配置したレイアウト画像を生成する生成手段(レイアウト画像生成部511)とを備える。
【選択図】図10A
特許請求の範囲【請求項1】
人物の画像が含まれる画像データと、該画像データと関連付けられた音声データとを取得する取得手段と、
前記取得手段で取得された前記音声データをテキストデータに変換する変換手段と、
前記取得手段で取得された前記画像データを選択する選択手段と、
前記テキストデータの中における、前記選択手段で選択された前記画像データに含まれる前記人物が発した音声の特定テキストデータと、前記選択手段で選択された前記画像データとを配置したレイアウト画像を生成する生成手段と、を備えることを特徴とする情報処理装置。
続きを表示(約 1,300 文字)【請求項2】
前記取得手段は、前記人物を特定する人物特定データを取得可能であり、
前記取得手段で取得された前記人物特定データに基づいて、前記テキストデータの中から、前記特定テキストデータを抽出する抽出手段を備えることを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記抽出手段は、前記取得手段で取得された前記人物特定データに基づいて、前記テキストデータの中から、前記選択手段で選択された前記画像データに含まれる前記人物の顔を抽出し、該人物に対する前記特定テキストデータを抽出することを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記生成手段は、前記レイアウト画像として、前記抽出手段で抽出された前記特定テキストデータと、前記選択手段で選択された前記画像データとを配置した画像を生成することを特徴とする請求項2に記載の情報処理装置。
【請求項5】
前記画像データは、複数のフレームで構成された動画のデータであり、
前記選択手段は、前記複数のフレームのうちの1つのフレームを選択可能であることを特徴とする請求項1に記載の情報処理装置。
【請求項6】
前記音声データは、前記複数のフレームと一括して関連付けられた音声データであり、
前記テキストデータの中から、前記選択手段で選択された前記1つのフレームと、該フレームの前および後のうちの少なくとも一方のフレームとに含まれる前記人物が発した音声のテキストデータを、前記特定テキストデータとして抽出する抽出手段を備えることを特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記画像データには、複数の前記人物の画像が含まれており、
前記各人物に対する前記特定テキストデータをそれぞれ抽出する抽出手段を備えることを特徴とする請求項1に記載の情報処理装置。
【請求項8】
前記生成手段は、前記各特定テキストデータを配置した前記レイアウト画像を生成することを特徴とする請求項7に記載の情報処理装置。
【請求項9】
前記生成手段は、前記レイアウト画像として、前記人物の画像に前記特定テキストデータの画像が吹き出しとして配置されている第1レイアウト画像と、前記人物の画像に前記特定テキストデータの画像が上下または左右に隣り合った欄として配置されている第2レイアウト画像とを生成可能であることを特徴とする請求項1に記載の情報処理装置。
【請求項10】
前記生成手段での前記レイアウト画像の生成に先立って、前記レイアウト画像として、前記第1レイアウト画像および前記第2レイアウト画像のうちのいずれかの画像の生成が有効であるのか否かを判断する判断手段を備え、
前記生成手段は、前記判断手段での判断の結果、前記第1レイアウト画像の生成が有効であると判断された場合には、該第1レイアウト画像の生成を行い、前記第2レイアウト画像の生成が有効であると判断された場合には、該第2レイアウト画像の生成を行うことを特徴とする請求項9に記載の情報処理装置。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、情報処理装置、情報処理装置の制御方法およびプログラムに関する。
続きを表示(約 3,200 文字)【背景技術】
【0002】
従来から、人の会話が記録された音声データを認識してテキスト化する技術として、音声認識技術が知られている。特許文献1には、会議中に発生した音声を音声認識技術でテキスト化した後、その内容を要約した要約テキストを生成する議事録生成装置が記載されている。特許文献1に記載の議事録生成装置では、要約テキストと、会議中に使用された画像データとを対応づけて、レイアウトを作成することができる。このレイアウトは、会議の証跡を残す役割を担う。また、顔写真等の人物情報が予め記憶された撮影装置が知られている。この撮影装置は、被写体である人物を人物情報に基づいて追尾して、当該人物の写真や動画を所望のタイミングで撮影することができる。このような撮影装置を用いて、例えば育児等のプライベートの様子を撮影する場合には、撮影装置によって記録された画像データと音声データとを組み合わせて、レイアウトを作成することが考えられるが、会議のレイアウト作成の場合とは異なる。具体的には、会議の場合には、原則として、会議の開始から終了までのレイアウトを作成するのが好ましいが、プライベートの場合には、比較的写りがよく、思い出として残したい場面を選択して、当該場面のレイアウトを作成するのが好ましい。
【先行技術文献】
【特許文献】
【0003】
特開2019-149083号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1では、例えば思い出として残したい所望の場面を選択して、当該場面のレイアウトを作成することが困難であるという問題があった。
【0005】
本発明は、上記の課題に鑑みてなされたものである。本発明は、所望の画像を選択して、この選択された画像と、当該画像と対応付けられたテキストとが含まれるレイアウト画像を取得することができる情報処理装置、情報処理装置の制御方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明の情報処理装置は、人物の画像が含まれる画像データと、該画像データと関連付けられた音声データとを取得する取得手段と、前記取得手段で取得された前記音声データをテキストデータに変換する変換手段と、前記取得手段で取得された前記画像データを選択する選択手段と、前記テキストデータの中における、前記選択手段で選択された前記画像データに含まれる前記人物が発した音声の特定テキストデータと、前記選択手段で選択された前記画像データとを配置したレイアウト画像を生成する生成手段と、を備えることを特徴とする。
【発明の効果】
【0007】
本発明によれば、所望の画像を選択して、この選択された画像と、当該画像と対応付けられたテキストとが含まれるレイアウト画像を取得することができる。
【図面の簡単な説明】
【0008】
レイアウト画像生成システムのハードウェア構成を示すブロック図である。
撮影装置のハードウェア構成を示すブロック図である。
撮影装置のソフトウェア構成を示すブロック図である。
情報処理装置のハードウェア構成を示すブロック図である。
情報処理装置のソフトウェア構成を示すブロック図である。
印刷装置のハードウェア構成を示すブロック図である。
印刷装置のソフトウェア構成を示すブロック図である。
撮影装置で実行される処理を示すフローチャートである。
撮影装置に記憶されている人物情報の一例を示す図である。
情報処理装置で実行される処理を示すフローチャートである。
情報処理装置で実行される処理の一例を図解したイメージ図である。
印刷装置で実行される処理を示すフローチャートである。
レイアウト画像の一例を示す図である。
図10Aに示すフローチャートのサブルーチンであるステップS1001での詳細処理(テキスト変換処理)を示すフローチャートである。
テキスト情報の一例を示す図である。
図10Aに示すフローチャートのサブルーチンであるステップS1003での詳細処理(顔抽出処理)を示すフローチャートである。
顔領域情報の一例を示す図である。
図10Aに示すフローチャートのサブルーチンであるステップS1004での詳細処理(レイアウト画像生成処理)を示すフローチャートである。
レイアウト画像作成時に操作される操作画面の一例を示す図である。
レイアウト画像作成時に操作される操作画面の変形例を示す図である。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について図面を参照しながら詳細に説明する。しかしながら、以下の実施形態に記載されている構成はあくまで例示に過ぎず、本発明の範囲は実施形態に記載されている構成によって限定されることはない。例えば、本発明を構成する各部は、同様の機能を発揮し得る任意の構成のものと置換することができる。また、任意の構成物が付加されていてもよい。
【0010】
図1は、レイアウト画像生成システムのハードウェア構成を示すブロック図である。図1に示すように、レイアウト画像生成システム100は、撮影装置(撮像装置)110、情報処理装置120、印刷装置130を有し、これらが互いにネットワーク140を介して通信可能に接続されている。ネットワーク140は、WAN(Wide Area Network)やLAN(Local Area Network)等である。なお、通信接続は、ネットワーク140を介した接続に限定されず、例えば、BlueTooth通信やUSB有線接続等を用いてもよい。撮影装置110は、本実施形態では動画撮影が可能なデジタルビデオカメラである。この撮影装置110は、被写体として、人物の撮影に用いられる。これにより、人物の画像が含まれる画像データ(動画データ)900Aが取得される。画像データ900Aは、複数のフレームで構成されたデータである。なお、画像データ900Aに含まれる人物の数(人数)は、1人の場合もあるし、複数人の場合もある。また、撮影装置110は、動画撮影の場合、画像データ900Aを構成する複数のフレームと一括して関連付けられた音声データ900Bも取得される。音声データ900Bには、主に人物の肉声が含まれている。なお、音声データ900Bに含まれる人物の肉声は、1人の肉声の場合もあるし、複数人の肉声の場合もある。さらに、撮影装置110は、画像データ900Aに含まれる前記人物を特定する人物情報(人物特定データ)900Cも取得される。画像データ900A、音声データ900B、人物情報900Cは、撮影装置110のストレージ207に記憶される(図2参照)。撮影装置110は、パンおよびチルトが自動制御可能に構成されており、例えば屋内のテーブルや棚等に載置して用いられる。この載置状態で撮影装置110は、人物情報900Cに基づいて、屋内に存在する人物の顔を自動で検出、追尾することができる。人物情報900Cについては、図9を参照して、後述する。撮影装置110は、ネットワーク140を介して、画像データ900A、音声データ900Bおよび人物情報900Cを情報処理装置120に送信することができる。これにより、情報処理装置120は、画像データ900A、音声データ900B、人物情報900Cを受信して、取得することができる。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
店内配信予約システム
1か月前
サクサ株式会社
中継装置
1か月前
キヤノン株式会社
電子機器
1か月前
キヤノン株式会社
撮像装置
1か月前
ヤマハ株式会社
信号処理装置
1か月前
キヤノン電子株式会社
モバイル装置
1か月前
日本精機株式会社
画像投映システム
1か月前
株式会社リコー
画像形成装置
10日前
ブラザー工業株式会社
読取装置
5日前
株式会社ニコン
撮像装置
20日前
パテントフレア株式会社
水中電波通信法
14日前
DXO株式会社
情報処理システム
17日前
キヤノン電子株式会社
シート材搬送装置
6日前
株式会社オーディオテクニカ
受光器
1か月前
個人
外部ヘッダ変換通信装置および通信網
1か月前
テックス通信株式会社
電話システム
1か月前
八重洲無線株式会社
無線中継システム
1か月前
サクサ株式会社
ダウンロード支援装置
6日前
シャープ株式会社
画像形成装置
6日前
住友建機株式会社
表示システム
1か月前
キヤノン株式会社
測距装置
1か月前
株式会社エクシング
双方向通信システム
10日前
学校法人立命館
情報埋め込み方法
12日前
17LIVE株式会社
サーバおよび方法
1か月前
17LIVE株式会社
サーバおよび方法
5日前
キヤノン株式会社
撮像装置
1か月前
株式会社JVCケンウッド
音響システム
1か月前
株式会社エクシング
双方向通信システム
13日前
株式会社ダイフク
搬送設備
1か月前
沖電気工業株式会社
画像形成装置
1か月前
株式会社ダイフク
搬送設備
1か月前
京セラ株式会社
会議システム
1か月前
大和ハウス工業株式会社
ニッチ構造
1か月前
シャープ株式会社
端末装置および通信方法
5日前
株式会社国際電気
監視システム
18日前
大阪瓦斯株式会社
通信システム
1か月前
続きを見る