TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2024129815
公報種別
公開特許公報(A)
公開日
2024-09-27
出願番号
2024037136
出願日
2024-03-11
発明の名称
情報処理装置、情報処理方法及び機器読み取り可能な記憶媒体
出願人
富士通株式会社
代理人
個人
,
個人
主分類
H04N
21/84 20110101AFI20240919BHJP(電気通信技術)
要約
【課題】情報処理装置、情報処理方法及び機器読み取り可能な記憶媒体を提供する。
【解決手段】情報処理装置は、ビデオについて説明される概念の閉集合ラベルグループ及び閉集合ラベルグループに対応するプロンプト集合を取得する取得部であって、閉集合ラベルグループは、概念に関する全てのラベルを含み、プロンプト集合は、閉集合ラベルグループにおける各ラベルに対応するプロンプトを含む、取得部と、ビデオにおける各フレーム画像の特徴を抽出し、抽出された特徴及びプロンプト集合に基づいて、各フレーム画像が閉集合ラベルグループにおける各ラベルに属するスコアを判定するCLIP部と、ビデオにおける全ての画像のスコアに基づいて、ビデオのラベルを決定するラベル決定部と、を含む。該情報処理装置は、ビデオレベルの属性説明の閉集合の概念のラベル付けを実現することができる。
【選択図】図1
特許請求の範囲
【請求項1】
ビデオについて説明される概念の閉集合ラベルグループ及び前記閉集合ラベルグループに対応するプロンプト集合を取得する取得部であって、前記閉集合ラベルグループは、前記概念に関する全てのラベルを含み、前記プロンプト集合は、前記閉集合ラベルグループにおける各ラベルに対応するプロンプトを含む、取得部と、
前記ビデオにおける各フレーム画像の特徴を抽出し、抽出された特徴及び前記プロンプト集合に基づいて、各フレーム画像が前記閉集合ラベルグループにおける各ラベルに属するスコアを判定するCLIP部と、
前記ビデオにおける全ての画像のスコアに基づいて、前記ビデオのラベルを決定するラベル決定部と、を含む、情報処理装置。
続きを表示(約 1,500 文字)
【請求項2】
前記取得部は、Chat-GPTにより前記閉集合ラベルグループを取得し、前記閉集合ラベルグループ又はChat-GPTによる前記閉集合ラベルグループにおけるラベルの説明に基づいて前記プロンプト集合を取得する、請求項1に記載の情報処理装置。
【請求項3】
前記CLIP部は、
前記プロンプト集合に基づいて、前記閉集合ラベルグループにおける各ラベルについて各ラベルの特徴を取得するテキストエンコーダと、
前記ビデオにおける各フレーム画像の特徴を抽出する画像エンコーダと、
各フレーム画像の特徴と各ラベルの特徴とに対して類似度比較を行い、各フレーム画像の前記スコアを取得する比較部と、を含む、請求項1又は2に記載の情報処理装置。
【請求項4】
前記ラベル決定部は、
各フレーム画像のスコアが最も高いラベルを各フレーム画像の候補ラベルとして選択する選択部と、
前記ビデオにおける全ての画像の候補ラベルに基づいて、閉集合ラベルグループにおける全てのラベルについて投票する投票部と、
閾値を設定し、投票数が前記閾値よりも高いラベルを前記ビデオのラベルとして判定する判定部と、を含む、請求項1又は2に記載の情報処理装置。
【請求項5】
前記投票部は、フレームを単位として、全てのラベルについて投票する、請求項4に記載の情報処理装置。
【請求項6】
前記ビデオを複数のビデオセグメントに分割する分割部であって、各ビデオセグメントにおける複数のフレーム画像の背景は類似する、分割部、をさらに含む、請求項4に記載の情報処理装置。
【請求項7】
前記投票部は、フレームを単位として、前記複数のビデオセグメントのうちの各ビデオセグメントのラベルについて投票し、
前記選択部は、投票数が最も高いラベルを前記各ビデオセグメントの候補ラベルとし、
前記投票部は、セグメントを単位として、ビデオ全体のラベルについて投票する、請求項6に記載の情報処理装置。
【請求項8】
前記CLIP部は、前記各フレーム画像の特徴に基づいて前記複数のビデオセグメントのうちの各ビデオセグメントの特徴を取得し、各ビデオセグメントが前記閉集合ラベルグループにおける各ラベルに属するスコアを判定し、
前記選択部は、各ビデオセグメントのスコアが最も高いラベルを各ビデオセグメントの候補ラベルとして選択し、
前記投票部は、セグメントを単位として、全てのラベルについて投票する、請求項6に記載の情報処理装置。
【請求項9】
ビデオについて説明される概念の閉集合ラベルグループ及び前記閉集合ラベルグループに対応するプロンプト集合を取得するステップであって、前記閉集合ラベルグループは、前記概念に関する全てのラベルを含み、前記プロンプト集合は、前記閉集合ラベルグループにおける各ラベルに対応するプロンプトを含む、ステップと、
前記ビデオにおける各フレーム画像の特徴を抽出し、抽出された特徴及び前記プロンプト集合に基づいて、各フレーム画像が前記閉集合ラベルグループにおける各ラベルに属するスコアを判定するステップと、
前記ビデオにおける全ての画像のスコアに基づいて、前記ビデオのラベルを決定するステップと、を含む、情報処理方法。
【請求項10】
機器読み取り可能な命令コードを記憶しているプログラムプロダクトが記録された機器読み取り可能な記憶媒体であって、前記命令コードがコンピュータにより読み取られて実行される際に、前記コンピュータに請求項9に記載の情報処理方法を実行させることができる、記憶媒体。
発明の詳細な説明
【技術分野】
【0001】
本開示は、情報処理の技術分野に関し、具体的には、ビデオを分類するための情報処理装置、情報処理方法及び機器読み取り可能な記憶媒体に関する。
続きを表示(約 1,500 文字)
【背景技術】
【0002】
この部分は、本開示に関連する背景情報を提供するが、必ずしも従来技術ではない。
【0003】
現在、ビデオが属するジャンルを手動でラベル付けするものがほとんどである。例えば、ラベル付けの応用は、映画のジャンルや色調などのラベル付けを含む。しかし、手動のラベル付けは主観的なものであり、同一のビデオに対するラベル付けは、人によって異なる可能性があり、場合によって大きく異なる可能性もある。よって、ラベル付けされたラベルに基づいてビデオを選択する応用では、ユーザ体験に悪影響を与えてしまう。従って、ビデオが属するジャンルを客観的にラベル付けする方法が求められている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
この部分は、本開示の一般的な概要を提供し、その全範囲又はその全ての特徴を完全に開示するものではない。
【0005】
本開示は、ビデオを分類するための情報処理装置、情報処理方法及び機器読み取り可能な記憶媒体を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示の1つの態様では、ビデオについて説明される概念の閉集合ラベルグループ及び前記閉集合ラベルグループに対応するプロンプト集合を取得する取得部であって、前記閉集合ラベルグループは、前記概念に関する全てのラベルを含み、前記プロンプト集合は、前記閉集合ラベルグループにおける各ラベルに対応するプロンプトを含む、取得部と、前記ビデオにおける各フレーム画像の特徴を抽出し、抽出された特徴及び前記プロンプト集合に基づいて、各フレーム画像が前記閉集合ラベルグループにおける各ラベルに属するスコアを判定するCLIP部と、前記ビデオにおける全ての画像のスコアに基づいて、前記ビデオのラベルを決定するラベル決定部と、を含む、情報処理装置を提供する。
【0007】
本開示のもう1つの態様では、ビデオについて説明される概念の閉集合ラベルグループ及び前記閉集合ラベルグループに対応するプロンプト集合を取得するステップであって、前記閉集合ラベルグループは、前記概念に関する全てのラベルを含み、前記プロンプト集合は、前記閉集合ラベルグループにおける各ラベルに対応するプロンプトを含む、ステップと、前記ビデオにおける各フレーム画像の特徴を抽出し、抽出された特徴及び前記プロンプト集合に基づいて、各フレーム画像が前記閉集合ラベルグループにおける各ラベルに属するスコアを判定するステップと、前記ビデオにおける全ての画像のスコアに基づいて、前記ビデオのラベルを決定するステップと、を含む、情報処理方法を提供する。
【0008】
本開示のもう1つの態様では、機器読み取り可能な命令コードを記憶しているプログラムプロダクトが記録された機器読み取り可能な記憶媒体であって、前記命令コードがコンピュータにより読み取られて実行される際に、前記コンピュータに本開示に係る情報処理方法を実行させることができる、記憶媒体を提供する。
【0009】
本開示に係る情報処理装置、情報処理方法及び機器読み取り可能な記憶媒体によれば、ビデオレベルの属性説明の閉集合の概念のラベル付けを実現することができる。
【0010】
ここで行われる説明により、本開示の適用可能な範囲はより明確になる。この部分における説明及び特定の例は、単なる例示するためのものであり、本開示の範囲を限定するものではない。
【図面の簡単な説明】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士通株式会社
ラック装置
18日前
富士通株式会社
リスクと診断
19日前
富士通株式会社
目標確定方法と装置
1か月前
富士通株式会社
試験装置および試験方法
1か月前
富士通株式会社
光受信機及び光受信方法
1か月前
富士通株式会社
光増幅器および光増幅方法
9日前
富士通株式会社
光伝送装置及び光伝送方法
1か月前
富士通株式会社
信号処理装置及び信号処理方法
17日前
富士通株式会社
探索プログラムおよび探索方法
1か月前
富士通株式会社
変換プログラムおよび変換方法
3日前
富士通株式会社
物品認識装置、方法及び電子機器
1か月前
富士通株式会社
時系列カテゴリデータの動的分類
1か月前
富士通株式会社
運転者上下車状態判断方法と装置
1か月前
富士通株式会社
歩容認識装置、方法及び電子機器
9日前
富士通株式会社
動作認識装置と方法及び電子機器
1か月前
富士通株式会社
動作認識装置と方法及び電子機器
1か月前
富士通株式会社
光センサ及び光センサの製造方法
17日前
富士通株式会社
光送信器およびタイミング調整方法
24日前
富士通株式会社
表示制御プログラム、方法、及び装置
1か月前
富士通株式会社
ネットワーク装置及びモデル学習方法
1か月前
富士通株式会社
機械学習プログラム、方法、及び装置
17日前
富士通株式会社
機械学習プログラム、方法、及び装置
17日前
富士通株式会社
3点サポートイベント検出方法と装置
1か月前
富士通株式会社
フォークリフト状態の検出装置及び方法
1か月前
富士通株式会社
化合物半導体増幅器及び回路モジュール
1か月前
富士通株式会社
評価プログラム、評価装置及び評価方法
1か月前
富士通株式会社
マルチチャネルパワープロファイル推定
2日前
富士通株式会社
プロセッサパッケージ及び情報処理装置
1か月前
富士通株式会社
モデル生成方法及びモデル生成プログラム
1か月前
富士通株式会社
制御装置,制御方法および分散処理システム
10日前
富士通株式会社
基板集積導波管アンテナ及びアレイアンテナ
1か月前
富士通株式会社
試験方法、試験プログラム及び情報処理装置
23日前
富士通株式会社
制御プログラム、制御方法及び情報処理装置
1か月前
富士通株式会社
評価プログラム,評価方法及び情報処理装置
1か月前
富士通株式会社
試験装置,試験方法および情報処理プログラム
9日前
富士通株式会社
光送信装置、遅延制御回路、及び遅延制御方法
1か月前
続きを見る
他の特許を見る