TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025140767
公報種別
公開特許公報(A)
公開日
2025-09-29
出願番号
2024040337
出願日
2024-03-14
発明の名称
情報処理装置及び情報処理プログラム
出願人
ソフトバンク株式会社
,
学校法人明星学苑
代理人
弁理士法人酒井国際特許事務所
主分類
G06F
40/56 20200101AFI20250919BHJP(計算;計数)
要約
【課題】画像から画像に含まれる対象物の各々について説明する詳細な画像説明文を生成可能とする。
【解決手段】本願に係る情報処理装置は、画像から画像の内容を説明する文章である画像説明文を生成する機械学習モデルである視覚言語モデルを取得する取得部と、画像から画像に含まれる対象物の属性を示す属性情報を含む画像説明文を生成する視覚言語モデルである属性視覚言語モデルを生成するモデル生成部と、を備える。
【選択図】図8
特許請求の範囲
【請求項1】
画像から前記画像の内容を説明する文章である画像説明文を生成する機械学習モデルである視覚言語モデルを取得する取得部と、
前記画像から前記画像に含まれる対象物の属性を示す属性情報を含む前記画像説明文を生成する前記視覚言語モデルである属性視覚言語モデルを生成するモデル生成部と、
を備える情報処理装置。
続きを表示(約 690 文字)
【請求項2】
前記モデル生成部は、
前記属性情報を含む前記画像説明文を生成した場合に与えられる報酬に基づいて強化学習された前記視覚言語モデルである前記属性視覚言語モデルを生成する、
請求項1に記載の情報処理装置。
【請求項3】
前記取得部は、
学習用画像と、前記学習用画像に含まれる対象物の属性を示す属性情報を含む学習用説明文との組を含むデータセットを取得し、
前記モデル生成部は、
前記学習用画像が入力された場合、前記学習用説明文を出力するように学習された前記視覚言語モデルである前記属性視覚言語モデルを生成する、
請求項1に記載の情報処理装置。
【請求項4】
前記属性情報は、前記対象物の色を示す色情報である、
請求項1に記載の情報処理装置。
【請求項5】
前記モデル生成部によって生成された前記属性視覚言語モデルを用いて、処理対象の画像から前記処理対象の画像に含まれる対象物の属性を示す属性情報を含む処理対象の画像説明文を生成する文章生成部をさらに備える、
請求項1に記載の情報処理装置。
【請求項6】
画像から前記画像の内容を説明する文章である画像説明文を生成する機械学習モデルである視覚言語モデルを取得する取得手順と、
前記画像から前記画像に含まれる対象物の属性を示す属性情報を含む前記画像説明文を生成する前記視覚言語モデルである属性視覚言語モデルを生成するモデル生成手順と、
をコンピュータに実行させる情報処理プログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理プログラムに関する。
続きを表示(約 2,000 文字)
【背景技術】
【0002】
従来、画像から画像のキャプション(画像キャプションともいう。以下、「画像説明文」と記載する。)を生成する技術が知られている。例えば、画像から画像説明文を生成する機械学習モデルである視覚言語モデル(Visual Language Model; VLM)に関する技術が知られている。
【先行技術文献】
【非特許文献】
【0003】
Jiahui Yu, Zirui Wang, Vijay Vasudevan, Legg Yeung, Mojtaba Seyedhosseini, Yonghui Wu, " CoCa: Contrastive Captioners are Image-Text Foundation Models ", [online], 14 Jun 2022, [令和6年2月9日検索], インターネット<URL:https://arxiv.org/pdf/2205.01917.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の従来技術では、画像から画像説明文を生成するに過ぎないため、画像から画像に含まれる対象物の各々について説明する詳細な画像説明文を生成可能とすることができるとは限らない。
【0005】
本願は、画像から画像に含まれる対象物の各々について説明する詳細な画像説明文を生成可能とすることができる情報処理装置及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本願に係る情報処理装置は、画像から前記画像の内容を説明する文章である画像説明文を生成する機械学習モデルである視覚言語モデルを取得する取得部と、前記画像から前記画像に含まれる対象物の属性を示す属性情報を含む前記画像説明文を生成する前記視覚言語モデルである属性視覚言語モデルを生成するモデル生成部と、を備える。
【発明の効果】
【0007】
実施形態の一態様によれば、画像から画像に含まれる対象物の各々について説明する詳細な画像説明文を生成可能とすることができる。
【図面の簡単な説明】
【0008】
図1は、実施形態に係る視覚言語モデルについて説明するための図である。
図2は、従来技術に係る視覚言語モデルによって生成される画像説明文の一例を示す図である。
図3は、従来技術に係る視覚言語モデルによる画像説明文の生成処理の概要を示す図である。
図4は、実施形態に係る色視覚言語モデルによる画像説明文の生成処理の概要を示す図である。
図5は、実施形態に係る色視覚言語モデルによって生成される画像説明文の一例を示す図である。
図6は、実施形態に係る情報処理装置の構成例を示す図である。
図7は、実施形態に係る情報処理装置による情報処理の概要を示す図である。
図8は、実施形態に係る情報処理装置による情報処理の手順を示すフローチャートである。
図9は、変形例に係る情報処理装置による情報処理の概要を示す図である。
図10は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0009】
以下に、本願に係る情報処理装置及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
(実施形態)
〔1.はじめに〕
従来、画像(静止画像)から画像の内容を説明する文章である画像説明文(画像キャプションともいう。以下、「画像説明文」と記載する。)を生成する技術が知られている。例えば、画像から画像説明文を生成する機械学習モデル(以下、「画像キャプションモデル」と記載する場合がある。)に関する技術が知られている。例えば、このような画像キャプションモデルとして、視覚言語モデル(Visual Language Model; VLM)が知られている。視覚言語モデル1は、画像と、画像に対応する画像説明文との組を含む学習データに基づいてあらかじめ学習された機械学習モデルである。具体的には、視覚言語モデル1は、学習データに含まれる画像が入力された場合、画像に対応する画像説明文を出力するように学習された機械学習モデルである。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
ソフトバンク株式会社
通信システム
11日前
ソフトバンク株式会社
情報処理装置及び情報処理プログラム
1日前
ソフトバンク株式会社
情報処理装置及び情報処理プログラム
1日前
ソフトバンク株式会社
情報処理装置及び情報処理プログラム
12日前
ソフトバンク株式会社
システム、プログラム、及び認証方法
1日前
ソフトバンク株式会社
電子機器、プログラム、及び制御方法
1日前
ソフトバンク株式会社
情報処理装置及び情報処理プログラム
12日前
ソフトバンク株式会社
電子機器、プログラム、及び制御方法
1日前
ソフトバンク株式会社
データ処理システム及びデータ処理方法
20日前
ソフトバンク株式会社
画像処理装置、プログラム、及び画像処理方法
1日前
ソフトバンク株式会社
画像処理装置、プログラム、及び画像処理方法
1日前
ソフトバンク株式会社
画像処理装置、プログラム、及び画像処理方法
1日前
ソフトバンク株式会社
システム、情報処理装置、プログラム、及び方法
4日前
ソフトバンク株式会社
システム、情報処理装置、プログラム、及び方法
4日前
ソフトバンク株式会社
情報処理装置、情報処理方法及び情報処理プログラム
11日前
ソフトバンク株式会社
情報処理装置、システム、情報処理方法及び制御プログラム
1日前
ソフトバンク株式会社
管理システム、管理システムの制御方法、及び管理システムの制御プログラム
5日前
ソフトバンク株式会社
管理システム、管理システムの制御方法、及び管理システムの制御プログラム
5日前
ソフトバンク株式会社
情報処理装置、情報処理装置の制御方法、情報処理装置の制御プログラム、通信端末、通信端末の制御方法、及び通信端末の制御プログラム
1日前
個人
裁判のAI化
2か月前
個人
工程設計支援装置
1か月前
個人
フラワーコートA
1か月前
個人
情報処理システム
2か月前
個人
検査システム
2か月前
個人
介護情報提供システム
2か月前
個人
冷凍食品輸出支援構造
26日前
個人
為替ポイント伊達夢貯
26日前
個人
設計支援システム
2か月前
個人
表変換編集支援システム
19日前
個人
携帯情報端末装置
1か月前
個人
設計支援システム
2か月前
個人
結婚相手紹介支援システム
1か月前
個人
知財出願支援AIシステム
26日前
キヤノン電子株式会社
携帯装置
2か月前
株式会社サタケ
籾摺・調製設備
2か月前
個人
不動産売買システム
3か月前
続きを見る
他の特許を見る