特許ウォッチ

公開番号2025143780
公報種別公開特許公報(A)
公開日2025-10-02
出願番号2024043213
出願日2024-03-19
発明の名称情報処理装置及び情報処理プログラム
出願人ソフトバンク株式会社,学校法人明星学苑
代理人弁理士法人酒井国際特許事務所
主分類G06F 16/732 20190101AFI20250925BHJP(計算;計数)
要約【課題】利用者が検索対象をうまく言語化することができない場合であっても、利用者が所望する動画を利用者に対して提供可能とする。
【解決手段】本願に係る情報処理装置は、動画を検索するために利用者によって入力された検索テキストを受け付ける受付部と、テキストからテキストに対応する画像を生成する機械学習モデルである画像生成モデルに検索テキストを入力して、検索テキストに対応する検索画像を生成する生成部と、検索画像および検索テキストに基づいて、検索画像および検索テキストに対応する動画を検索する動画検索部と、を備える。
【選択図】図6
特許請求の範囲【請求項１】
動画を検索するために利用者によって入力された検索テキストを受け付ける受付部と、
テキストから前記テキストに対応する画像を生成する機械学習モデルである画像生成モデルに前記検索テキストを入力して、前記検索テキストに対応する検索画像を生成する生成部と、
前記検索画像および前記検索テキストに基づいて、前記検索画像および前記検索テキストに対応する動画を検索する動画検索部と、
を備える情報処理装置。
続きを表示（約 1,000 文字）【請求項２】
前記受付部は、
前記検索画像を編集するために前記利用者によって入力されたテキストである編集テキストを受け付け、
前記生成部は、
画像に対してテキストに応じた編集処理を行う機械学習モデルである画像編集モデルに前記検索画像および前記編集テキストを入力して、前記検索画像に対して前記編集テキストに応じた編集処理を行った編集画像を生成し、
前記動画検索部は、
前記編集画像および前記検索テキストに基づいて、前記編集画像および前記検索テキストに対応する前記動画を検索する、
請求項１に記載の情報処理装置。
【請求項３】
前記動画検索部は、
検索対象の動画を構成する複数のフレームの各々のフレーム特徴量と前記編集画像の画像特徴量との類似度に関する画像スコア、および、前記複数のフレームの各々のフレーム特徴量と前記検索テキストのテキスト特徴量との類似度に関するテキストスコアを算出し、前記画像スコアおよび前記テキストスコアに基づいて、前記動画を検索する、
請求項２に記載の情報処理装置。
【請求項４】
前記動画検索部は、
前記画像スコアおよび前記テキストスコアを加算したスコアである加算スコアに基づいて、前記動画を検索する、
請求項３に記載の情報処理装置。
【請求項５】
前記動画検索部は、
複数の前記編集画像の各々の前記画像特徴量と前記フレーム特徴量との類似度に関する前記画像スコアを算出する、
請求項３に記載の情報処理装置。
【請求項６】
前記生成部は、
バイナリマスクを示すマスク画像を前記画像編集モデルにさらに入力し、前記検索画像のうち前記マスク画像によってマスクされた領域を除く領域に対して前記編集テキストに応じた編集処理を行った前記編集画像を生成する、
請求項２に記載の情報処理装置。
【請求項７】
動画を検索するために利用者によって入力された検索テキストを受け付ける受付手順と、
テキストから前記テキストに対応する画像を生成する機械学習モデルである画像生成モデルに前記検索テキストを入力して、前記検索テキストに対応する検索画像を生成する生成手順と、
前記検索画像および前記検索テキストに基づいて、前記検索画像および前記検索テキストに対応する動画を検索する動画検索手順と、
をコンピュータに実行させる情報処理プログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、情報処理装置及び情報処理プログラムに関する。
続きを表示（約 1,600 文字）【背景技術】
【０００２】
従来、利用者から検索キーワードを受け付けて、複数の動画の中から検索キーワードに応じた動画を検索する技術が知られている。例えば、クライアント端末からの検索キーワードを含む動画検索要求に応じて動画を検索する動画検索方法に関する技術が知られている。
【先行技術文献】
【特許文献】
【０００３】
特開２００４－１２８７１０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、上記の従来技術では、利用者が適切な検索キーワードを思いつかないために、利用者が所望する動画を検索することができない場合がある。したがって、上記の従来技術では、利用者が検索対象をうまく言語化することができない場合であっても、利用者が所望する動画を利用者に対して提供可能とすることができるとは限らない。
【０００５】
本願は、ことを目的とする。
【課題を解決するための手段】
【０００６】
本願に係る情報処理装置は、動画を検索するために利用者によって入力された検索テキストを受け付ける受付部と、テキストから前記テキストに対応する画像を生成する機械学習モデルである画像生成モデルに前記検索テキストを入力して、前記検索テキストに対応する検索画像を生成する生成部と、前記検索画像および前記検索テキストに基づいて、前記検索画像および前記検索テキストに対応する動画を検索する動画検索部と、を備える。
【発明の効果】
【０００７】
実施形態の一態様によれば、利用者が検索対象をうまく言語化することができない場合であっても、利用者が所望する動画を利用者に対して提供可能とすることができる。
【図面の簡単な説明】
【０００８】
図１は、実施形態に係る情報処理システムの構成例を示す図である。
図２は、実施形態に係る情報処理装置の構成例を示す図である。
図３は、実施形態に係る情報処理の一例について説明するための図である。
図４は、実施形態に係る情報処理の一例について説明するための図である。
図５は、実施形態に係る情報処理の一例について説明するための図である。
図６は、実施形態に係る情報処理装置による情報処理の手順を示すフローチャートである。
図７は、変形例に係る情報処理の一例について説明するための図である。
図８は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【０００９】
以下に、本願に係る情報処理装置及び情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【００１０】
（実施形態）
〔１．はじめに〕
従来、利用者は文字列（以下、テキスト）を入力して動画を検索している。なお、本実施形態に係る動画には、アニメーションまたは映像が含まれてよい。これに対し、利用者がテキストにより検索したい対象をうまく表現できない場合（つまり、検索対象をうまく言語化することができない場合）、利用者が入力したテキストにマッチする動画と、利用者が所望する動画が異なる場合がある。また、利用者は、検索対象をうまく言語化することができない場合であっても、検索したい対象を利用者の頭の中でイメージできている場合がある。
（【００１１】以降は省略されています）

関連特許