TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025136921
公報種別
公開特許公報(A)
公開日
2025-09-19
出願番号
2024035859
出願日
2024-03-08
発明の名称
画像処理装置、制御方法、プログラム
出願人
キヤノン株式会社
代理人
個人
主分類
H04N
1/00 20060101AFI20250911BHJP(電気通信技術)
要約
【課題】紙媒体の原稿の高精度な校閲結果を簡易な操作で得ることができる仕組みを提供する。
【解決手段】学習済モデルにより推論を行う大規模言語モデルサーバ2と通信可能に接続する画像処理装置1は、スキャナ220で原稿から読み取られた画像データを取得し、その画像データを校閲させるためのプロンプトを生成し、その画像データ及びプロンプトを大規模言語モデルサーバ2に送信し、大規模言語モデルサーバ2に、送信した画像データに対する送信したプロンプトに基づいた校閲を学習済モデルを用いて実施させ、その校閲結果を出力させ、大規模言語モデルサーバ2から出力された校閲結果を出力先に出力する。
【選択図】図4
特許請求の範囲
【請求項1】
学習済モデルにより推論を行う校閲サーバと通信可能に接続する画像処理装置であって、
原稿から読み取られた画像データを取得する取得手段と、
前記取得された画像データを校閲させるためのプロンプトを生成する生成手段と、
前記取得された画像データ及び前記生成されたプロンプトを前記校閲サーバに送信し、前記校閲サーバに、前記取得された画像データに対する前記生成されたプロンプトに基づいた校閲を前記学習済モデルを用いて実施させ、その校閲結果を出力させる校閲結果要求手段と、
前記校閲サーバから出力された校閲結果を出力先に出力する出力手段とを有することを特徴とする画像処理装置。
続きを表示(約 1,200 文字)
【請求項2】
前記校閲サーバは、大規模言語モデルサーバであることを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記出力手段は、前記校閲結果を示す画像データをプレビュー画面で表示することと特徴とする請求項1に記載の画像処理装置。
【請求項4】
前記出力手段は、前記校閲結果を示す画像データを所定の宛先に送信することを特徴とする請求項1に記載の画像処理装置。
【請求項5】
前記生成されたプロンプトは、自然言語による文章であることを特徴とする請求項1に記載の画像処理装置。
【請求項6】
前記プロンプトを生成するための複数の検査項目をユーザ選択可能に表示する第1の表示手段をさらに有し、
前記生成手段は、前記複数の検査項目のうちユーザ選択された検査項目に応じて前記プロンプトを生成することを特徴とする請求項1に記載の画像処理装置。
【請求項7】
前記第1の表示手段は、校閲と修正を指示するための校閲修正の指示項目を更にユーザ選択可能に表示し、
前記校閲修正の指示項目がユーザ選択された場合、前記生成手段は、前記取得された画像データの修正を指示する修正指示プロンプトを更に生成し、前記校閲結果要求手段は、前記修正指示プロンプトを前記校閲サーバに更に送信し、前記校閲サーバに、前記校閲結果を元に誤り箇所が修正された画像データを生成させ、前記修正された画像データを出力させることを特徴とする請求項6に記載の画像処理装置。
【請求項8】
前記出力手段は、プレビュー画面に、前記修正された画像データと前記校閲結果を示す画像データをユーザ指示に応じて切り替えて表示することを特徴とする請求項7に記載の画像処理装置。
【請求項9】
前記第1の表示手段は、前記校閲結果をテキスト化したリストの取得を指示するためのテキスト化指示項目を更にユーザ選択可能に表示し、
前記テキスト化指示項目がユーザ選択された場合、前記生成手段は、前記校閲結果をテキスト化したリストの取得を指示するテキスト化指示プロンプトを更に生成し、前記校閲結果要求手段は、前記テキスト化指示プロンプトを前記校閲サーバに更に送信し、前記校閲サーバに、前記校閲結果をテキスト化したリストを生成させ、前記テキスト化したリストを出力させることを特徴とする、請求項6に記載の画像処理装置。
【請求項10】
前記テキスト化したリストを画像データに変換する変換手段を更に備え、
前記出力手段は、プレビュー画面に、前記変換された画像データと前記校閲結果を示す画像データをユーザ指示に応じて切り替えて表示することを特徴とする請求項9に記載の画像処理装置。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、画像処理装置、制御方法、プログラムに関し、特に、外部のサーバを利用して校閲を行う画像処理装置、制御方法、プログラムに関する。
続きを表示(約 1,300 文字)
【背景技術】
【0002】
近年、ChatGPTをはじめとする生成系AI(Artificial Intelligence)が注目を集めている。近年主流の生成系AIはLLM(Large language Models:以下大規模言語モデル)と呼ばれる学習済モデルを使用しており、自然言語テキストによる指示に基づいて文章や画像を生成することを特徴としている。大規模言語モデルはGPT-4.0のように、自然言語テキストによる入力以外にも画像データや音声データなどを入力として扱えるマルチモーダルなモデルも登場してきている。
【0003】
大規模言語モデルは膨大なデータ量を学習してデータベースを構築することから、大容量のストレージを必要とするため、大規模なサーバ上にサービスが構築されているのが一般的である。
【0004】
また、大規模言語モデルの利用方法は文章や画像を生成するだけではなく、入力した文章に対して校閲を行うといった利用も広がっている。このような利用形態の場合、利用者は予め校閲したいデータを手元の端末に用意し、端末から、大規模言語モデルが構築されているサーバにデータを送信する必要がある。校閲したいデータを、原稿の紙媒体から画像データとして取得する場合、利用者はスキャン装置で原稿をスキャンしたデータをパソコン等の端末に取り込み、端末からサーバにデータを送信するというひと手間を要していた。
【0005】
一方、特許文献1では、スキャンしたデータをサーバに送信し、画像データ内に校正情報が存在することを検出する技術が開示されている。
【先行技術文献】
【特許文献】
【0006】
特開2017-11490号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら特許文献1では、スキャン前の原稿に対して予め手作業で校閲を行っておく必要があり、利用者の校閲にかかる負担は一部しか軽減されないという課題がある。
【0008】
そこで本発明では、紙媒体の原稿の高精度な校閲結果を簡易な操作で得ることができる仕組みを提供する。
【課題を解決するための手段】
【0009】
上記課題を解決するため、本発明の請求項1に係る画像処理装置は、学習済モデルにより推論を行う校閲サーバと通信可能に接続する画像処理装置であって、原稿から読み取られた画像データを取得する取得手段と、前記取得された画像データを校閲させるためのプロンプトを生成する生成手段と、前記取得された画像データ及び前記生成されたプロンプトを前記校閲サーバに送信し、前記校閲サーバに、前記取得された画像データに対する前記生成されたプロンプトに基づいた校閲を前記学習済モデルを用いて実施させ、その校閲結果を出力させる校閲結果要求手段と、前記校閲サーバから出力された校閲結果を出力先に出力する出力手段とを有することを特徴とする。
【発明の効果】
【0010】
本発明によれば、紙媒体の原稿の高精度な校閲結果を簡易な操作で得ることができる。
【図面の簡単な説明】
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
キヤノン株式会社
トナー
19日前
キヤノン株式会社
移動体
1か月前
キヤノン株式会社
記録装置
1か月前
キヤノン株式会社
撮像装置
2日前
キヤノン株式会社
記録装置
3日前
キヤノン株式会社
撮像装置
3日前
キヤノン株式会社
電子機器
1か月前
キヤノン株式会社
撮像装置
1か月前
キヤノン株式会社
記録装置
4日前
キヤノン株式会社
電子機器
4日前
キヤノン株式会社
撮像装置
4日前
キヤノン株式会社
撮像装置
13日前
キヤノン株式会社
撮像装置
24日前
キヤノン株式会社
光学機器
1か月前
キヤノン株式会社
定着装置
11日前
キヤノン株式会社
定着装置
11日前
キヤノン株式会社
定着装置
11日前
キヤノン株式会社
撮像装置
1か月前
キヤノン株式会社
電子機器
11日前
キヤノン株式会社
電子機器
19日前
キヤノン株式会社
現像装置
19日前
キヤノン株式会社
光学装置
16日前
キヤノン株式会社
電子機器
16日前
キヤノン株式会社
撮像装置
16日前
キヤノン株式会社
電子機器
13日前
キヤノン株式会社
発光装置
1か月前
キヤノン株式会社
撮像装置
25日前
キヤノン株式会社
定着装置
2日前
キヤノン株式会社
発光装置
1か月前
キヤノン株式会社
容器構造体
24日前
キヤノン株式会社
容器構造体
24日前
キヤノン株式会社
画像形成装置
13日前
キヤノン株式会社
画像形成装置
11日前
キヤノン株式会社
画像形成装置
23日前
キヤノン株式会社
画像形成装置
23日前
キヤノン株式会社
画像形成装置
1か月前
続きを見る
他の特許を見る