TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025002331
公報種別
公開特許公報(A)
公開日
2025-01-09
出願番号
2023102434
出願日
2023-06-22
発明の名称
情報処理装置、情報処理方法、及ぶプログラム
出願人
キヤノン株式会社
代理人
弁理士法人谷・阿部特許事務所
主分類
G06F
40/295 20200101AFI20241226BHJP(計算;計数)
要約
【課題】 固有表現に対するラベルの付与の誤りを検知する。
【解決手段】 情報処理装置100は、入力文書データから抽出された固有表現の文字列を取得し、前記文字列に付与する、第1ラベル及び前記第1ラベルとは異なる第2ラベルを取得し、前記第1ラベルと前記第2ラベルとの整合性を判定し、判定の結果を出力する。
【選択図】 図2
特許請求の範囲
【請求項1】
入力文書データから抽出された固有表現の文字列を取得する文字列取得手段と、
前記文字列取得手段により取得される前記文字列に付与する第1ラベルを取得する第1ラベル取得手段と、
前記文字列取得手段により取得される前記文字列に付与する、前記第1ラベルとは異なる第2ラベルを取得する第2ラベル取得手段と、
前記第1ラベル取得手段により取得される前記第1ラベルと、前記第2ラベル取得手段により取得される前記第2ラベルとの整合性を判定する判定手段と、
前記判定手段による判定の結果を出力する出力手段と、
を有すること、
を特徴とする情報処理装置。
続きを表示(約 1,600 文字)
【請求項2】
前記出力手段は、前記判定手段による判定の結果を表示装置に対して表示制御する結果表示手段を含み、
前記判定手段による判定の結果は、前記表示装置に表示出力されること、
を特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記出力手段は、前記第1ラベル取得手段により取得される前記第1ラベルの情報と、前記第2ラベル取得手段により取得される前記第2ラベルの情報とを、前記文字列の情報に対応付けて出力すること、
を特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記出力手段は、前記第1ラベル取得手段により取得される前記第1ラベルの情報と、前記第2ラベル取得手段により取得される前記第2ラベルの情報とを、前記文字列の情報に対応付けて出力するとともに、前記入力文書データにおける、前記文字列を含む画像領域を示す情報を前記文字列の情報に対応付けて出力すること、
を特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記出力手段は、前記第1ラベル取得手段により取得される前記第1ラベルの情報と、前記第2ラベル取得手段により取得される前記第2ラベルの情報とを、前記文字列の情報に対応付けて出力するとともに、前記判定手段による判定の結果を示す情報を前記入力文書データに対応付けて出力すること、
を特徴とする請求項1に記載の情報処理装置。
【請求項6】
前記第1ラベル取得手段は、1以上の第1ラベル候補を含む第1ラベルリストのうちからユーザにより選択された前記第1ラベル候補を前記第1ラベルとして取得し、
前記第2ラベル取得手段は、1以上の、前記第1ラベル候補とは異なる第2ラベル候補を含む第2ラベルリストのうちから前記ユーザにより選択された前記第2ラベル候補を前記第2ラベルとして取得すること、
を特徴とする請求項1に記載の情報処理装置。
【請求項7】
前記第1ラベルと前記第2ラベルとの対応関係を示す対応マップと、前記第1ラベル取得手段により取得される前記第1ラベルとに基づいて、1以上の前記第2ラベル候補を特定する特定手段、
を更に有し、
前記第2ラベル取得手段は、前記特定手段により特定された1以上の前記第2ラベル候補のうちから、前記ユーザにより選択された前記第2ラベル候補を前記第2ラベルとして取得すること、
を特徴とする請求項6に記載の情報処理装置。
【請求項8】
前記出力手段は、前記特定手段により特定された1以上の前記第2ラベル候補を表示装置に対して表示制御する候補表示手段を含み、
前記第2ラベル取得手段は、前記表示装置に表示された1以上の前記第2ラベル候補のうちから前記ユーザが選択した前記第2ラベル候補を前記第2ラベルとして取得すること、
を特徴とする請求項7に記載の情報処理装置。
【請求項9】
前記出力手段は、前記入力文書データに対応する文書画像を前記表示装置に対して表示制御する画像表示手段を含み、前記表示装置に表示された前記文書画像における、前記文字列を含む画像領域を前記ユーザが選択した場合に、前記画像領域の近傍に前記特定手段により特定された1以上の前記第2ラベル候補を前記第2ラベルリストとして表示すること、
を特徴とする請求項8に記載の情報処理装置。
【請求項10】
前記出力手段は、前記第2ラベルリストを表示する場合に、前記第2ラベル候補の優先順位に基づいて、前記優先順位が高い前記第2ラベル候補ほど上位に表示されるように前記第2ラベルリストを表示すること、
を特徴とする請求項9に記載の情報処理装置。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本開示は、文書データから抽出した固有表現にラベルを付与する技術に関する。
続きを表示(約 2,600 文字)
【背景技術】
【0002】
文書画像等の文書のデータ(以下「文書データ」と呼ぶ。)から抽出した文字を、文書データを含む電子ファイルのファイル名、又は当該電子ファイルの保存先のフォルダ名等(以下、単に「ファイル名」と表記する。)として自動付与する技術がある。ファイル名に自動付与される文字としては、電子ファイルの作成日時等を示す文字に加えて、文書の発行元の組織名若しくは人名、文書を特定するための番号、及び文書の発行日等を示す文字がある。文書データからの文字の抽出には、自然言語処理の応用技術である固有表現抽出の技術を用いることができる。固有表現抽出を実現する学習モデルの学習に用いる学習データに対応する教師データを作成するためには、以下のようなラベルの付与(以下「アノテーション」とも呼ぶ。)作業が必要である。アノテーション作業とは、例えば、作業対象の文書データにおける文字の領域(以下「文字領域」と呼ぶ。)、又は当該文字領域から抽出される文字(以下「固有表現」と呼ぶ。)と、固有表現の属性を示すラベルとを対応付ける作業である。
【0003】
特許文献1には、アノテーション作業を行う作業者(以下「アノテータ」と呼ぶ。)によるアノテーション作業を支援する技術が開示されている。特許文献1に開示の技術は、アノテータによる、文書データにおける文字領域とラベルとを対応付ける操作入力を受け付けた場合に、当該文字領域に対する文字認識により得られる文字に対して当該ラベルを付与するものである。
【先行技術文献】
【特許文献】
【0004】
特開2011-248669号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
固有表現に対応するラベルは、文書種別等の文書の属性に応じてその意味合いが変化する場合がある。例えば、文書の属性が「請求書」である文書データから抽出される固有表現に対して「文書発行先」又は「文書発行元」というラベルを付与する場合、発注者又は納品先等に対応する固有表現に対しては「文書発行先」のラベルを付与することになる。一方、文書の属性が「発注書」である文書データにおいては、発注者又は納品先等に対応する固有表現に対しては「文書発行先」ではなく「文書発行元」のラベルを付与することになる。そして、「文書発行先」のラベルは、受注者又は発注先等に対応する固有表現に対して付与されることになる。特許文献1に開示の技術のように手動でアノテーション作業が行われる場合、アノテータは、文書の属性を考慮しつつ、発注者及び納品先等に対応する固有表現の有無を判断して、当該固有表現に「文書発行先」又は「文書発行元」等のラベルを付与する。しかしながら、アノテータの誤認識又は誤操作等により、固有表現に誤ったラベルが付与されてしまうことがある。そこで、本開示は、アノテータによる固有表現に対するラベルの付与の誤りを検知する技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示に係る情報処理装置は、入力文書データから抽出された固有表現の文字列を取得する文字列取得手段と、前記文字列取得手段により取得される前記文字列に付与する第1ラベルを取得する第1ラベル取得手段と、前記文字列取得手段により取得される前記文字列に付与する、前記第1ラベルとは異なる第2ラベルを取得する第2ラベル取得手段と、前記第1ラベル取得手段により取得される前記第1ラベルと、前記第2ラベル取得手段により取得される前記第2ラベルとの整合性を判定する判定手段と、前記判定手段による判定の結果を出力する出力手段と、を有する。
【発明の効果】
【0007】
本開示によれば、固有表現に対するラベルの付与の誤りを検知することができる。
【図面の簡単な説明】
【0008】
情報処理装置におけるハードウェア構成の一例を示すブロック図である。
情報処理装置における機能構成の一例を示すブロック図である。
情報処理装置における処理フローの一例を示すフローチャートである。
入力画像の一例を示す図である。
GUIの一例を示す図である。
第1ラベルリストの一例を示す図である。
GUIの一例を示す図である。
GUIの一例を示す図である。
GUIの一例を示す図である。
対応マップの一例を示す図である。
GUIの一例を示す図である。
GUIの一例を示す図である。
GUIの一例を示す図である。
整合性の判定処理の一例を説明するための図である。
GUIの一例を示す図である。
入力画像及びラベルリストの一例を示す図である。
ラベル情報の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、本開示の実施形態について図面に基づいて説明する。なお、実施形態は、本開示を限定するものではなく、また、実施形態で説明されている全ての構成が本開示の課題を解決するために必須なものであるとは限らない。
【0010】
<第1の実施形態>
[ハードウェア構成]
図1は、第1の実施形態に係る情報処理装置100におけるハードウェア構成の一例を示すブロック図である。情報処理装置100は、制御部101、ROM102、RAM103、HDD104、表示部105、入力部106、及びスキャナ107を有する。制御部101は、CPU(Central Processing Unit)等により構成され、ROM102又はHDD104等が記憶する各種のプログラムを読み出して各種処理を実行する。なお、制御部101による処理の少なくとも一部は、専用のハードウェアにより実行されてもよい。専用のハードウェアの例としては、ASIC(application specific integrated circuit)、FPGA(field-programmable gate array)、及びDSP(デジタルシグナルプロセッサ)等がある。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
キヤノン株式会社
印刷装置
29日前
キヤノン株式会社
測距装置
29日前
キヤノン株式会社
撮像装置
1か月前
キヤノン株式会社
乾燥装置
23日前
キヤノン株式会社
光学機器
1か月前
キヤノン株式会社
電子機器
29日前
キヤノン株式会社
記録装置
15日前
キヤノン株式会社
検出装置
22日前
キヤノン株式会社
現像装置
29日前
キヤノン株式会社
通信装置
29日前
キヤノン株式会社
定着装置
17日前
キヤノン株式会社
撮像装置
22日前
キヤノン株式会社
記録装置
2日前
キヤノン株式会社
記録装置
2日前
キヤノン株式会社
記録装置
22日前
キヤノン株式会社
乾燥装置
2日前
キヤノン株式会社
撮像装置
1か月前
キヤノン株式会社
乾燥装置
1か月前
キヤノン株式会社
定着装置
1か月前
キヤノン株式会社
測距装置
1か月前
キヤノン株式会社
露光ヘッド
15日前
キヤノン株式会社
防水構造体
22日前
キヤノン株式会社
情報処理装置
23日前
キヤノン株式会社
画像形成装置
15日前
キヤノン株式会社
情報処理装置
17日前
キヤノン株式会社
分析デバイス
15日前
キヤノン株式会社
画像形成装置
15日前
キヤノン株式会社
画像形成装置
15日前
キヤノン株式会社
画像形成装置
23日前
キヤノン株式会社
画像形成装置
1日前
キヤノン株式会社
画像形成装置
15日前
キヤノン株式会社
有機発光素子
29日前
キヤノン株式会社
画像形成装置
15日前
キヤノン株式会社
画像形成装置
15日前
キヤノン株式会社
画像形成装置
1か月前
キヤノン株式会社
画像形成装置
15日前
続きを見る
他の特許を見る