TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025012369
公報種別
公開特許公報(A)
公開日
2025-01-24
出願番号
2023115151
出願日
2023-07-13
発明の名称
情報処理方法、情報処理システムおよびプログラム
出願人
トランス・コスモス株式会社
代理人
弁理士法人高橋・林アンドパートナーズ
主分類
G06F
16/35 20250101AFI20250117BHJP(計算;計数)
要約
【課題】不定形文書データにおけるテキストデータの纏まりを正確に認識することができるようにすること。
【解決手段】情報処理方法は、コンピュータが、複数の文字情報を含む不定形文書データを取得し、前記不定形文書データを、前記複数の文字情報の各々が各行ごとに配置されたテキストデータに変換し、前記テキストデータに、同一行内の文字間の関係及び隣接する行間の関係に基づく機械学習によって得られたモデルを用いて、前記不定形文書データにおける各行を所定のセグメントに分類するための分類情報を付加することを含む。
【選択図】図1
特許請求の範囲
【請求項1】
コンピュータが、
複数の文字情報がセグメントごとに配置された不定形文書データを取得し、
前記不定形文書データを、前記複数の文字情報の各々が相対的な位置関係に基づいて各行に配置されたテキストデータに変換し、
前記テキストデータにおける、同一行内の文字情報、隣り合う行に配置された文字情報、および各行のテキストデータに対応するセグメントの関係を機械学習することによって得られたモデルを用いて、前記テキストデータにおける各行を所定のセグメントに分類するための分類情報を生成する、
情報処理方法。
続きを表示(約 1,300 文字)
【請求項2】
前記機械学習は、前記分類情報に対応し識別可能な第1識別情報および文字ごとに識別可能な第2識別情報を含む教師データを用いて、前記テキストデータにおける、同一行内の文字情報、隣り合う行に配置された文字情報、および各行のテキストデータに対応するセグメントの関係を学習する、教師あり機械学習である、
請求項1に記載の情報処理方法。
【請求項3】
前記分類情報は、一つのセグメントにおけるテキストデータの纏まりを示す第2セグメントに対応する第2分類情報を含む、
請求項2に記載の情報処理方法。
【請求項4】
前記モデルにおいて、前記第2識別情報に基づいて、各文字に対応するベクトルとして構成されたエンベディングベクトルデータテーブルを用いてエンベディングベクトルを生成する、
請求項3に記載の情報処理方法。
【請求項5】
前記モデルにおいて、前記エンベディングベクトルを用いて同一行の文字間の第1特徴ベクトル、隣接する行間の第2特徴ベクトルを生成し、前記第1特徴ベクトルおよび前記第2特徴ベクトルに基づいて前記分類情報を推定するための推定値を生成する、
請求項4に記載の情報処理方法。
【請求項6】
前記不定形文書データは、履歴書データであり、
前記履歴書データはユーザ毎に関連付けられた履歴情報を含む、
請求項1に記載の情報処理方法。
【請求項7】
複数の文字情報がセグメントごとに配置された不定形文書データを取得し、
前記不定形文書データを、前記複数の文字情報の各々が相対的な位置関係に基づいて各行に配置されたテキストデータに変換し、
前記テキストデータにおける、同一行内の文字情報、隣り合う行に配置された文字情報、および各行のテキストデータに対応するセグメントの関係を機械学習することによって得られたモデルを用いて、前記テキストデータにおける各行を所定のセグメントに分類するための分類情報を生成する、制御部を含む、
情報処理システム。
【請求項8】
前記機械学習は、前記分類情報に対応し識別可能な第1識別情報および文字ごとに識別可能な第2識別情報を含む教師データを用いて、前記テキストデータにおける、同一行内の文字情報、隣り合う行に配置された文字情報、および各行のテキストデータに対応するセグメントの関係を学習する、教師あり機械学習である、
請求項7に記載の情報処理システム。
【請求項9】
前記分類情報は、一つのセグメントにおけるテキストデータの纏まりを示す第2セグメントに対応する第2分類情報を含む、
請求項8に記載の情報処理システム。
【請求項10】
前記モデルにおいて、前記第2識別情報に基づいて、各文字に対応するベクトルとして構成されたエンベディングベクトルデータテーブルを用いてエンベディングベクトルを生成する、
請求項9に記載の情報処理システム。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、情報処理方法、情報処理システムおよびプログラムに関する。
続きを表示(約 1,600 文字)
【背景技術】
【0002】
新卒や中途採用などの採用業務では、履歴書・経歴書のPDF(Portable Document Format)ファイル(データ)を採用担当者が読んで書類選考を行っている。このとき、担当者は、応募者の各々が所有している資格や経験を抽出、比較して人力で選考を行っている。そのため、採用業務には大きなコストが費やされており、履歴書情報のデータベース化が期待されている。特許文献1には、履歴書のデータベース化及び各情報を抽出することが開示されている。
【先行技術文献】
【特許文献】
【0003】
2017-097498号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
一方、履歴書・経歴書がPDFデータの場合、OCR(Optical Character Recognition,光学的文字認識)などの処理によりテキスト化することは可能であるが、罫線などの視覚情報が削除されてしまう。このため、テキストデータのみでは学歴、経歴、所有している資格など、人間であればそれぞれのテキストデータの纏まり(セグメント、区分、属性、グルーピング等ともいう)を認識できるが、コンピュータが演算処理を行う場合にはそれぞれのテキストデータの纏まりを認識できない。また、履歴書・経歴書には、いろいろな形式があり(不定形文書データともいう)、学歴、経歴、所有している資格が記載されている順番や表記方法が異なることがある。このため、履歴書・経歴書のPDFデータから文字列処理だけを行っても、テキストデータの纏まりを正確に認識することができない。
【0005】
本発明の目的の一つは、不定形文書データにおけるテキストデータの纏まりを正確に認識することである。
【課題を解決するための手段】
【0006】
本発明の一実施形態によれば、コンピュータが、複数の文字情報がセグメントごとに配置された不定形文書データを取得し、前記不定形文書データを、前記複数の文字情報の各々が相対的な位置関係に基づいて各行に配置されたテキストデータに変換し、前記テキストデータにおける、同一行内の文字情報、隣り合う行に配置された文字情報、および各行のテキストデータに対応するセグメントの関係を機械学習することによって得られたモデルを用いて、前記テキストデータにおける各行を所定のセグメントに分類するための分類情報を生成する、情報処理方法が提供される。
【0007】
上記情報処理方法において、前記機械学習は、前記分類情報に対応し識別可能な第1識別情報および文字ごとに識別可能な第2識別情報を含む教師データを用いて、前記テキストデータにおける、同一行内の文字情報、隣り合う行に配置された文字情報、および各行のテキストデータに対応するセグメントの関係を学習する、教師あり機械学習であってもよい。
【0008】
上記情報処理方法において、前記分類情報は、一つのセグメントにおけるテキストデータの纏まりを示す第2セグメントに対応する第2分類情報を含んでもよい。
【0009】
上記情報処理方法において、前記モデルにおいて、前記第2識別情報に基づいて、各文字に対応するベクトルとして構成されたエンベディングベクトルデータテーブルを用いてエンベディングベクトルを生成してもよい。
【0010】
上記情報処理方法において、前記モデルにおいて、前記エンベディングベクトルを用いて同一行の文字間の第1特徴ベクトル、隣接する行間の第2特徴ベクトルを生成し、前記第1特徴ベクトルおよび前記第2特徴ベクトルに基づいて前記分類情報を推定するための推定値を生成してもよい。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
情報提示方法
18日前
個人
アカウントマップ
11日前
個人
RFタグ読取装置
1か月前
個人
プログラム
17日前
個人
プログラム
10日前
個人
自動精算システム
2か月前
個人
自動精算システム
26日前
個人
売買システム
1か月前
個人
管理サーバ
1か月前
個人
発想支援方法及びシステム
21日前
個人
市場受発注システム
24日前
日本精機株式会社
車両用表示装置
1か月前
個人
学習装置及び推論装置
10日前
個人
分類処理プログラム及び方法
21日前
日本精機株式会社
車両用表示装置
1か月前
個人
VRによる人体各部位の立体化
1か月前
株式会社発明屋
電池指向の構造設計
4日前
富士通株式会社
金融システム
18日前
井関農機株式会社
ロボット作業車両
26日前
キヤノン株式会社
情報処理装置
1か月前
トヨタ自動車株式会社
管理装置
5日前
個人
未来型家系図構築システム
1か月前
株式会社SEKT
文字認識装置
1か月前
トヨタ自動車株式会社
推定装置
1か月前
富士通株式会社
プロセッサ
3日前
トヨタ自動車株式会社
表認識装置
1か月前
株式会社プレニーズ
仲介システム
11日前
トヨタ自動車株式会社
記号識別方法
1か月前
村田機械株式会社
人員配置システム
21日前
トヨタ自動車株式会社
情報通知方法
24日前
トヨタ自動車株式会社
画像処理装置
1か月前
ブラザー工業株式会社
無線通信装置
24日前
トヨタ自動車株式会社
作業評価装置
1か月前
富士通株式会社
情報処理プログラム
1か月前
ダイハツ工業株式会社
移動支援装置
1か月前
個人
情報処理装置およびプログラム
1か月前
続きを見る
他の特許を見る