TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025086623
公報種別公開特許公報(A)
公開日2025-06-09
出願番号2023200719
出願日2023-11-28
発明の名称文書情報処理装置及びプログラム
出願人日本特許翻訳株式会社
代理人個人
主分類G06F 40/284 20200101AFI20250602BHJP(計算;計数)
要約【課題】人為的作業を軽減でき、処理効率を向上できる文書情報処理装置及びプログラムを提供する。
【解決手段】所定のレイアウト処理がされた文字データを含む文書情報を受け入れ、当該受け入れた文書情報に含まれる文字データに基づいて、当該文書情報から抽出するべきテキストデータを推定する。そしてこの推定されたテキストデータを、所定の翻訳処理に供する文書情報処理装置である。
【選択図】図1



特許請求の範囲【請求項1】
所定のレイアウト処理がされた文字データを含む文書情報を受け入れる受入手段と、
前記受け入れた文書情報から当該文書情報に含まれる文字データに基づいて、当該文書情報から抽出するべきテキストデータを推定する推定手段と、
前記推定されたテキストデータを、所定の翻訳処理に供する処理手段と、
を含む文書情報処理装置。
続きを表示(約 980 文字)【請求項2】
請求項1に記載の文書情報処理装置であって、
前記推定手段は、言語での指示に基づいて、文を生成するようGenerative Pre-trained Transformerによる大規模言語モデルである生成AIモデルを用い、前記文字データを当該生成AIモデルに入力して、前記文書情報から抽出するべきテキストデータを推定するよう指示し、前記生成AIモデルの出力として、前記推定されたテキストデータを取得する文書情報処理装置。
【請求項3】
請求項2に記載の文書情報処理装置であって、
前記推定手段は、前記文字データに含まれる合字または結合文字列を予め定めた文字セットの文字に置き換えたテキストデータを推定する文書情報処理装置。
【請求項4】
請求項2に記載の文書情報処理装置であって、
前記推定手段は、レイアウト処理により単一セグメントとして連続するべき文字データを含み、複数セグメントに分割された前記文字データの列に基づいて、セグメントの分割位置を推定する文書情報処理装置。
【請求項5】
請求項2に記載の文書情報処理装置であって、
前記推定手段は、前記文字データに基づいて、複数セグメントに分割されたテキストデータから、連続した単一の文を推定する文書情報処理装置。
【請求項6】
請求項2から5のいずれか一項に記載の文書情報処理装置であって、
前記推定手段は、前記文字データに含まれるタイポを訂正したテキストデータを推定する文書情報処理装置。
【請求項7】
コンピュータを、
所定のレイアウト処理がされた文字データを含む文書情報を受け入れる受入手段と、
言語での指示に基づいて文を生成するよう機械学習された状態にある生成AIモデルを用い、前記受け入れた文書情報から当該文書情報に含まれる文字データを当該生成AIモデルに入力して前記文書情報から抽出するべきテキストデータを推定するよう指示し、前記生成AIモデルの出力として前記文書情報から抽出するべきテキストデータを推定する推定手段と、
前記推定されたテキストデータを、所定の翻訳処理に供する処理手段と、
として機能させるプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、翻訳等に供される文書情報を処理する文書情報処理装置及びプログラムに関する。
続きを表示(約 1,300 文字)【背景技術】
【0002】
近年、翻訳業で広く用いられている翻訳支援ツールは、翻訳会社のプロジェクト管理者の指示のもと、翻訳者や校閲者など外部委託先との間でワークフローを構築して、翻訳工程管理を行うものである。このような翻訳支援ツールでは、プロジェクト管理者から、顧客の原稿を受け入れると、その原稿に対してセグメンテーション処理(文または文節単位に分割する処理)を行い、翻訳者等に提供している。
【0003】
一方、昨今では機械翻訳の精度が向上し、この翻訳支援ツールによるセグメンテーション処理結果をそのまま機械翻訳ソフトウエアの入力とすることが試みられている。
【先行技術文献】
【特許文献】
【0004】
特開2023-071598号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、翻訳における顧客の原稿等、セグメンテーション処理の対象はレイアウト処理がされたものであり得る。具体的にはPDF(Portable Document Format)等、文字データをレイアウト処理したものであり得る。レイアウト処理されている場合、文字データの符号化やフォントの調整、配列、配置が適宜行われてしまうため、書字方向や配列順の指定などにおいて人為的な操作が必要となることが多いという問題点があった。
【0006】
本発明は上記実情に鑑みて為されたもので、人為的作業を軽減でき、処理効率を向上できる文書情報処理装置及びプログラムを提供することを、その目的の一つとする。
【課題を解決するための手段】
【0007】
上記従来例の問題点を解決するための本発明の一態様は、文書情報処理装置であって、所定のレイアウト処理がされた文字データを含む文書情報を受け入れる受入手段と、前記受け入れた文書情報から当該文書情報に含まれる文字データに基づいて、当該文書情報から抽出するべきテキストデータを推定する推定手段と、前記推定されたテキストデータを、所定の翻訳処理に供する処理手段と、を含むこととしたものである。
【発明の効果】
【0008】
本発明によると、処理効率を向上できる。
【図面の簡単な説明】
【0009】
本発明の実施の形態の文書情報処理装置の構成例を表すブロック図である。
本発明の実施の形態の文書情報処理装置の例を表す機能ブロック図である。
本発明の実施の形態の文書情報処理装置が処理の対象とするレイアウトされた文書情報の例を表す説明図である。
本発明の実施の形態の文書情報処理装置の動作例を表すフローチャート図である。
【発明を実施するための形態】
【0010】
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態の一例に係る文書情報処理装置1は、図1に例示するように、制御部11と、記憶部12と、操作部13と、表示部14と、通信部15とを含む一般的なコンピュータ装置を用いて実現される。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
対話装置
5日前
個人
物品給付年金
1か月前
個人
政治のAI化
28日前
個人
情報処理装置
5日前
個人
情報処理装置
1日前
個人
プラグインホームページ
19日前
個人
情報入力装置
5日前
個人
物価スライド機能付生命保険
5日前
キヤノン株式会社
通信装置
1か月前
個人
マイホーム非電子入札システム
5日前
キヤノン株式会社
画像処理装置
26日前
個人
全アルゴリズム対応型プログラム
29日前
サクサ株式会社
カードの制動構造
7日前
大同特殊鋼株式会社
輝線検出方法
28日前
シャープ株式会社
電子機器
28日前
個人
決済手数料0%のクレジットカード
8日前
パテントフレア株式会社
交差型バーコード
21日前
ミサワホーム株式会社
情報処理装置
1か月前
株式会社アジラ
データ転送システム
28日前
ミサワホーム株式会社
宅配ロッカー
25日前
トヨタ自動車株式会社
欠け検査装置
28日前
村田機械株式会社
割当補助システム
11日前
トヨタ自動車株式会社
情報処理装置
11日前
Sansan株式会社
組織図生成装置
14日前
住友重機械工業株式会社
力覚伝達装置
今日
オベック実業株式会社
端末用スタンド
29日前
応研株式会社
業務支援システム
19日前
株式会社ユピテル
電子機器及びプログラム等
1か月前
トヨタ自動車株式会社
管理装置
25日前
株式会社豆蔵
ピッキング装置
7日前
ミサワホーム株式会社
荷物搬送システム
25日前
シャープ株式会社
通信装置
5日前
個人
株管理システム
22日前
株式会社大林組
施工管理システム
21日前
株式会社カプコン
データおよびシステム
27日前
西日本電信電話株式会社
評価装置
20日前
続きを見る