TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024092159
公報種別公開特許公報(A)
公開日2024-07-08
出願番号2022207893
出願日2022-12-26
発明の名称情報処理装置、制御方法、プログラム
出願人キヤノンマーケティングジャパン株式会社,キヤノンITソリューションズ株式会社
代理人個人,個人
主分類G06F 40/247 20200101AFI20240701BHJP(計算;計数)
要約【課題】本発明は、対象の文書から抽出した同義語となる文字列の組み合わせを効率的に出力できる仕組みを提供することを目的とする。
【解決手段】本発明は、対象の文書に含まれる第1種別の文字列に対応する第2種別の基準文字列を取得する取得手段と、前記対象の文書に含まれる第2種別の文字列であって、前記取得手段にて取得された第2種別の基準文字列に基づいて特定される第2種別の文字列と、前記第1種別の文字列とを対応付けて出力する出力手段と、を備えることを特徴とする。
【選択図】図3
特許請求の範囲【請求項1】
対象の文書に含まれる第1種別の文字列に対応する第2種別の基準文字列を取得する取得手段と、
前記対象の文書に含まれる第2種別の文字列であって、前記取得手段にて取得された第2種別の基準文字列に基づいて特定される第2種別の文字列と、前記第1種別の文字列とを対応付けて出力する出力手段と、
を備えることを特徴とする情報処理装置。
続きを表示(約 1,000 文字)【請求項2】
前記出力手段は、前記対象の文書における前記第1種別の文字列と前記特定される第2種別の文字列との出現頻度に基づく指標を出力することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記対象の文書における前記第1種別の文字列と前記特定される第2種別の文字列との出現頻度に基づく指標に従って、当該第1種別の文字列と当該第2種別の文字列とを対応付けて出力するかを決定する決定手段を更に備えることを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記第1種別の文字列と前記特定される第2種別の文字列とを提示し、当該第1種別の文字列と当該第2種別の文字列とを対応付けて出力するかの指定を受け付ける受付手段を更に備えることを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記第1種別の文字列と、前記第2種別の基準文字列および文字列とは、同義語どうしの関係であることを特徴とする請求項1に記載の情報処理装置。
【請求項6】
前記出力手段は、同義語辞書に前記第1種別の文字列と前記特定される第2種別の文字列とを対応付けて登録すべく出力することを特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記特定される第2種別の文字列は、前記取得手段にて取得された第2種別の基準文字列に一致または類似する文字列であることを特徴とする請求項1に記載の情報処理装置。
【請求項8】
情報処理装置の制御方法であって、
取得手段が、対象の文書に含まれる第1種別の文字列に対応する第2種別の基準文字列を取得する取得ステップと、
出力手段が、前記対象の文書に含まれる第2種別の文字列であって、前記取得ステップにて取得された第2種別の基準文字列に基づいて特定される第2種別の文字列と、前記第1種別の文字列とを対応付けて出力する出力ステップと、
を備えることを特徴とする情報処理装置の制御方法。
【請求項9】
情報処理装置で実行可能なプログラムであって、
前記情報処理装置を、
対象の文書に含まれる第1種別の文字列に対応する第2種別の基準文字列を取得する取得手段と、
前記対象の文書に含まれる第2種別の文字列であって、前記取得手段にて取得された第2種別の基準文字列に基づいて特定される第2種別の文字列と、前記第1種別の文字列とを対応付けて出力する出力手段と、
として機能させるためのプログラム。

発明の詳細な説明【技術分野】
【0001】
情報処理装置、制御方法、プログラムに関する。
続きを表示(約 1,300 文字)【背景技術】
【0002】
近年、エンタープライズ分野をはじめとして様々な領域において、全文検索システムやテキストマイニングシステムなどの言語処理システムが活用されている。多くの言語処理システムは、同義語(類義語)辞書の機能を備えており、多様な表記を持つ語彙が異なる表記で出現しても同一視して処理することを可能としている。
【0003】
しかしながら、同義語辞書の整備はエンドユーザが行うのが一般的であり、辞書作成・管理のコストが課題となっている。
特に処理対象となる領域における固有名詞や専門用語は重要であるにも関わらす、一般的な語彙ではないためオープンソースなどで公開されている同義語辞書に含まれることは稀である。
固有名詞・専門用語の多くは外来語由来であり、原語表記と翻字(カタカナ表記)が併用され表記の揺れが起こる。また翻字が一意な表記に定まらず、更なる表記揺れが発生する。
【0004】
特許文献1においては、文書集合において出現した単語に対して、近傍に出現した他の単語のベクトルを文脈とし、出現する文脈(ベクトルの距離)が近い単語を同義語・類義語として抽出する手法が開示されている。
【0005】
特許文献2においては、原語表記から翻字を行う手法が開示されている。翻字については様々な手法が開示されており、検索システムや同義語辞書の作成などで利用が想定されている。近年では非特許文献1のようなニューラルネットワークを用いた手法も提案されている。
【先行技術文献】
【特許文献】
【0006】
特開2009-129323号公報
特開2003-263432号公報
【非特許文献】
【0007】
English to Katakana with Sequence to Sequence in TensorFlow(https://medium.com/wanasit/english-to-katakana-with-sequence-to-sequence-in-tensorflow-a03a16ac19be)
【発明の開示】
【発明が解決しようとする課題】
【0008】
単語によって原語表記と翻字が出現する頻度に偏りがあることが多く、またそれぞれの表記が文脈によって使い分けられるケースもあり、特許文献1の手法では、文脈を示すベクトルの距離が近くなるとは限らず、原語表記と翻字を同義語として抽出できないケースがある。また、特許文献2をはじめとする翻字手法は、必ずしも一般的に使われる翻字が出力されるとは限らない。
【0009】
更に固有名詞・専門用語は複合語であり語長が長く、表記揺れ箇所の組み合わせが多くなる。全ての組み合わせを同義語とすると、膨大な表記が生成され辞書の作成・管理コストや実行時に必要なリソースが増大するという課題もある。
【0010】
そのため、処理対象に出現する原語表記と翻字の組み合わせを同義語として抽出することにより、実用的な同義語が効率的に生成されることが期待できる。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
情報検索装置
1か月前
個人
ノートPC寝台
1か月前
個人
ドットパターン
29日前
個人
環境情報処理装置
1か月前
個人
外食予約システム
1か月前
個人
電子文書の閲覧用電子機器
1か月前
個人
家計支援システム2
11日前
個人
サービス提供システム
1か月前
個人
モノ造りプロトコルレイヤー
21日前
ニデック株式会社
冷却装置
1か月前
個人
海外在住支援システム
1か月前
コクヨ株式会社
収納ケース
9日前
キヤノン電子株式会社
携帯情報端末
1か月前
個人
施解錠制御システム
7日前
個人
施術スタッフ育成システム
1か月前
株式会社ワコム
電子ペン
1か月前
個人
生活困窮者相談業務支援システム
4日前
中国電力株式会社
販売支援方法
2日前
東洋電装株式会社
操作装置
1か月前
大和製衡株式会社
組合せ計数装置
1か月前
東洋電装株式会社
操作装置
1か月前
東洋電装株式会社
操作装置
1か月前
株式会社アジラ
行動推定システム
9日前
株式会社COLORS
表示制御装置
17日前
株式会社カロニマ
情報発信システム
1か月前
株式会社ゼロワン
ケア支援システム
1か月前
トヨタ自動車株式会社
画像処理装置
8日前
株式会社ゼロワン
ケア支援システム
1か月前
株式会社SUBARU
画像処理装置
1か月前
トヨタ自動車株式会社
図面表示装置
14日前
トヨタ自動車株式会社
画像処理装置
3日前
有限会社カツミ工業
管理装置
1か月前
ブラザー工業株式会社
印刷制御装置
1か月前
株式会社SUBARU
操作制御装置
1か月前
学校法人修道学園
農地集約システム
1か月前
個人
人流データ取得システム
8日前
続きを見る