TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024172584
公報種別公開特許公報(A)
公開日2024-12-12
出願番号2023090383
出願日2023-05-31
発明の名称修正装置、修正方法及び修正プログラム
出願人日本電信電話株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06F 8/51 20180101AFI20241205BHJP(計算;計数)
要約【課題】抽出タスクに用いられる正規表現を修正し、かつその修正結果は全ての例を満たすことを保証すること。
【解決手段】修正装置10は、特定部151及び修正部152を有する。特定部151は、正例に含まれる文字列のそれぞれに含まれる、キャプチャ対象の文字列を特定する。修正部152は、入力された第1の正規表現を、正例に含まれる文字列を受理し、負例に含まれる文字列を受理せず、キャプチャ対象の文字列のみを抽出する第2の正規表現に修正する。
【選択図】図1
特許請求の範囲【請求項1】
第1の集合に含まれる文字列のそれぞれに含まれる、キャプチャ対象の文字列を特定する特定部と、
入力された第1の正規表現を、前記第1の集合に含まれる文字列を受理し、第2の集合に含まれる文字列を受理せず、前記キャプチャ対象の文字列のみを抽出する第2の正規表現に修正する修正部と、
を有することを特徴とする修正装置。
続きを表示(約 730 文字)【請求項2】
前記特定部は、前記第1の集合に含まれる第1の記号と第2の記号との間の文字列を前記キャプチャ対象の文字列として特定することを特徴とする請求項1に記載の修正装置。
【請求項3】
前記修正部は、前記第2の正規表現の候補のうち、前記第1の正規表現との間の編集距離が最小である正規表現を、前記第2の正規表現に決定することを特徴とする請求項1に記載の修正装置。
【請求項4】
前記修正部は、前記第1の正規表現における範囲文字をプレースホルダに置換し、さらに前記プレースホルダを、前記キャプチャ対象の文字列を含み、前記キャプチャ対象の文字列以外の文字列を含まない範囲文字に置換することを特徴とする請求項1に記載の修正装置。
【請求項5】
修正装置によって実行される修正方法であって、
第1の集合に含まれる文字列のそれぞれに含まれる、キャプチャ対象の文字列を特定する特定工程と、
入力された第1の正規表現を、前記第1の集合に含まれる文字列を受理し、第2の集合に含まれる文字列を受理せず、前記キャプチャ対象の文字列のみを抽出する第2の正規表現に修正する修正工程と、
を含むことを特徴とする修正方法。
【請求項6】
第1の集合に含まれる文字列のそれぞれに含まれる、キャプチャ対象の文字列を特定する特定ステップと、
入力された第1の正規表現を、前記第1の集合に含まれる文字列を受理し、第2の集合に含まれる文字列を受理せず、前記キャプチャ対象の文字列のみを抽出する第2の正規表現に修正する修正ステップと、
をコンピュータに実行させることを特徴とする修正プログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、修正装置、修正方法及び修正プログラムに関する。
続きを表示(約 2,000 文字)【背景技術】
【0002】
正規表現は文字列のパターンを表す記法として世の中で広く利用されている。世の中では文字列が特定のパターンに一致するかどうか確認する場面(これを今後「所属判定」と呼ぶ)や特定のパターンに一致する部分文字列を抽出する場面(これを今後「抽出タスク」と呼ぶ)が多々存在する。そのため世の中で利用されているプログラミング言語の多くはこれらを実現する機能を標準ライブラリ(正規表現エンジン)として提供している。
【0003】
正規表現はその簡潔さや便利さから世の中で広く受け入れられているものの、利用者が意図した正規表現を正しく書くことは難しいことが知られている。すなわち、本来利用者が求めているものと異なるパターンを表す正規表現を書いてしまうことがある。
【0004】
求めているものと異なる正規表現を書いた場合、その正規表現が利用されているプログラムでは間違った一致判定や間違った部分文字列を抽出してしまう可能性がある。意図しない挙動はプログラムのバグや脆弱性となりうるため、このようなことは望ましくなく解決すべき課題として正規表現を自動で修正する技術に関する研究が行われている。
【0005】
例を用いて正規表現を修正する技術が知られている(例えば、非特許文献1、2、3及び4を参照)。これらの技術は例のみ、もしくは正規表現と例を受け取り、例を全て満たすような正規表現を出力する技術である。
【0006】
また、抽出タスク用の正規表現を例から合成する技術が知られている(例えば、非特許文献5及び6を参照)。これらの技術は遺伝的アルゴリズムを用いて例をできる限り多く満たすような正規表現を合成する技術である。
【先行技術文献】
【非特許文献】
【0007】
Mina Lee, Sunbeom So, Hakjoo Oh, Synthesizing Regular Expressions from Examples for Introductory Automata Assignments,
RONG PAN, QINHEPING HU, GAOWEI XU, LORIS D’ANTONI, Automatic Repair of Regular Expressions
Yeting Li, Zhiwu Xu, Jialun Cao, Haiming Chen, Tingjian Ge, Shing-Chi Cheung, FlashRegex: Deducing Anti-ReDoS Regexes from Examples
Nariyoshi Chida, Tachio Terauchi, Repairing DoS Vulnerability of Real-World Regexes
Alberto Bartoli, Giorgio Davanzo, Andrea De Lorenzo, Eric Medvet, and Enrico Sorio, Automatic Synthesis of Regular Expressions from Examples
Alberto Bartoli, Andrea De Lorenzo, Eric Medvet, and Fabiano Tarlao, Inference of Regular Expressions for Text Extraction from Examples
Yuto Sakuma, Yasuhiko Minamide, Andrei Voronkov, Translating regular expression matching into transducers
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、従来の技術では、抽出タスクに用いられる正規表現を修正し、かつその修正結果は全ての例を満たすことを保証することができない場合がある。
【0009】
例えば、非特許文献1等に記載の、例を用いて正規表現を修正する技術は、所属判定用の正規表現の修正を対象としたものであり、抽出タスク用の正規表現を対象としたものではない。
【0010】
また、非特許文献5等に記載の、遺伝的アルゴリズムを用いて正規表現を合成する技術は、修正結果が全ての例を満たすことは保証していない。
【課題を解決するための手段】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
物品
16日前
個人
認証システム
1か月前
個人
自動精算システム
9日前
個人
保証金管理システム
24日前
個人
鑑定証明システム
1か月前
個人
救急搬送システム
16日前
キヤノン株式会社
印刷装置
9日前
個人
技術マッチングシステム
1か月前
株式会社MRC
集客システム
24日前
個人
生成AIとの常時接続システム
16日前
トヨタ自動車株式会社
推定装置
2日前
キヤノン株式会社
印刷管理装置
22日前
個人
コンテンツ開示順位判定システム
11日前
株式会社SEKT
文字認識装置
5日前
株式会社COLORS
表示装置
10日前
株式会社ネットブリッジ
展示販売装置
1か月前
トヨタ自動車株式会社
分析装置
24日前
個人
未来型家系図構築システム
4日前
トヨタ自動車株式会社
表認識装置
4日前
ローム株式会社
ソース機器
16日前
キヤノン電子株式会社
業務管理システム
9日前
個人
文字入力方法、文字入力プログラム
1か月前
ミサワホーム株式会社
プログラム
1か月前
トヨタ自動車株式会社
作業評価装置
2日前
日本精機株式会社
コミュニケーション端末
16日前
トヨタ自動車株式会社
車載機
1か月前
株式会社LIFE
送迎管理システム
23日前
個人
後払いポイントシステム「先用後利」
1か月前
ダイハツ工業株式会社
移動支援装置
4日前
富士通株式会社
情報処理プログラム
4日前
株式会社インザック
コンピュータシステム
1か月前
トヨタ自動車株式会社
作業評価装置
16日前
トヨタ自動車株式会社
部品管理装置
1か月前
NISSHA株式会社
入力装置
9日前
花王株式会社
情報処理システム
9日前
花王株式会社
情報処理システム
9日前
続きを見る