TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024177013
公報種別公開特許公報(A)
公開日2024-12-19
出願番号2023143772
出願日2023-09-05
発明の名称日本語文書の剽窃有無を判断するための装置及び方法
出願人ムハユ インコーポレーテッド,muhayu Inc.
代理人個人
主分類G06F 40/253 20200101AFI20241212BHJP(計算;計数)
要約【課題】日本語文書の剽窃有無を判断する日本語比較キーアルゴリズムを抽出する装置及び方法を提供する。
【解決手段】方法は、日本語の文字形態を基準として日本語の文章から個別の構文に対応するチャンクを抽出しS100、名詞辞書情報を用いてチャンクに含まれている複数の名詞を個別の名詞に分割しS200、分割された個別の名詞で助詞としての役割を担うひらがな文字以外の文字の間に配置されたひらがな文字を含むチャンクとひらがな文字に先行するチャンクとを統合しS300、文字に基づいて全角文字を生成しS400、繰り返し符号を繰り返し符号に対応する反復対象となる文字に置き換えS500、抽出されたチャンクのうち記号が含まれているチャンクを除外し、抽出されたチャンクのうち数字が含まれているチャンクを前のチャンクと統合しS700、処理済みのチャンクを剽窃検査で活用される比較キーとして生成するS800。
【選択図】図2
特許請求の範囲【請求項1】
日本語文書の剽窃有無を判断するための装置であって、
前記日本語文書の剽窃有無を判断するアルゴリズムに関するコードデータと、名詞辞書情報を含む名詞辞書データを格納するメモリと、
前記コードデータの前記アルゴリズムを用いて前記日本語文書の剽窃有無を判断するように構成されたプロセッサと、を含み、
前記プロセッサは、
前記日本語文書に記載された日本語の文字形態を基準として日本語の文章を構文単位に区分することによって、個別の構文に対応するチャンクを抽出し、
前記名詞辞書データの名詞辞書情報を用いて、前記チャンクに含まれている複数の名詞を個別の名詞に分割し、
分割された個別の名詞で助詞としての役割を担うひらがな文字以外の文字の間に配置された前記ひらがな文字を含むチャンクを、前記ひらがな文字に先行するチャンクと統合し、
前記日本語文書に記載された文字に基づいて全角文字を生成し、
前記日本語文書で繰り返される文字に該当する繰り返し符号を、前記繰り返し符号に対応する反復対象となる文字に置き換え、
抽出されたチャンクのうち記号が含まれているチャンクを除外処理し、
抽出されたチャンクのうち数字が含まれているチャンクを先行するチャンクと統合し、
処理済みのチャンクを剽窃検査で活用される比較キーとして生成することを特徴とする、装置。
続きを表示(約 1,500 文字)【請求項2】
前記プロセッサは、
前記日本語文書に記載された前記日本語の前記文字形態であるひらがな、カタカナ、漢字、記号、及び数字を基準として前記日本語文書を個別の構文に区分することによって、前記チャンクを抽出することを特徴とする、請求項1に記載の装置。
【請求項3】
前記プロセッサは、
前記日本語文書に記載された複合名詞を個別の名詞単位に区分することを特徴とする、請求項2に記載の装置。
【請求項4】
前記プロセッサは、
前記助詞としての役割を担うひらがな1文字を含む1つのチャンクを区分する場合、前記ひらがな1文字に先行する前記ひらがな文字以外の文字に対するチャンクに前記1つのチャンクを含めることで、チャンクを統合することを特徴とする、請求項3に記載の装置。
【請求項5】
前記プロセッサは、
前記日本語文書に記載された半角文字の空白、カタカナ、記号、数字、及びアルファベットを前記全角文字に置き換えることを特徴とする、請求項4に記載の装置。
【請求項6】
前記プロセッサは、
2つ以上の繰り返し符号が前記日本語文書に記載された場合、前記2つ以上の繰り返し符号を全て前記2つ以上の繰り返し符号に先行する反復対象である文字に置き換え、
置き換えられた文字と先行する反復対象の文字を1つのチャンクに統合することを特徴とする、請求項5に記載の装置。
【請求項7】
前記繰り返し符号は、
JPEG
2024177013000003.jpg
9
163
のうちの少なくとも1つを含み、
前記プロセッサは、
前記繰り返し符号が用いられる場合、前記繰り返し符号を前記繰り返し符号の前に反復対象となる文字に置換処理することを特徴とする、請求項6に記載の装置。
【請求項8】
前記プロセッサは、
前記ひらがな文字を含むチャンクと前記ひらがな文字に先行するチャンクとを統合し、前記全角文字を生成し、前記繰り返し符号を前記文字に置き換えた後に、前記記号が含まれている前記チャンクを除外処理することを特徴とする、請求項7に記載の装置。
【請求項9】
前記プロセッサは、
前記記号が含まれている前記チャンクを除外処理した後に、前記数字が含まれているチャンクを先行するチャンクと統合することを特徴とする、請求項8に記載の装置。
【請求項10】
日本語文書の剽窃有無を判断するための方法であって、
前記日本語文書に記載された日本語の文字形態を基準として日本語の文章を構文単位に区分することによって、個別の構文に対応するチャンクを抽出する段階と、
名詞辞書データの名詞辞書情報を用いて、前記チャンクに含まれている複数の名詞を個別の名詞に分割する段階と、
分割された個別の名詞で助詞としての役割を担うひらがな文字以外の文字の間に配置された前記ひらがな文字を含むチャンクを、前記ひらがな文字に先行するチャンクと統合する段階と、
前記日本語文書に記載された文字に基づいて全角文字を生成する段階と、
前記日本語文書で繰り返される文字に該当する繰り返し符号を、前記繰り返し符号に対応する反復対象となる文字に置き換える段階と、
抽出されたチャンクのうち記号が含まれているチャンクを除外処理する段階と、
抽出されたチャンクのうち数字が含まれているチャンクを先行するチャンクと統合する段階と、
処理済みのチャンクを剽窃検査で活用される比較キーとして生成する段階とを含む、方法。

発明の詳細な説明【技術分野】
【0001】
本開示は、電子装置及びその動作方法に関する。より詳細には、本開示は日本語文書の剽窃有無を判断するための日本語比較キーアルゴリズムを抽出する装置及び方法に関する。
続きを表示(約 1,300 文字)【背景技術】
【0002】
日本語比較キーの抽出は、日本語で作成された文書を比較対象文書と剽窃検査を行えるように文書から日本語比較キーを抽出する手法である。抽出された比較キーを基準として日本語文書同士の剽窃検査が可能である。
【0003】
韓国語や英語の場合、語節単位の区分である分かち書きを基準として比較キーを抽出し、これに合わせて比較対象文書と剽窃検査を行える。しかし、日本語は、表記法の特性上、分かち書きを使った語節単位を使わない。その代わりに、対応する概念である文節単位で構文分析を行うが、これは分かち書きで区分されず、品詞によって区分される。これにより、従来の分かち書きを基準とした比較キー抽出技術を適用できず、日本語の文節単位に合う新たな規則の定義が必要である。
【0004】
日本語の文節を基準として比較キーを抽出するためには、品詞を考慮して規則を定義しなければならないが、全ての日本語表現の品詞辞典の構築にはかなりの人的、時間的資源が必要であり、高い構築費用が必要であるという問題がある。また、言語は、新たな表現が常に新しく出現し、全ての表現に対応する品詞辞典の構築を通じた文節基準の比較キーの抽出は現実的に限界がある。
【0005】
日本の教育機関、研究機関など日本語文書を作成する環境で剽窃の問題が過去から継続的に問題視されている。特に、大学などの日本の教育機関において、学生らが作成する課題や卒業論文、研究者が作成する学術論文の剽窃問題は、マスコミにも話題となり、対策作りの必要性が日本社会で提起されてきた。
【0006】
世界的な科学学術雑誌である「Science」の科学論文撤回に関する内容が掲載されるサイトであるRetraction Watchでも、日本は論文の撤回が多い上位10人の研究者のうち50%を占めていると指摘されている。
【0007】
剽窃の問題は日本だけでなく、韓国を含む世界各国で問題となっており、これに対する対応として剽窃検査プログラムによるテキスト剽窃検知技術が発展しつつある。しかし、剽窃検査のために韓国語や英語圏で用いられる分かち書きを基準とした語節単位の比較キー抽出方法は、分かち書きを使わない日本語の言語環境には適用できない。
【先行技術文献】
【特許文献】
【0008】
特開2023-023589号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
本開示は、上記事情に鑑みてなされたものであって、その目的は、語節に対応する概念である日本語の文節を基準とした比較キーの抽出によって日本語で書かれた著作物の剽窃技術の定義を設定するための装置及び方法を提供することにある。
【0010】
本開示が解決しようとする課題は、以上で言及した課題に限定されず、言及していない更に他の課題は、以下の記載から通常の技術者が明確に理解できるだろう。
【課題を解決するための手段】
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

個人
フラワーコートA
1か月前
個人
工程設計支援装置
1か月前
個人
地球保全システム
2日前
個人
為替ポイント伊達夢貯
29日前
個人
冷凍食品輸出支援構造
29日前
個人
表変換編集支援システム
22日前
個人
携帯情報端末装置
1か月前
個人
知財出願支援AIシステム
29日前
個人
結婚相手紹介支援システム
1か月前
個人
パスワード管理支援システム
22日前
個人
行動時間管理システム
24日前
個人
AIによる情報の売買の仲介
1か月前
個人
食品レシピ生成システム
1日前
個人
パスポートレス入出国システム
1か月前
株式会社キーエンス
受発注システム
1日前
個人
海外支援型農作物活用システム
14日前
株式会社キーエンス
受発注システム
1日前
個人
システム及びプログラム
15日前
株式会社アジラ
進入判定装置
1か月前
日本精機株式会社
施工管理システム
1か月前
個人
AIキャラクター制御システム
22日前
株式会社キーエンス
受発注システム
1日前
個人
人格進化型対話応答制御システム
22日前
個人
食事受注会計処理システム
1か月前
サクサ株式会社
中継装置
22日前
大同特殊鋼株式会社
疵判定方法
8日前
個人
SaaS型勤務調整支援システム
22日前
個人
社会還元・施設向け供給支援構造
22日前
個人
冷凍加工連携型農場運用システム
29日前
個人
未来型家系図構築システム
14日前
個人
音声対話型帳票生成支援システム
22日前
大阪瓦斯株式会社
住宅設備機器
1か月前
キヤノン株式会社
表示システム
1日前
個人
リテールレボリューションAIタグ
1か月前
株式会社やよい
美容支援システム
1か月前
株式会社竹中工務店
管理システム
14日前
続きを見る