TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024058900
公報種別公開特許公報(A)
公開日2024-04-30
出願番号2022166303
出願日2022-10-17
発明の名称情報処理プログラム、情報処理方法および情報処理装置
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06F 16/35 20190101AFI20240422BHJP(計算;計数)
要約【課題】特定ドメインに関係のないノイズを除いて、特定ドメインに関係のあるデータを選択すること。
【解決手段】情報処理装置は、第1ドメインに属する文の第1ベクトルと、第2ドメインに属する文の第2ベクトルとを基にして、第1ベクトルに類似する第2ベクトルの文を選択する。情報処理装置は、第1ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、選択した文が、第1ドメインに属する文であるか否かを判定する。情報処理装置は、判定結果を基にして、選択した複数の文から、第1ドメインに属する文を抽出する。
【選択図】図4
特許請求の範囲【請求項1】
第1ドメインに属する文の第1ベクトルと、第2ドメインに属する文の第2ベクトルとを基にして、第1ベクトルに類似する第2ベクトルの文を選択し、
前記第1ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、前記選択した文が、前記第1ドメインに属する文であるか否かを判定し、
判定結果を基にして、選択した複数の文から、前記第1ドメインに属する文を抽出する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
続きを表示(約 870 文字)【請求項2】
ある文の入力データと、前記ある文が前記第1ドメインに属する文であるか否かを示すラベルとの組を学習データとして、前記分類器を訓練する処理を更にコンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。
【請求項3】
前記分類器は、文が入力された場合に、入力された文が前記第1ドメインに属する文である尤度を出力し、前記判定する処理は、前記選択した文を、前記分類器に入力した際に出力される尤度が閾値以上である場合に、前記選択した文が、前記第1ドメインに属する文であると判定することを特徴とする請求項1に記載の情報処理プログラム。
【請求項4】
前記抽出する処理によって抽出された文と、前記第1ドメインに属する文とを基にして、言語モデルを訓練する処理を更にコンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。
【請求項5】
第1ドメインに属する文の第1ベクトルと、第2ドメインに属する文の第2ベクトルとを基にして、第1ベクトルに類似する第2ベクトルの文を選択し、
前記第1ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、前記選択した文が、前記第1ドメインに属する文であるか否かを判定し、
判定結果を基にして、選択した複数の文から、前記第1ドメインに属する文を抽出する
処理をコンピュータが実行することを特徴とする情報処理方法。
【請求項6】
第1ドメインに属する文の第1ベクトルと、第2ドメインに属する文の第2ベクトルとを基にして、第1ベクトルに類似する第2ベクトルの文を選択し、
前記第1ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、前記選択した文が、前記第1ドメインに属する文であるか否かを判定し、
判定結果を基にして、選択した複数の文から、前記第1ドメインに属する文を抽出する
処理を実行する制御部を有する情報処理装置。

発明の詳細な説明【技術分野】
【0001】
本発明は、情報処理プログラム等に関する。
続きを表示(約 1,400 文字)【背景技術】
【0002】
自然言語処理において、ドメイン適応(Domain Adaptation)と呼ばれる技術がある。たとえば、ドメイン適応は、Sourceドメインと、Targetドメインとのサンプル間のドメインshiftを軽減するという問題に取り組む技術である。
【0003】
図7は、ドメイン上のデータ分布の一例を示す図である。図7に示す例では、空間上に、Original LM domainのデータ10、Target domainのデータ11、Target domain downstream taskのデータ12が含まれる。
【0004】
Original LM domainのデータ10は、インターネット上に存在する文のデータに対応する。Target domainのデータ11は、Target domainのコーパスデータである。Target domain downstream taskのデータ12は、downstream taskを実行するために選択された文のデータである。
【0005】
以下では、Original LM domainのデータ10、Target domainのデータ11、Target domain downstream taskのデータ12を用いた、ドメイン適応の従来技術の一例について説明する。
【0006】
図8は、ドメイン適応の従来技術を説明するための図である。たとえば、従来技術によるドメイン適応では、ステップS10、ステップS11、ステップS12の順に、処理を実行する。ドメイン適応を実行する従来の装置を、従来装置と表記する。
【0007】
従来装置は、ステップS10において、Original LM domainのデータ10を用いて、第1モデル10a(Pretrained language model)の学習を実行する。第1モデル10aは、自然言語処理モデルである。第1モデル10aは、NN(Neural Network)等である。たとえば、第1モデル10aに文を入力すると、文に含まれる各単語のベクトルが出力される。
【0008】
従来装置は、ステップS11において、Target domainのデータ11を用いて、第1モデル10aの再学習を実行することで、第2モデル11a(Re-pretrained language model)を得る。
【0009】
従来装置は、ステップS12において、第2モデル11aを、NERモデル12aに接続し、Target domain downstream taskのデータ12を用いて、第2モデル11a、NERモデル12aに対するFine-tuningを実行する。NERモデル12aは、分類モデルである。NERモデル12aは、NN等である。
【0010】
ステップS10、S11では、Original LM domainのデータ10、Target domainのデータ11に正解ラベルは付与されておらず、教師なし学習が実行される。ステップS12では、Target domain downstream taskのデータ12に正解ラベルが付与されており、教師あり学習が実行される。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
乗降調査装置
1か月前
個人
プロジェクター
15日前
個人
管理装置
20日前
個人
自動販売機
1か月前
日本精機株式会社
投影装置
1か月前
キヤノン電子株式会社
周辺機器
7日前
日本精機株式会社
投影システム
1か月前
個人
求人マッチングサーバ
7日前
株式会社SUBARU
車両
1か月前
小林クリエイト株式会社
RFタグ
1か月前
17LIVE株式会社
サーバ
1か月前
カゴメ株式会社
営農支援プログラム
6日前
カゴメ株式会社
営農支援プログラム
6日前
株式会社協同印刷
防災・災害マウス
1か月前
カゴメ株式会社
営農支援プログラム
6日前
カゴメ株式会社
営農支援プログラム
6日前
株式会社ワコム
電子ペン
今日
太陽誘電株式会社
触覚生成装置
1か月前
トヨタ自動車株式会社
検査装置
20日前
株式会社ワコム
電子ペン
2日前
アスエネ株式会社
水管理の方法
7日前
株式会社ゼロボード
価格決定システム
1か月前
株式会社イトーキ
分析装置
1か月前
大日本印刷株式会社
作業台
5日前
株式会社NGA
画像投稿システム
20日前
株式会社アジラ
姿勢推定システム
1か月前
株式会社寺岡精工
システム
2日前
CKD株式会社
遠隔支援システム
7日前
個人
ポイント増量アプリ「太陽光銭サー」
14日前
日本電気株式会社
勤務管理装置
1か月前
日本信号株式会社
自転車貸出システム
1か月前
株式会社小野測器
移動量計測システム
27日前
個人
言語翻訳システム及びプログラム
27日前
小林クリエイト株式会社
あて先表示システム
1か月前
BH株式会社
商品販売システム
7日前
株式会社三富
取引管理システム
15日前
続きを見る