TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024165052
公報種別公開特許公報(A)
公開日2024-11-28
出願番号2023080878
出願日2023-05-16
発明の名称サンプルデータにラベルを付与する能動学習のプログラム、装置及び方法
出願人KDDI株式会社
代理人個人
主分類G06F 16/906 20190101AFI20241121BHJP(計算;計数)
要約【課題】分類タスクの全クラスについてラベル有りサンプルデータを早急に蓄積するべく、サンプルデータにラベルを付与することができるプログラム等を提供する。
【解決手段】サンプルデータを説明変数とし、ラベルを目的変数として訓練するクラス分類モデルを持つ機械学習エンジンと、クラスに対応するラベル毎に、各特徴量の知識条件を記憶した知識条件記憶手段と、ラベル有りサンプルデータ蓄積手段に、ラベル有りサンプルデータが所定個未満となる空クラスが存在する場合、空クラスを特定する空クラス特定手段と、知識条件記憶手段を用いて、ラベル無しサンプルデータの群から、当該空クラスに対応するラベルの一部又は全部の特徴量jの知識条件と所定類似度以上となるラベル無しサンプルデータを検索するサンプルデータ検索手段と、検索されたラベル無しサンプルデータに、能動学習としての確認フラグを付与する確認フラグ付与手段とを有する。
【選択図】図1


特許請求の範囲【請求項1】
複数の特徴量j(j=1~N)のベクトルからなる複数のサンプルデータXi={xi,1、xi,2、・・・、xi,N}について、ラベル有りサンプルデータの群を用いて、ラベル無しサンプルデータの群にラベルを付与するようにコンピュータを機能させるプログラムにおいて、
ラベル有りサンプルデータXiを蓄積したラベル有りサンプルデータ蓄積手段と、
ラベル有りサンプルデータ蓄積手段を用いて、サンプルデータXiを説明変数とし、ラベルYk(k=1~L)を目的変数として訓練するクラス分類モデルを持つ機械学習エンジンと、
クラスに対応するラベルYk毎に、各特徴量jの知識条件を記憶した知識条件記憶手段と、
ラベル有りサンプルデータ蓄積手段に、ラベル有りサンプルデータが所定個未満となる空クラスが存在する場合、当該空クラスを特定する空クラス特定手段と、
知識条件記憶手段を用いて、ラベル無しサンプルデータの群から、当該空クラスに対応するラベルYclass_targetの一部又は全部の特徴量jの知識条件と所定類似度以上となるラベル無しサンプルデータを検索するサンプルデータ検索手段と、
検索されたラベル無しサンプルデータに、能動学習としての確認フラグを付与する確認フラグ付与手段と
してコンピュータを機能させることを特徴とするプログラム。
続きを表示(約 1,700 文字)【請求項2】
確認フラグ付与手段は、確認フラグが付与されたラベル無しサンプルデータをユーザインタフェースへ出力し、ユーザにラベルYkを付与させ、
ラベル有りサンプルデータ蓄積手段は、ユーザによってラベルYkが付与されたラベル有りサンプルデータを蓄積する
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
【請求項3】
空クラスに対応するラベルYclass_targetにおける一部の特徴量jの知識条件の項目をユーザインタフェースへ出力し、ユーザによって入力された知識条件によって知識条件記憶手段を更新する知識条件更新手段と
してコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
【請求項4】
知識条件記憶手段に、空クラスに対応するラベルYclass_targetについて知識条件が記憶されているが、ラベル有りサンプルデータ蓄積手段に、ラベル有りサンプルデータが所定個未満となる空クラスが存在する場合、
サンプルデータ検索手段は、空クラスに対応するラベルYclass_targetの一部又は全部の特徴量jの知識条件と最も類似するラベル無しサンプルデータを選択する
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
【請求項5】
知識条件記憶手段に、空クラスに対応するラベルYclass_targetについて知識条件が記憶されていない場合、
サンプルデータ検索手段は、ラベル有りサンプルデータ蓄積手段の中で複数のラベル有りサンプルデータの特徴量と最も類似度が低い特徴量を持つラベル無しサンプルデータを検索する
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
【請求項6】
ラベル有りサンプルデータを作成する進行段階を管理する進行管理手段を更に有し、
進行管理手段は、
ラベル有りサンプルデータの総数が所定数未満となる第1のフェーズと、
ラベル有りサンプルデータの総数が所定数以上であって、且つ、ラベル有りサンプルデータが所定個未満となる空クラスが存在する第2のフェーズと、
ラベル有りサンプルデータの総数が所定数以上であって、且つ、ラベル有りサンプルデータが所定個未満となる空クラスが存在しない第3のフェーズと
を管理しており、
第2のフェーズについて、空クラス特定手段、サンプルデータ検索手段及び確認フラグ付与手段を実行する
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
【請求項7】
第1のフェーズでは、Randomサンプリング方式又はDiversityサンプリング方式によって、ラベル無しサンプルデータに、能動学習としてユーザにラベルを付与させ、
第3のフェーズでは、Uncertaintyサンプリング方式によって、ラベル無しサンプルデータにラベルを付与する
ようにコンピュータを機能させることを特徴とする請求項6に記載のプログラム。
【請求項8】
複数のセンサにおけるセンサデータを、複数の特徴量jのベクトルからなるサンプルデータXiに変換する特徴量ベクトル変換手段と
してコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
【請求項9】
特徴量ベクトル変換手段は、複数のセンサによって検知された時系列のイベントをスライディングウィンドウによって複数のセンサデータに区分し、センサデータをサンプルデータXiに変換する
ようにコンピュータを機能させることを特徴とする請求項8に記載のプログラム。
【請求項10】
センサは、室内に配置されたものであり、
ラベルは、室内の人の行動認識に対応するものである
ようにコンピュータを機能させることを特徴とする請求項9に記載のプログラム。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、サンプルデータにラベルを付与する能動学習の技術に関する。
続きを表示(約 2,500 文字)【背景技術】
【0002】
ディープラーニングなどの機械学習技術の発展により、AI(Artificial Intelligence)における分類タスクや回帰タスク、意思決定タスクの性能が飛躍的に向上した。一方で、分類タスクについては、精度を向上させるために、機械学習エンジンを訓練する教師データとして、大量のラベル有りサンプルデータが必要となる。サンプルデータにラベルを付与する、教師データの作成作業は、通常、人手によって行われるために、高いラベリングコストが問題となる。
【0003】
ラベル有りサンプルデータが無い又は極めて少ない状態となるコールドスタートでは、任意のラベル無しサンプルデータを選択し、ユーザ(又はアノテータ)に問い合わせることによって、ラベルを付与していく。
従来、コールドスタートにおけるサンプルデータの選択方法として、例えば「Randomサンプリング方式」や「Diversityサンプリング方式」がある。
Randomサンプリング方式の場合、ラベル無しサンプルデータの群の中から、ランダムに、ラベル無しサンプルデータを選択し、ユーザにラベルを付与させる。
Diversityサンプリング方式の場合、ラベル無しサンプルデータを、K-meansなどのクラスタベースのアルゴリズムによってクラスタリングし、各クラスタから均等にサンプルデータを選択し、ユーザにラベルを付与させる。ここでは、選択されるサンプルデータに多様性を持たせることができる。
【0004】
また、自己教師あり学習として訓練したpre-trainedモデル(BERT(登録商標))を用いた技術もある(例えば非特許文献1参照)。この技術によれば、ラベル無しサンプルデータのpre-trainedモデルのloss値を用いて、異なる尺度でサンプルデータを選択し、ユーザにラベルを付与させる。ここでも、選択されるサンプルデータに多様性を持たせることができる。
【0005】
これに対し、ユーザがラベルを付与するサンプルデータの数をできる限り少なくすることができる「能動学習」の技術が注目されている。能動学習によれば、ユーザがラベルを付与するサンプルデータの数が少なくても、機械学習エンジンが持つ分類モデルの性能を効率的に向上させることができる。
少数のラベル有りサンプルデータが蓄積された段階では、能動学習として、機械学習エンジンの分類モデルの出力情報を用いた「Uncertainty sampling方式」の技術がある(例えば非特許文献2参照)。この技術によれば、少数のラベル有りサンプルデータによってクラス分類の機械学習エンジンを予め訓練し、ラベル無しサンプルの群から全てのクラスの確信度が最も低いサンプルデータを「能動的に」選択する。
【0006】
これによって、ユーザは、選択されたサンプルデータのみにラベルを付与すればよく、ユーザの全体的な作業負担を抑制することができる。ラベル付けされたサンプルデータは、教師データとして、機械学習エンジンによって再訓練される。このように、機械学習エンジンは、能動学習として、サンプルデータの選択と、ユーザによるラベル付与と、分類モデルの再訓練とを繰り返す。これは、能動学習としてシンプル且つ有効な方法であって、機械学習エンジンの分類モデルの性能を効率的に向上させることができる。
【0007】
更に、能動学習として、説明可能AIの出力データを、新たなサンプルデータの選択のための指標として用いる技術もある(例えば特許文献1参照)。この技術によれば、説明可能AIの出力データが示す予測結果の算定に対する複数の要素データそれぞれの重要度を、複数の入力データのそれぞれに対応して特定する。特定した複数の入力データそれぞれに含まれる複数の要素データに対応する複数の重要度に基づいて、複数の入力データの中から、所定の事象の正解を示す正解データを付与する対象の入力データを選択する。
【先行技術文献】
【特許文献】
【0008】
特開2023-048357号公報
【非特許文献】
【0009】
Michelle Yuan, et. al. “Cold-start Active Learning through Self-supervised Language Modeling”、[online]、[令和5年4月14日検索]、インターネット<URL:https://aclanthology.org/2020.emnlp-main.637/>
Anita Krishnakumar “Active Learning Literature Survey”、[online]、[令和5年4月14日検索]、インターネット<URL:https://www.researchgate.net/publication/228971426_Active_Learning_Literature_Survey>
【発明の概要】
【発明が解決しようとする課題】
【0010】
前述したRandomサンプリング方式等や非特許文献1の技術によれば、コールドスタートのように、分類タスクの一部のクラスに対応するラベルが未だ付与されてない段階であっても、ランダム性や多様性を持たせて、ラベル無しサンプルデータを選択することができる。しかしながら、クラス分布が不均衡な場合(例えばあるクラスのサンプルデータの割合が0.01%である)や、分類タスクの処理が比較的難しい場合(割合の低いクラスのサンプルデータと、割合の高いクラスのサンプルデータが非常に類似している場合など)には、闇雲な宝探しのように、大量のサンプルデータの選択を何度も行うことが必要となる場合がある。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

KDDI株式会社
サーバ装置、制御方法及びプログラム
1か月前
KDDI株式会社
サーバ装置、制御方法及びプログラム
1か月前
KDDI株式会社
点群復号装置、点群復号方法及びプログラム
1か月前
KDDI株式会社
点群復号装置、点群復号方法及びプログラム
1か月前
KDDI株式会社
画像復号装置、画像復号方法及びプログラム
1か月前
KDDI株式会社
画像復号装置、画像復号方法及びプログラム
1か月前
KDDI株式会社
画像復号装置、画像復号方法及びプログラム
1か月前
KDDI株式会社
画像復号装置、画像復号方法及びプログラム
1か月前
KDDI株式会社
画像復号装置、画像復号方法及びプログラム
1か月前
KDDI株式会社
画像復号装置、画像復号方法及びプログラム
1か月前
KDDI株式会社
情報処理装置、情報処理方法及びプログラム
26日前
KDDI株式会社
画像復号装置、画像復号方法及びプログラム
1か月前
KDDI株式会社
点群復号装置、点群復号方法及びプログラム
1か月前
KDDI株式会社
点群復号装置、点群復号方法及びプログラム
1か月前
KDDI株式会社
情報処理装置、情報処理方法、及びプログラム
1か月前
KDDI株式会社
治療用アプリケーション、および情報処理装置
12日前
KDDI株式会社
メッシュ復号装置、メッシュ復号方法及びプログラム
1か月前
KDDI株式会社
メッシュ復号装置、メッシュ復号方法及びプログラム
1か月前
KDDI株式会社
メッシュ復号装置、メッシュ復号方法及びプログラム
1か月前
KDDI株式会社
メッシュ復号装置、メッシュ復号方法及びプログラム
1か月前
KDDI株式会社
メッシュ復号装置、メッシュ復号方法及びプログラム
1か月前
KDDI株式会社
メッシュ復号装置、メッシュ復号方法及びプログラム
1か月前
KDDI株式会社
メッシュ復号装置、メッシュ復号方法及びプログラム
1か月前
KDDI株式会社
情報処理システム、プログラムおよび保険条件判定方法
12日前
KDDI株式会社
安全性評価装置、安全性評価方法及び安全性評価プログラム
1か月前
KDDI株式会社
サンプルデータにラベルを付与する能動学習のプログラム、装置及び方法
6日前
KDDI株式会社
危険サイトのリスト生成装置、リスト生成方法及びリスト生成プログラム
13日前
KDDI株式会社
効率的な接続処理のための基地局装置、端末装置、制御方法、及びプログラム
12日前
KDDI株式会社
情報処理装置及び情報処理方法
28日前
KDDI株式会社
効率的な接続設定情報の管理のための基地局装置、端末装置、制御方法、及びプログラム
12日前
KDDI株式会社
情報処理装置、情報処理方法及びプログラム
1か月前
KDDI株式会社
プライバシー保護型評判システム、評判スコア計算装置、評判スコア計算方法及びプログラム
6日前
KDDI株式会社
物体光逆量子化装置、物体光量子化装置、物体光逆量子化方法、物体光量子化方法及びプログラム
1か月前
KDDI株式会社
情報処理システム、プログラムおよび保険条件判定方法
12日前
KDDI株式会社
配車管理システム、配車予約管理方法及びコンピュータプログラム
6日前
KDDI株式会社
効率的な接続先変更処理のための端末装置、制御方法、及びプログラム
15日前
続きを見る