発明の詳細な説明【技術分野】 【0001】 本発明は、アノテーション装置、アノテーション方法およびアノテーションプログラムに関する。 続きを表示(約 2,500 文字)【背景技術】 【0002】 従来、機械学習における教師あり学習のためには、学習データとそれに対応する正解ラベルが必要である。多くの研究では、複数名でデータを視聴等してメタデータを付与する作業(アノテーション)が行われている。 【0003】 例えば、音声や動画像に対するアノテーションの場合、作業者(適宜、「アノテータ」)は、提示された数秒~数十秒の音声や動画像を視聴し、仕様に合うようにメタデータを付与する。具体的には、音声からの感情認識の研究開発に向けたアノテーションであれば、聴取した音声に対して最も適切な感情を選択するし、画像に対するオブジェクト検出やオブジェクト認識であれば、オブジェクトの画像内における領域を選択し、オブジェクトに対する説明を付与する。 【0004】 従来のアノテーション手法は、作業の比較対象の有無に分けることができる。比較対象がない場合、アノテータは静止画もしくは数秒程度の音声や動画像を視聴して、メタデータを付与する。この手法は、データ視聴回数=総サンプル数Nとなるため、時間コストが低い。また、短時間でも確実に誰もが理解できるタスク(例:文字起こし、オブジェクトへのタグ付け、誰が見聞きしても明らかに怒っている状態等)であれば、正確にアノテーションを行うことができる。 【0005】 一方、比較対象がある場合、アノテータは長時間(数十秒~数分)の音声や動画像を視聴して連続的かつ相対的な事象の変化に関するメタデータを付与したり(例えば、非特許文献3参照)、複数の音声や動画像を視聴して相対的に順位やスコアを付与したりする(例えば、非特許文献4参照)。この手法は、比較する対象があるため、アノテータ間のブレを低減し、より正確なメタデータを付与できる。 【先行技術文献】 【非特許文献】 【0006】 Mohammad Soleymani, and Martha Larson, “Crowdsourcing for Affective Annotation of Video: Development of a Viewer-reported Boredom Corpus”, 2010. Ryutaro Tanno, Ardavan Saeedi, Swami Sankaranarayanan, Daniel C. Alexander, and Nathan Silberman, “Learning From Noisy Labels By Regularized Estimation Of Annotator Confusion”, 2019. David Melhart, Antonios Liapis, and Georgios N. Yannakakis “PAGAN: Video Affect Annotation Made Easy”, 2019. Lifang Yang, and Rui Zhu, “Subjective Evaluation of Cooling Fan Sound based on Grade Scoring and Paired Comparison”, 2016. 【発明の概要】 【発明が解決しようとする課題】 【0007】 しかしながら、上述した従来技術では、機械学習における教師あり学習において、より低コストかつ高精度なアノテーションを行うことができない。なぜならば、比較対象がないアノテーション手法では、短時間の視聴では理解が難しいタスクの場合、正確なアノテーションができず、アノテータ間の付与ラベルのばらつきが大きくなり、アノテーション結果の信頼性が低くなるといった問題がある。 【0008】 このような問題に対して、アノテータの品質、回答傾向の考慮、多人数アノテーションでノイズの影響を小さくする等の対応があるが、アノテーションそのものの信頼性を上げるという根本的な解決にはなっていない(例えば、非特許文献1、2参照)。例えば、集中度のアノテーションを行う場合、非常に集中している、または全く集中していない様子、つまり誰が見聞きしても明らかにわかる状態であれば複数アノテータによる投票は一致しやすいが、集中しているのかそうでないのかがわかりにくい状態の場合、正確なアノテーションは難しく、結果として微妙な違いを表現できない。 【0009】 一方、比較対象がないアノテーション手法では、長時間もしくは大量のデータを視聴する必要があり、アノテーションに膨大なコストを要する。例えば、いくつかのデータの組み合わせを同時に視聴する場合、全Nサンプルのデータからn個ずつ選択すると最大 N C n 個の組み合わせが存在し得る。心理学実験法を参考にアノテーションの品質を保ちつつ組み合わせ数を削減することは可能かもしれないが、そのためにはどの組み合わせを除外するかについては慎重な検討が必要である。 【課題を解決するための手段】 【0010】 上述した課題を解決し、目的を達成するために、本発明に係るアノテーション装置は、機械学習に用いられる第1の学習データを取得する取得部と、前記取得部によって取得された前記第1の学習データを複数のアノテータに配信する第1配信部と、各アノテータによって前記第1の学習データにそれぞれ付与された第1の正解ラベルの信頼度に基づいて、前記第1の学習データを分類する分類部と、前記分類部によって分類された前記第1の学習データの分類結果を配信する第2配信部とを備えることを特徴とする。 (【0011】以降は省略されています) この特許をJ-PlatPatで参照する