TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024167768
公報種別公開特許公報(A)
公開日2024-12-04
出願番号2023084071
出願日2023-05-22
発明の名称評価装置、評価方法、およびプログラム
出願人日本電気株式会社
代理人弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
主分類G06F 40/216 20200101AFI20241127BHJP(計算;計数)
要約【課題】言語処理モデルの性能が良くない場合の原因を絞り込む。
【解決手段】評価装置(1)は、言語処理モデルに含まれるエンベディング層を用いて、複数の訓練データ片にそれぞれ含まれる自然言語文のエンベディングを取得する取得部(11)と、複数のエンベディングの各々を行または列として含む行列の各要素を画素値に変換することにより画像データを生成する生成部(12)と、画像データの特徴を検出する検出部(13)と、画像データの特徴に基づいて、エンベディング層の品質を評価する評価部(14)と、を含む。
【選択図】図1
特許請求の範囲【請求項1】
複数の訓練データ片にそれぞれ含まれる自然言語文について、言語処理モデルに含まれるエンベディング層を用いて生成されたエンベディングを取得する取得手段と、
複数の前記エンベディングの各々を行または列として含む行列の各要素を画素値に変換することにより画像データを生成する生成手段と、
前記画像データの特徴を検出する検出手段と、
前記画像データの特徴に基づいて、前記エンベディング層の品質を評価する評価手段と、
を含む、評価装置。
続きを表示(約 1,700 文字)【請求項2】
前記言語処理モデルは、分類タスクを実行するモデルであり、
前記訓練データ片は、前記自然言語文および当該自然言語文の分類を示すラベルを関連付けた情報を含み、
前記生成手段は、複数の前記エンベディングの各々を行または列として前記ラベルに基づく順に並べた前記行列から前記画像データを生成し、
前記検出手段は、前記画像データの特徴として、画素値の変化に基づく第1境界を検出し、
前記評価手段は、前記画像データにおいて前記ラベルが互いに異なるエンベディングに対応する行または列の間を示す第2境界と、前記第1境界との比較結果に基づいて、前記エンベディング層の品質を評価する、
請求項1に記載の評価装置。
【請求項3】
前記評価手段は、前記第2境界の個数に対する、前記第2境界に整合すると判定した前記第1境界の個数の割合を示す再現率に基づいて、前記エンベディング層の品質を評価する、
請求項2に記載の評価装置。
【請求項4】
前記評価手段は、前記第2境界の個数に対する前記第1境界の個数の割合を示す検出倍率に基づいて、前記エンベディング層の品質を評価する、
請求項2または3に記載の評価装置。
【請求項5】
前記生成手段は、前記行列に含まれる複数の行を、各行の各要素から算出される第1の代表値に基づき並べ替えた行列から前記画像データを生成する、
請求項1または2に記載の評価装置。
【請求項6】
前記生成手段は、前記行列に含まれる複数の列を、各列の各要素から算出される第2の代表値に基づき並べ替えた行列から前記画像データを生成する、
請求項1または2に記載の評価装置。
【請求項7】
前記言語処理モデルとして第1の言語処理モデルを適用して、前記取得手段、前記生成手段、前記検出手段、および前記評価手段を機能させることにより得られた前記エンベディング層の品質の評価結果を第1の評価結果とし、
前記言語処理モデルとして前記第1の言語処理モデルとは異なる第2の言語処理モデルを適用して、前記取得手段、前記生成手段、前記検出手段、および前記評価手段を機能させることにより得られた前記エンベディング層の品質の評価結果を第2の評価結果とし、
前記評価手段は、
同一の前記複数の訓練データ片を用いて得られた前記第1の評価結果および前記第2の評価結果が何れも所定基準を満たさない場合に、当該複数の訓練データ片の品質が基準を満たさないと評価する、
請求項1または2に記載の評価装置。
【請求項8】
前記評価手段による評価結果、および前記生成手段が生成した画像データの一方または両方を出力する出力手段をさらに含む、
請求項1または2に記載の評価装置。
【請求項9】
少なくとも1つのプロセッサが実行する評価方法であって、
前記少なくとも1つのプロセッサが、
複数の訓練データ片にそれぞれ含まれる自然言語文について、言語処理モデルに含まれるエンベディング層を用いて生成されたエンベディングを取得することと、
複数の前記エンベディングの各々を行または列として含む行列の各要素を画素値に変換することにより画像データを生成することと、
前記画像データの特徴を検出することと、
前記画像データの特徴に基づいて、前記エンベディング層の品質を評価することと、
を含む、評価方法。
【請求項10】
コンピュータを、
複数の訓練データ片にそれぞれ含まれる自然言語文について、言語処理モデルに含まれるエンベディング層を用いて生成されたエンベディングを取得する取得手段と、
複数の前記エンベディングの各々を行または列として含む行列の各要素を画素値に変換することにより画像データを生成する生成手段と、
前記画像データの特徴を検出する検出手段と、
前記画像データの特徴に基づいて、前記エンベディング層の品質を評価する評価手段と、として機能させるプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、言語処理モデルの性能を評価する技術に関する。
続きを表示(約 2,500 文字)【背景技術】
【0002】
近年、汎用的な自然言語処理モデルを事前学習モデルとしてファインチューニングすることにより、所望の言語処理タスクを行う言語処理モデルを生成することが知られている。このような言語処理モデルの性能は、例えば、当該言語処理モデルの生成に用いられた訓練データ、事前学習モデル、学習アルゴリズム、当該言語処理モデルにおいて採用されるハイパーパラメータ等に影響される。このような言語処理モデルの性能の改善を目的として、例えば、ハイパーパラメータを調整するためにグリッドサーチ等の技術を用いることが知られている。また、例えば、特許文献1には、訓練データの品質を改善するための技術が記載されている。
【先行技術文献】
【特許文献】
【0003】
特開2023-19341号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、言語処理モデルの性能が良くない場合に、その主な原因が、上述したような訓練データ、事前学習モデル、学習アルゴリズム、ハイパーパラメータ等の何れであるのかを絞り込むことは難しい。特許文献1に記載された技術は、その主な原因が訓練データの品質にあることが分かっている場合には有効であるが、そうでない場合には、訓練データの品質を改善しても言語処理モデルの性能を改善できない可能性がある。そのため、言語処理モデルの性能が良くない場合の原因を絞り込むことが重要である。
【0005】
本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、言語処理モデルの性能が良くない場合の原因を絞り込む技術を提供することである。
【課題を解決するための手段】
【0006】
本発明の一態様に係る評価装置は、複数の訓練データ片にそれぞれ含まれる自然言語文について、言語処理モデルに含まれるエンベディング層を用いて生成されたエンベディングを取得する取得手段と、複数の前記エンベディングの各々を行または列として含む行列の各要素を画素値に変換することにより画像データを生成する生成手段と、前記画像データの特徴を検出する検出手段と、前記画像データの特徴に基づいて、前記エンベディング層の品質を評価する評価手段と、を含む。
本発明の一態様に係る評価方法は、少なくとも1つのプロセッサが実行する評価方法であって、前記少なくとも1つのプロセッサが、複数の訓練データ片にそれぞれ含まれる自然言語文について、言語処理モデルに含まれるエンベディング層を用いて生成されたエンベディングを取得することと、複数の前記エンベディングの各々を行または列として含む行列の各要素を画素値に変換することにより画像データを生成することと、前記画像データの特徴を検出することと、前記画像データの特徴に基づいて、前記エンベディング層の品質を評価することと、を含む。
【0007】
本発明の一態様に係るプログラムは、コンピュータを、複数の訓練データ片にそれぞれ含まれる自然言語文について、言語処理モデルに含まれるエンベディング層を用いて生成されたエンベディングを取得する取得手段と、複数の前記エンベディングの各々を行または列として含む行列の各要素を画素値に変換することにより画像データを生成する生成手段と、前記画像データの特徴を検出する検出手段と、前記画像データの特徴に基づいて、前記エンベディング層の品質を評価する評価手段と、として機能させる。
【発明の効果】
【0008】
本発明の一態様によれば、言語処理モデルの性能が良くない場合の原因を絞り込むことができる。
【図面の簡単な説明】
【0009】
本発明の例示的実施形態1に係る評価装置の構成を示すブロック図である。
本発明の例示的実施形態1に係る評価方法の流れを示すフロー図である。
本発明の例示的実施形態2に係る評価装置を含む評価システムの構成を示すブロック図である。
本発明の例示的実施形態2に係る評価方法の流れを説明するフロー図である。
本発明の例示的実施形態2におけるエンベディングの一例を示す模式図である。
本発明の例示的実施形態2における生成処理の詳細な流れを示すフロー図である。
本発明の例示的実施形態2における行列の一例を示す模式図である。
本発明の例示的実施形態2における画素値の割り当ての具体例を示す模式図である。
本発明の例示的実施形態2における画像データの一例を示す模式図である。
本発明の例示的実施形態2における検出処理の詳細な流れを示すフロー図である。
本発明の例示的実施形態2における第1境界の一例を示す模式図である。
本発明の例示的実施形態2における評価処理の詳細な流れを示すフロー図である。
本発明の例示的実施形態2の具体例における画像データを示す図である。
本発明の例示的実施形態2の具体例における第1境界および第2境界を示す図である。
各例示的実施形態に係る評価装置のハードウェア構成例を示す図である。
【発明を実施するための形態】
【0010】
本願発明者は、言語処理モデルの性能が良くない場合の原因を、当該言語処理モデルに含まれるエンベディング層の品質に応じて絞り込めることに着目し、エンベディング層の品質を評価する評価装置を発明した。エンベディング層の品質が良いにも関わらず言語処理モデルの性能が悪い場合は、言語処理タスク層(例えば、ハイパーパラメータ)に原因がある可能性が高い。一方で、エンベディング層の品質が良くない場合は、エンベディング層の生成過程に関わる訓練データ、事前学習モデル、または学習アルゴリズムに問題がある可能性が高い。このように、本願発明に係る評価装置を用いれば、エンベディング層の品質の評価結果に応じて言語処理モデルの性能が良くない場合の原因を絞り込むことができる。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許