特許ウォッチ

公開番号2025006956
公報種別公開特許公報(A)
公開日2025-01-17
出願番号2023108028
出願日2023-06-30
発明の名称学習予測装置、学習予測方法および学習予測プログラム
出願人国立大学法人九州大学,学校法人杏林学園,キヤノンメディカルシステムズ株式会社
代理人弁理士法人鈴榮特許綜合事務所
主分類G06N 20/00 20190101AFI20250109BHJP(計算;計数)
要約【課題】モデルの訓練を支援すること。
【解決手段】本実施形態に係る学習予測装置は、算出部と、判定部と、出力部とを含む。算出部は、機械学習モデルを特徴づける多次元データと前記多次元データに関連する関連データとを算出する。判定部は、前記多次元データおよび前記関連データが所定の基準に適合するか否かに基づき、データセットによる前記機械学習モデルの学習状況の判定を支援する支援情報を生成する。出力部は、前記支援情報を出力する。
【選択図】図1

特許請求の範囲【請求項１】
機械学習モデルを特徴づける多次元データと前記多次元データに関連する関連データとを算出する算出部と、
前記多次元データおよび前記関連データが所定の基準に適合するか否かに基づき、データセットによる前記機械学習モデルの学習状況の判定を支援する支援情報を生成する判定部と、
前記支援情報を出力する出力部と、
を具備する学習予測装置。
続きを表示（約 1,100 文字）【請求項２】
前記出力部は、前記多次元データおよび前記支援情報をＧＵＩ（Graphical User Interface）上に表示する、請求項１に記載の学習予測装置。
【請求項３】
ユーザから前記機械学習モデルの訓練を実行するためのフレームワーク種別の選択結果を取得する取得部をさらに具備する、請求項１に記載の学習予測装置。
【請求項４】
前記出力部は、前記フレームワークに対するプラグインコードの作成ボタンが配置されるＧＵＩ（Graphical User Interface）を表示し、
前記取得部は、前記作成ボタンが押下されることにより、ユーザからの作成指示を取得し、
前記算出部は、前記作成指示の取得に応じて、前記機械学習モデルの訓練に関する前記プラグインコードを作成する、請求項３に記載の学習予測装置。
【請求項５】
データセットおよび損失関数を用いて、機械学習モデルを訓練する訓練部と、
前記機械学習モデルを特徴づける多次元データと前記多次元データに関連する関連データとを算出する算出部と、
前記多次元データおよび前記関連データが所定の基準に適合するか否かに基づき、前記データセットによる前記機械学習モデルの学習状況を判定する判定部と、
を具備する学習予測装置。
【請求項６】
前記多次元データは、前記機械学習モデルの訓練において利用される損失関数の変化率を特徴づける行列の前記データセットに関する固有値集合であり、
前記関連データは、前記固有値集合に関する境界値である、請求項１または請求項５に記載の学習予測装置。
【請求項７】
前記判定部は、前記固有値集合のうちの前記境界値以上の値を有する１以上の固有値が前記所定の基準に適合する場合、前記データセットによる訓練で十分であると判定する、請求項６に記載の学習予測装置。
【請求項８】
前記判定部は、前記境界値以上の値を有する前記１以上の固有値が前記所定の基準に適合しない場合、前記データセットによる訓練では不十分であると判定する、請求項６に記載の学習予測装置。
【請求項９】
前記所定の基準は、前記境界値以上の値を有する前記１以上の固有値の数が閾値以上である、請求項６に記載の学習予測装置。
【請求項１０】
前記データセットによる訓練では不十分であると判定された場合、データの追加取得が必要である旨を出力する出力部をさらに具備する、請求項８に記載の学習予測装置。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本明細書及び図面に開示の実施形態は、学習予測装置、学習予測方法および学習予測プログラムに関する。
続きを表示（約 2,600 文字）【背景技術】
【０００２】
機械学習では、学習性能を予測したいニーズがある。学習性能の予測としては、一例として汎化誤差を推定して汎化性能を判定できればよく、推定すべきパラメータの数に対して入力データ数が十分に多い場合は、例えば古典的な統計学における中心極限定理に基づき汎化誤差（汎化性能）の推定は可能となる。しかし、深層ニューラルネットワークなどの一般的な機械学習モデルでは、推定すべきパラメータ数に対して入力データ数が大幅に少ないことが多いため、古典的な統計学に基づく推定をそのまま適用できない。そのため、十分な学習データを収集できない場合、汎化誤差の推定は難しく、例えばモデルの学習において追加の学習データがどれくらい必要であるかを見積もることが難しい。
また、仮に数学的にこの見積もりがなしえたとしても、それをユーザが理解できなければ追加の学習データを集める実作業を進めることは難しい。
【先行技術文献】
【非特許文献】
【０００３】
Z.Liao et al., “Approximate Fisher Information Matrix to Characterize the Training of Deep Neural Networks”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 42, no. 1, pp. 15-26, 2020.
Y. Takeishi, et al., “Approximate Spectral Decomposition of Fisher Information Matrix for Simple ReLU Networks” [Online], 2021年11月30日,[2023年5月16日検索]、インターネット<URL:https://arxiv.org/pdf/2111.15256>
Jacot et al., “Neural Tangent Kernel: Convergence and Generalization in Neural Networks” [Online], 2020年2月10日,[2023年5月24日検索］、インターネット＜URL:https://arxiv.org/pdf/1806.07572>
Hidenori Takeshima, “Deep Learning and Its Application to Function Approximation for MR in Medicine: An Overview”、［Online］、2021年9月17日、Magnetic Resonance in Medical Sciences、[2023年4月24日検索］、インターネット＜URL:https://doi.org/10.2463/mrms.rev.2021-0040＞
【発明の概要】
【発明が解決しようとする課題】
【０００４】
本明細書及び図面に開示の実施形態が解決しようとする課題の一つは、モデルの訓練を支援するための情報をユーザが理解しやすい形で提示すること、およびその裏付けとなる数学的根拠を確立させることである。ただし、本明細書及び図面に開示の実施形態により解決しようとする課題は上記課題に限られない。後述する実施形態に示す各構成による各効果に対応する課題を他の課題として位置づけることもできる。
【課題を解決するための手段】
【０００５】
本実施形態に係る学習予測装置は、算出部と、判定部と、出力部とを含む。算出部は、機械学習モデルを特徴づける多次元データと前記多次元データに関連する関連データとを算出する。判定部は、前記多次元データおよび前記関連データが所定の基準に適合するか否かに基づき、データセットによる前記機械学習モデルの学習状況の判定を支援する支援情報を生成する。出力部は、前記支援情報を出力する。
【図面の簡単な説明】
【０００６】
図１は、本実施形態に係る学習予測装置を示すブロック図である。
図２は、本実施形態に係る学習予測装置の動作の一例を示すフローチャートである。
図３は、本実施形態に係る学習予測装置の操作および出力に関するグラフィカルユーザインタフェース（ＧＵＩ）の一例を示す図である。
図４は、学習予測装置の訓練処理の詳細を示すフローチャートである。
図５は、本実施形態に係る固有値分布の第１例を示す図である。
図６は、本実施形態に係る固有値分布の第２例を示す図である。
【発明を実施するための形態】
【０００７】
以下、図面を参照しながら本実施形態に係る学習予測装置、学習予測方法および学習予測プログラムについて説明する。以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。以下、一実施形態について図面を用いて説明する。
【０００８】
本実施形態に係る学習予測装置について図１のブロック図を参照して説明する。
本実施形態に係る学習予測装置１は、処理回路１０と、メモリ１１と、入力インタフェース１２と、通信インタフェース１３と、ディスプレイ１４とを含む。
【０００９】
処理回路１０は、取得機能１０１と、訓練機能１０２と、算出機能１０３と、判定機能１０４と、出力機能１０５とを含む。
【００１０】
取得機能１０１は、ユーザからの入力情報を取得する。また、取得機能１０１は、データセットおよび機械学習モデルを取得する。データセットは、訓練データとなるデータであり、例えば医用画像を想定する。なお、医用画像に限らず、他の２次元データでもよいし、音声データ、センサデータなどの１次元データであってもよい。機械学習モデルは、多層パーセプトロン、畳み込みニューラルネットワーク、ＲｅｓＮｅｔ、ＤｅｎｓｅＮｅｔなどのショートカット構造を有するニューラルネットワークなど機械学習分野で用いられるどのようなネットワーク構造でもよい。
（【００１１】以降は省略されています）

関連特許