特許ウォッチ

公開番号2024163549
公報種別公開特許公報(A)
公開日2024-11-22
出願番号2023079271
出願日2023-05-12
発明の名称情報処理デバイス、情報処理システムおよび情報処理方法
出願人株式会社日立製作所
代理人弁理士法人第一国際特許事務所
主分類G06N 20/00 20190101AFI20241115BHJP(計算;計数)
要約【課題】小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成する情報処理デバイスを提供する。
【解決手段】情報処理デバイスは、オリジナルデータセットについての分析結果を生成し、分散閾値に達する第1の分析結果と関連付けられたオリジナルデータセットの内から主体(患者や機械部品など)の第1のセットを識別する分散分析ユニットと、主体の第1のセットをオリジナルデータパーティションに分割し、コピー済みデータパーティションを生成するパーティションユニットと、改変済みコピーデータパーティションを生成する改変ユニットと、オリジナルデータパーティション及び改変済みコピーデータパーティションを使用して機械学習モデルを訓練し、その機械学習モデルを使用して第2の分析結果を生成し、各分析結果を集約することで最終分析結果を生成する結果生成ユニットと、を含む。
【選択図】図2
特許請求の範囲【請求項１】
プロセッサと、
前記プロセッサによって実行可能なコンピュータ実施可能命令を含むメモリと、
を備える情報処理デバイスであって、
前記コンピュータ実施可能命令は、前記プロセッサに、
機械学習モデルの第１のセットを用いてオリジナルデータセットを処理することによって、分析結果のセットを生成することと、
分析結果の前記セットに基づいて、分散閾値に達する第１の分析結果と関連付けられた主体の第１のセットを含む前記オリジナルデータセットの高分散サブセットを識別することと、
を行うように構成される分散分析ユニットと、
前記高分散サブセットの主体の前記第１のセットを第１のデータパーティションおよび第２のデータパーティションに分割することと、
前記第１のデータパーティションのコピーである第３のデータパーティションと、前記第２のデータパーティションのコピーである第４のデータパーティションとを生成することと、
を行うように構成されるパーティションユニットと、
前記第３のデータパーティションを改変することによって改変済み第３のデータパーティション、および前記第４のデータパーティションを改変することによって改変済み第４のデータパーティションを生成することを行うように構成される改変ユニットと、
前記第１のデータパーティション、前記第２のデータパーティション、前記改変済み第３のデータパーティション、および前記改変済み第４のデータパーティションを使用して、機械学習モデルの第２のセットを訓練することと、
機械学習モデルの前記第２のセットを用いて前記オリジナルデータセットを処理することによって、第２の分析結果を生成することと、
前記第１の分析結果と前記第２の分析結果とを集約して分類することによって前記高分散サブセットの主体の前記第１のセットについての最終分析結果を生成することと、
を行うように構成される結果生成ユニットと、
として機能させる、情報処理デバイス。
続きを表示（約 3,400 文字）【請求項２】
前記改変ユニットは、
ノイズレベル基準に基づいて、第１のノイズ量を前記第３のデータパーティションの特徴の第３のセットに付加することによって前記改変済み第３のデータパーティションを生成することと、
前記ノイズレベル基準に基づいて、第２のノイズ量を前記第４のデータパーティションの特徴の第４のセットに付加することによって前記改変済み第４のデータパーティションを生成することと、
を行うように構成される、請求項１に記載の情報処理デバイス。
【請求項３】
前記改変ユニットは、
機械学習モデルの前記第２のセットを使用して、増加するノイズ量が付加された改変済みサンプルデータセットを繰り返し処理することによって、サンプル予測結果のセットを生成することと、
サンプル予測結果の前記セットから、所定の正確率閾値を満たすサンプル予測結果のサブセットを識別することと、
前記ノイズレベル基準として、前記所定の正確率閾値を満たすサンプル予測結果の前記サブセットと関連付けられた前記改変済みサンプルデータセットに対して付加された最大ノイズ量を決定することと、
を行うように構成される、請求項２に記載の情報処理デバイス。
【請求項４】
前記パーティションユニットは、
前記第１の分析結果を、前記オリジナルデータセットについてのグラウンドトゥルース結果に対して比較することによって前記第１の分析結果の正確率を評価することと、
真陽性結果と関連付けられた主体の前記第１のセットの第１のサブセットを前記第１のデータパーティションに分割することと、
偽陽性結果と関連付けられた主体の前記第１のセットの第２のサブセットを前記第２のデータパーティションに分割することと、
を行うように構成される、請求項１に記載の情報処理デバイス。
【請求項５】
前記改変済み第３のデータパーティションおよび前記改変済み第４のデータパーティションに対して真陽性または偽陽性のアウトカムラベルを割り当てるためのラベル付けユニット
をさらに備える、請求項１に記載の情報処理デバイス。
【請求項６】
前記ラベル付けユニットは、
前記第１のデータパーティションの主体の第１のサブセットと前記改変済み第３のデータパーティションの主体の第３のサブセットとの間の第１の類似度を計算し、
前記第１の類似度が類似度閾値に達する場合、真陽性結果ラベルを主体の前記第３のサブセットに割り当て、
前記第１の類似度が類似度閾値に達しない場合、偽陽性結果ラベルを主体の前記第３のサブセットに割り当て、
前記第２のデータパーティションの主体の第２のサブセットと前記改変済み第４のデータパーティションの主体の第４のサブセットとの間の第２の類似度を計算し、
前記第２の類似度が類似度閾値に達する場合、偽陽性結果ラベルを主体の前記第４のサブセットに割り当て、
前記第２の類似度が類似度閾値に達しない場合、真陽性結果ラベルを主体の前記第４のサブセットに割り当てる、
請求項５に記載の情報処理デバイス。
【請求項７】
情報処理デバイスと、
ユーザ端末と、
を備える情報処理システムであって、
前記情報処理デバイスは、
プロセッサと、
前記プロセッサによって実行可能なコンピュータ実施可能命令を含むメモリとを含み、前記コンピュータ実施可能命令は、前記プロセッサに、
機械学習モデルの第１のセットを用いてオリジナルデータセットを処理することによって、分析結果のセットを生成することと、
分析結果の前記セットに基づいて、分散閾値に達する第１の分析結果と関連付けられた主体の第１のセットを含む前記オリジナルデータセットの高分散サブセットを識別することと、
を行うように構成される分散分析ユニットと、
前記高分散サブセットの主体の前記第１のセットを第１のデータパーティションおよび第２のデータパーティションに分割することと、
前記第１のデータパーティションのコピーである第３のデータパーティションと、前記第２のデータパーティションのコピーである第４のデータパーティションとを生成することと、
を行うように構成されるパーティションユニットと、
前記第３のデータパーティションを改変することによって改変済み第３のデータパーティション、および前記第４のデータパーティションを改変することによって改変済み第４のデータパーティションを生成することを行うように構成される改変ユニットと、
前記第１のデータパーティション、前記第２のデータパーティション、前記改変済み第３のデータパーティション、および前記改変済み第４のデータパーティションを使用して、機械学習モデルの第２のセットを訓練することと、
機械学習モデルの前記第２のセットを用いて前記オリジナルデータセットを処理することによって、第２の分析結果を生成することと、
前記第１の分析結果と前記第２の分析結果とを集約して分類することによって前記高分散サブセットの主体の前記第１のセットについての最終分析結果を生成することと、
前記最終分析結果を前記ユーザ端末に出力することと、
を行うように構成される結果生成ユニットと、
として機能させる、情報処理システム。
【請求項８】
コンピュータによって実行される情報処理方法であって、前記情報処理方法は、
機械学習モデルの第１のセットを用いてオリジナルデータセットを処理することによって、分析結果のセットを生成するステップと、
分析結果の前記セットに基づいて、分散閾値に達する第１の分析結果と関連付けられた主体の第１のセットを含む前記オリジナルデータセットの高分散サブセットを識別するステップと、
前記高分散サブセットの主体の前記第１のセットを第１のデータパーティションおよび第２のデータパーティションに分割するステップと、
前記第１のデータパーティションのコピーである第３のデータパーティションと、前記第２のデータパーティションのコピーである第４のデータパーティションとを生成するステップと、
機械学習モデルのテストセットを使用して、増加するノイズ量が付加された改変済みサンプルデータセットを繰り返し処理することによって、サンプル予測結果のセットを生成するステップと、
サンプル予測結果の前記セットから、所定の正確率閾値を満たすサンプル予測結果のサブセットを識別するステップと、
ノイズレベル基準として、前記所定の正確率閾値を満たすサンプル予測結果の前記サブセットと関連付けられた前記改変済みサンプルデータセットに対して付加された最大ノイズ量を決定するステップと、
前記ノイズレベル基準に基づいて、第１のノイズ量を前記第３のデータパーティションの特徴の第３のセットに付加することによって改変済み第３のデータパーティションを生成するステップと、
前記ノイズレベル基準に基づいて、第２のノイズ量を前記第４のデータパーティションの特徴の第４のセットに付加することによって改変済み第４のデータパーティションを生成するステップと、
前記第１のデータパーティション、前記第２のデータパーティション、前記改変済み第３のデータパーティション、および前記改変済み第４のデータパーティションを使用して、機械学習モデルの第２のセットを訓練するステップと、
機械学習モデルの前記第２のセットを用いて前記オリジナルデータセットを処理することによって、第２の分析結果を生成するステップと、
前記第１の分析結果と前記第２の分析結果とを集約して分類することによって前記高分散サブセットの主体の前記第１のセットについての最終分析結果を生成するステップと、
を含む情報処理方法。

発明の詳細な説明【技術分野】
【０００１】
本開示は、情報処理デバイス、情報処理方法、および情報処理システムに関する。
続きを表示（約 2,400 文字）【背景技術】
【０００２】
近年、機械学習技術は、幅広い分野への適用のために開発されている。機械学習では、既知のケースに基づく訓練データがコンピュータに入力される。コンピュータは、訓練データを解析して、因子（説明変数または独立変数と呼ばれる場合がある）とアウトカム（目的変数または従属変数と呼ばれる場合がある）との間の関係を汎化するモデルを学習する。このモデルは、次いで、未知のケースに対する結果を予測するために使用され得る。一例として、類似患者についての過去の医学的介入履歴および患者特性を含むデータに基づいて異なる医学的介入を受ける患者の生存性を予測するモデルを生成することが可能である。
【０００３】
従来、機械学習技術の性能を改善する技法が考えられてきた。
例えば、特許文献１は、「改訂されたサポートベクタマシン（ＳＶＭ）クラシファイアは、音声認識システムのキーワードスポッティングコンポーネントからの出力に基づいて真のキーワードと偽陽性とを区別するように提供される。ＳＶＭは、特徴次元の縮小セットに対して動作し、この特徴次元は、真のキーワードと偽陽性とを区別するそれらの能力に基づいて選択される。さらに、サポートベクタ対は、再重みづけサポートベクタの縮小セットを作成するために統合される。これらの技法は、結果として、縮小されたコンピューティングリソースを使用して動作され得るＳＶＭをもたらし、したがってシステム性能を向上させる」という技法を開示している。
【先行技術文献】
【特許文献】
【０００４】
米国特許第９６００２３１号明細書
【発明の概要】
【発明が解決しようとする課題】
【０００５】
機械学習では、生成されたモデルの正確性、すなわち未知のケースの結果を正確に予測する能力（予測性能と呼ばれる場合がある）が高いことが好ましい。因子間の関係を汎化するモデルのデータセットにおける学習可能な情報コンテンツの増加に伴って、予測性能は高まるが、比較的大きなサンプルサイズを用いて実現可能な場合が多い。従来、小さいサンプルサイズに基づくデータセットは、それぞれの結果がアウトカムおいて大きなばらつきを有するなど、予測性能の低下につながり得る。異なるアウトカム間の高分散に起因して、そのような結果は信頼性が低い場合があり、結論または洞察を引き出すには適していない。
【０００６】
特許文献１は、キーワード認識のためにＳＶＭクラシファイアを使用するための技法を提案する。より詳しくは、特許文献１の技法は、コンピューティングリソースが限られた環境におけるＳＶＭの動作を容易にするために、特徴セットのサイズを減少させることに関する。しかしながら、特許文献１は、小さいサンプルサイズを有するデータセットにおける機械学習モデルの予測性能を改善することには関しない。
【０００７】
したがって、本開示の目的は、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成するための情報処理技法を提供することである。
【課題を解決するための手段】
【０００８】
本開示の代表的な一例は、プロセッサと、プロセッサによって実行可能なコンピュータ実施可能命令を含むメモリとを含む情報処理デバイスであって、命令は、プロセッサに、機械学習モデルの第１のセットを用いてオリジナルデータセットを処理することによって、分析結果のセットを生成することと、分析結果のセットに基づいて、分散閾値に達する第１の分析結果と関連付けられた主体(例えば、患者や機械部品など)の第１のセットを含むオリジナルデータセットの高分散サブセットを識別することと、を行うように構成される分散分析ユニットと、高分散サブセットの主体の第１のセットを第１のデータパーティションおよび第２のデータパーティションに分割することと、第１のデータパーティションのコピーである第３のデータパーティションと、第２のデータパーティションのコピーである第４のデータパーティションとを生成することと、を行うように構成されるパーティションユニットと、第３のデータパーティションを改変する（例えば、ノイズを付加する）ことによって改変済み第３のデータパーティション、および第４のデータパーティションを改変することによって改変済み第４のデータパーティションを生成することを行うように構成される改変ユニットと、第１のデータパーティション、第２のデータパーティション、改変済み第３のデータパーティション、および改変済み第４のデータパーティションを使用して、機械学習モデルの第２のセットを訓練することと、機械学習モデルの第２のセットを用いてオリジナルデータセットを処理することによって、第２の分析結果を生成することと、第１の分析結果と第２の分析結果とを集約して分類することによって高分散サブセットの主体の第１のセットについての最終分析結果を生成することと、を行うように構成される結果生成ユニットと、として機能させる、情報処理デバイスに関する。
【発明の効果】
【０００９】
本開示によれば、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成するための情報処理技法を提供することが可能である。
【００１０】
上述した以外の問題、構成、および効果は、本発明を実行するための実施形態における以下の記載によって明確となるであろう。
【図面の簡単な説明】
（【００１１】以降は省略されています）

関連特許