TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2024130290
公報種別
公開特許公報(A)
公開日
2024-09-30
出願番号
2023039932
出願日
2023-03-14
発明の名称
データ生成装置及びデータ生成方法
出願人
学校法人日本大学
代理人
個人
,
個人
,
個人
主分類
G16H
50/00 20180101AFI20240920BHJP(特定の用途分野に特に適合した情報通信技術)
要約
【課題】敵対的生成ネットワークを用いて合成データを生成する際に合成データの性質を制御することを図る。
【解決手段】制御部は、実在データを用いて、実潜在変数から生成された合成データである再構成データの真偽を識別器により判定させ、当該判定結果により生成器及び符号化器を学習させ、実在データを用いて、非実潜在変数から生成された合成データの真偽を識別器により判定させ、当該判定結果により生成器及び符号化器を学習させ、実在データを用いて再構成データの真偽を識別器により判定させ、当該判定結果により識別器を学習させ、実在データを用いて合成データの真偽を判定させ、当該判定結果により識別器を学習させ、符号識別器により非実潜在変数を用いて実潜在変数の真偽を判定させ、当該判定の結果により符号識別器を学習させる。
【選択図】図1
特許請求の範囲
【請求項1】
敵対的生成ネットワークを用いて合成データを生成するデータ生成装置において、
入力潜在変数から合成データを生成する生成器と、
第2データを用いて第1データの真偽を判定する識別器と、
実在データから潜在変数である実潜在変数を生成する符号化器と、
前記実潜在変数とは異なる非実潜在変数を取得する非実潜在変数取得部と、
前記実潜在変数と前記非実潜在変数との類似度を判定する符号識別器と、
制御部と、を備え、
学習段階において、
前記制御部は、実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、
さらに、前記制御部は、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、
前記制御部は、実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、
さらに、前記制御部は、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、
前記制御部は、前記符号識別器により非実潜在変数を用いて実潜在変数の真偽を判定させ、当該判定の結果により符号識別器を学習させる、
データ生成装置。
続きを表示(約 1,600 文字)
【請求項2】
運用段階において、
前記制御部は、前記類似度に基づいて、非実潜在変数の中から実際に前記生成器に使用する入力潜在変数を選択し、
前記生成器は、当該選択された入力潜在変数から合成データを生成する、
請求項1に記載のデータ生成装置。
【請求項3】
前記実在データは、実在する人から取得された医療データである実在医療データであり、
前記生成器は、前記実在医療データから生成された前記実潜在変数から再構成される医療データである再構成医療データを生成し、
前記生成器は、前記非実潜在変数から新規の医療データである合成医療データを生成する、
請求項1又は2のいずれか1項に記載のデータ生成装置。
【請求項4】
敵対的生成ネットワークを用いて合成データを生成するデータ生成装置が実行するデータ生成方法であって、
前記データ生成装置は、
入力潜在変数から合成データを生成する生成器と、
第2データを用いて第1データの真偽を判定する識別器と、
実在データから潜在変数である実潜在変数を生成する符号化器と、
前記実潜在変数と前記実潜在変数とは異なる非実潜在変数との類似度を判定する符号識別器と、を備え、
前記データ生成方法は、
実在データから潜在変数である実潜在変数を生成する実潜在変数生成ステップと、
前記非実潜在変数を取得する非実潜在変数取得ステップと、
学習ステップと、を含み、
前記学習ステップにおいて、
実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、
さらに、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、
実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、
さらに、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、
前記符号識別器により非実潜在変数を用いて実潜在変数の真偽を判定させ、当該判定の結果により符号識別器を学習させる、
データ生成方法。
【請求項5】
運用段階において、
前記類似度に基づいて、非実潜在変数の中から実際に前記生成器に使用する入力潜在変数を選択するステップと、
前記生成器により、当該選択された入力潜在変数から合成データを生成するステップと、
をさらに含む請求項4に記載のデータ生成方法。
【請求項6】
前記実在データは、実在する人から取得された医療データである実在医療データであり、
前記生成器は、前記実在医療データから生成された前記実潜在変数から再構成される医療データである再構成医療データを生成し、
前記生成器は、前記非実潜在変数から新規の医療データである合成医療データを生成する、
請求項4又は5のいずれか1項に記載のデータ生成方法。
発明の詳細な説明
【技術分野】
【0001】
本発明は、データ生成装置及びデータ生成方法に関する。
続きを表示(約 3,200 文字)
【背景技術】
【0002】
従来、医薬品開発において例えば新薬の臨床試験を行う際に、試験条件に合致する患者が集まらず、予定症例数を満足することが難しい状況が発生していた。この対処の一例として医薬品開発の効率化を目的とする臨床試験シミュレーションでは、実際に観測されている被験者のデータからブートストラップリサンプリングや多変量正規分布などにより仮想被験者を生成している。一方、情報科学の分野では、深層学習等の機械学習技術により、医療データのようないわゆる表形式のデータを大量に学習し、似た性質を持つ合成データを生成する「Conditional Tabular Generative Adversarial Networks(CTGAN)」と呼ばれるデータ生成方法が提案されている(例えば、非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
Lei Xu et al., “Modeling Tabular Data using Conditional GAN”, NeurIPS2019, 2019.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、上述したブートストラップリサンプリングは、観測されている情報の再活用であるため、現実のデータが持つ相関構造といった性質を保持できるが、観測済みのデータしか生成できない。したがって、十分に観測されていない被験者を仮想的に生成することはできない。また多変量正規分布は、分布を仮定することで未観測のデータも新規に生成できるが、属性同士が線形に関係することに加え単峰性の分布を持つという、比較的強力な仮定があり、現実離れした属性を持つ被験者を生成し得る問題がある。
【0005】
また上述したCTGAN等のように、大量のデータを基に、潜在変数と呼ばれるノイズベクトルから合成データを生成する生成器を学習する敵対的生成ネットワーク(Generative Adversarial Networks:GAN)により、多様性に富む合成データを生成することが可能になりつつある。しかし、基になる潜在変数と生成される合成データとの間の関係性が不明であり、生成する合成データの性質を制御することが難しいという課題がある。
【0006】
本発明は、このような事情を考慮してなされたものであり、その目的は、敵対的生成ネットワークを用いて合成データを生成する際に合成データの性質を制御することができる、データ生成装置及びデータ生成方法を提供することを課題とする。
【課題を解決するための手段】
【0007】
本発明の一態様は、敵対的生成ネットワークを用いて合成データを生成するデータ生成装置において、入力潜在変数から合成データを生成する生成器と、第2データを用いて第1データの真偽を判定する識別器と、実在データから潜在変数である実潜在変数を生成する符号化器と、前記実潜在変数とは異なる非実潜在変数を取得する非実潜在変数取得部と、前記実潜在変数と前記非実潜在変数との類似度を判定する符号識別器と、制御部と、を備え、学習段階において、前記制御部は、実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、さらに、前記制御部は、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、前記制御部は、実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、さらに、前記制御部は、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、前記制御部は、前記符号識別器により非実潜在変数を用いて実潜在変数の真偽を判定させ、当該判定の結果により符号識別器を学習させる、データ生成装置である。
【0008】
本発明の一態様は、上記のデータ生成装置において、運用段階において、前記制御部は、前記類似度に基づいて、非実潜在変数の中から実際に前記生成器に使用する入力潜在変数を選択し、前記生成器は、当該選択された入力潜在変数から合成データを生成する、データ生成装置である。
【0009】
本発明の一態様は、上記のデータ生成装置において、前記実在データは、実在する人から取得された医療データである実在医療データであり、前記生成器は、前記実在医療データから生成された前記実潜在変数から再構成される医療データである再構成医療データを生成し、前記生成器は、前記非実潜在変数から新規の医療データである合成医療データを生成する、データ生成装置である。
【0010】
本発明の一態様は、敵対的生成ネットワークを用いて合成データを生成するデータ生成装置が実行するデータ生成方法であって、前記データ生成装置は、入力潜在変数から合成データを生成する生成器と、第2データを用いて第1データの真偽を判定する識別器と、実在データから潜在変数である実潜在変数を生成する符号化器と、前記実潜在変数と前記実潜在変数とは異なる非実潜在変数との類似度を判定する符号識別器と、を備え、前記データ生成方法は、実在データから潜在変数である実潜在変数を生成する実潜在変数生成ステップと、前記非実潜在変数を取得する非実潜在変数取得ステップと、学習ステップと、を含み、前記学習ステップにおいて、実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、さらに、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記生成器及び前記符号化器を学習させ、実在データを前記識別器の第2データに使用し、且つ実潜在変数を前記生成器に入力して前記生成器により生成された合成データである再構成データを前記識別器の第1データに使用して、前記識別器により再構成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、さらに、実在データを前記識別器の第2データに使用し、且つ非実潜在変数を前記生成器に入力して前記生成器により生成された合成データを前記識別器の第1データに使用して、前記識別器により合成データの真偽を判定させ、当該判定の結果により前記識別器を学習させ、前記符号識別器により非実潜在変数を用いて実潜在変数の真偽を判定させ、当該判定の結果により符号識別器を学習させる、データ生成方法である。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
株式会社エイアンドティー
投与薬剤の検出方法、並びにそのプログラム、及び装置
23日前
個人
N式トータルシステム
4か月前
個人
情報システムおよび方法
2日前
エムスリー株式会社
媒体
1か月前
富士通株式会社
リスクと診断
5か月前
株式会社M-INT
情報処理システム
4か月前
株式会社タカゾノ
作業時間計測システム
4か月前
医療法人社団梅華会
医療の支援装置
2か月前
大王製紙株式会社
作業管理システム
2日前
富士電機株式会社
食事管理システム
22日前
株式会社Smart119
情報処理システム
5か月前
株式会社日立製作所
情報システム
3か月前
株式会社サンクスネット
リスク判定システム
2か月前
個人
透析医療に関する回答方法及びその装置
2か月前
個人
弾塑性有限要素法におけるデータ同化の演算方法
4か月前
アルケア株式会社
コミュニケーションシステム
2か月前
株式会社JVCケンウッド
表示装置及び表示方法
2か月前
株式会社グローバルビジョン
検体検査管理システム
2か月前
公立大学法人大阪
診断装置
1か月前
株式会社メディファーム
代替候補品目付き相互作用禁忌DB
9日前
個人
服薬指導支援システム、及び、服薬指導支援方法
2か月前
公益財団法人がん研究会
画像診断報告書作成システム
4か月前
トヨタ自動車株式会社
情報処理装置
3か月前
トヨタ自動車株式会社
情報処理装置
3か月前
ロゴスサイエンス株式会社
ヘルスケアシステムおよびその方法
3か月前
富士通株式会社
敗血症の診断および予測
24日前
株式会社バシラックス
零売サービス提供システム
4か月前
株式会社AIVICK
食品提供装置及びプログラム
4か月前
JFEスチール株式会社
禁煙支援方法
23日前
個人
プログラムおよび情報処理装置
4か月前
株式会社ベーシック
遠隔医療支援システム及びプログラム
1か月前
国立大学法人千葉大学
センサシステム
29日前
大和ハウス工業株式会社
消費カロリー推定システム
2か月前
TOTO株式会社
排泄情報処理装置、プログラム及びシステム
23日前
TOTO株式会社
排泄情報処理装置、プログラム及びシステム
23日前
株式会社メドレー
プログラム、システム及び方法
2か月前
続きを見る
他の特許を見る