TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025114687
公報種別公開特許公報(A)
公開日2025-08-05
出願番号2025076385,2023115922
出願日2025-05-01,2018-06-19
発明の名称統合算出および実験的深層変異学習フレームワークを介した遺伝子およびゲノム変異体の解釈
出願人インビタエ コーポレイション
代理人個人,個人,個人,個人,個人
主分類G16B 20/00 20190101AFI20250729BHJP(特定の用途分野に特に適合した情報通信技術)
要約【課題】生体試料内で識別された分子変異体の表現型影響を判定するための、システム、方法、およびコンピュータプログラム製品を提供する。
【解決手段】方法は、モデルシステム内の機能要素に関連付けられた分子変異体を受容することと、モデルシステムに関連付けられた分子スコアを判定することと、分子スコアに基づいて分子変異体に関連付けられた分子シグナルおよび集団シグナルを判定することと、統計学習に基づいて分子変異体に関する機能スコアを判定することと、機能スコアに基づいて分子変異体のエビデンススコアを導出することと、機能スコアまたはエビデンススコアに基づいて分子変異体の表現型影響を判定することと、を実行する。
【選択図】図1A
特許請求の範囲【請求項1】
明細書に記載の発明。

発明の詳細な説明【技術分野】
【0001】
タンパク質コード化遺伝子、非コード化遺伝子、および調整要素などのゲノム機能要素内の遺伝子型(例えば、配列)変異体の影響を理解することは、多種多様な生命科学の応用に重要である。今日では、疾患関連遺伝子のほぼ半数が、既知の臨床的意義がある変異体よりも多数の、母集団において特徴付けられていない変異体を含有する。これは、遺伝子およびゲノム配列を評価する診断およびスクリーニング検査の両方にとって、大きな課題をもたらす(Landrum et al.2015;Lek et al.2016)。未知の臨床的意義がある多数の新規変異体は、(例えば、集団における生殖細胞系列および体細胞変異体に関する)ほぼすべての遺伝子の特徴であり、最も頻繁に検査された遺伝子にさえ影響する。例えば、がん素因変異に関する遺伝子パネルを評価する検査は、既知の疾患原因変異体ごとに95もの数の特徴付けられていない変異体の発見を報告する(Maxwell et al.2016)。このように、遺伝子型変異体の表現型(例えば、細胞、生物、臨床、または他の)結果の予測は、多種多様な臨床現場において、遺伝子およびゲノム情報を活用する上での難関である。
続きを表示(約 9,400 文字)【0002】
遺伝子符号化された機能要素内の遺伝子型(例えば、配列)変異体は、多様な生物物理学的処理に影響し、各要素内の異なる分子機能を変更し、変化した臨床および非臨床表現型をもたらし得る。例えば、確立された腫瘍抑制タンパク質コード化遺伝子において、ホスファターゼ・テンシン・ホモログ(PTEN)、転写に影響する遺伝子型変異体(f.g.-903G>A、-975G>C、および-1026C>A)、タンパク質安定性(f.g.C136R)、ホスファターゼ触媒活性(f.g.C124S、H93R)、および基質認識(f.g.G129E)はすべて、乳がん、甲状腺がん、子宮内膜がん、腎臓がん、大腸がんおよびメラノーマのリスクを示し、カウデン症候群(CS)に関連付けられている(Heikkinen et al.2011;He et al.2013;Myers et al.1997;Myers et al.1998)。同じ生物物理学的処理および分子機能に影響する変異体は、自閉症スペクトラム障害(ASD)にさらに含有される(Johnston and Raines 2015)、ホスファターゼ活性に影響するPTEN変異体(例えば、H93R)に例示される異なる障害間の共存症につながり、ASDとがんとの間の常習的な共存症につながり得る(Markkanen et al.2016)。また、機能要素内の異なる生物物理学的処理および分子メカニズムに影響する変異体は、常同的な、分化した臨床および非臨床表現型を示し得る。ラミナA/C 遺伝子(LMNA)における変異は、A-EDMD(常染色体エメリ・ドレフュス型筋ジストロフィー)、DCM(拡張型心筋症)、LGMD1B(肢帯型筋ジストロフィー1B)、L-CMD(LMNA関連先天性筋ジストロフィー)、FPLD2(家族性部分型リポジストロフィー2)、HGPS(ハッチンソン・ギルフォード・プロジェリア症候群)、非典型的WRN(ウェルナー症候群)、MAD(下顎骨異形成)and CMT2B(シャルコー・マリー・トゥース障害2B型)を含む、「ラミノパチー」と総称される15を上回る疾患の概要を引き起こす(Scharner et al.2010)。LMNAにおいて、HGPSにつながる遺伝子型(例えば、配列)変異体は、ラミンA特異エクソン11において潜在的なスプライス部位ドナーを生成し、それによってラミンAの切断型がもたらされる一方で、FPLD2をもたらす変異体は、Ig様領域の表面電荷を変更し、変異タンパク質の結晶構造を変化させない(Scharner et al.2010)。このように、多種多様な変異体型、機能要素、および分子システムに渡る遺伝子型表現型関係ならびに細胞効果の複雑性を低減することは、依然として、臨床および非臨床遺伝子およびゲノム検査において発見される変異体の表現型結果の強固で、拡張性のある解釈にとっての課題である。
【0003】
実際に、遺伝子型(例えば、配列)変異体の意義の査定は、複雑かつ困難な作業であり得る。つい2015年までは、変異体分類の調査により、17%(例えば、2,229/12,895)もの数の変異体分類が分類提出者間で一致しないことが示されていた(Rehm et al.2015)。臨床検査研究所間では、解釈の一致が34%と低いことが測定されているが、特定の提案により、研究所間の一致は71%に増大し得る(Amendola et al.2016)。
【0004】
市場の(例えば、NCBI遺伝子検査レジストリによる)遺伝子検査によって5,300を上回る遺伝子が評価されているため、多岐に渡る遺伝子、疾患、およびコンテキスト(例えば、臨床および非臨床)における遺伝子型(例えば、配列)変異体の解釈(例えば、分類)のための拡張性のある解決法が、精密な医学および生命科学産業にとって重要である。14,000,000を上回る潜在的な(例えば、固有の)分子変異体が、臨床検査市場において、一塩基変異体(SNV)に対応する分子変異体の部分集合内に、コード化配列の部分集合内に、また、タンパク質コード化遺伝子の部分集合内にあるため、分子変異体分類のための効果的な解決法は、強固かつ拡張性がある必要がある。
【0005】
ファミリー区分、機能測定、および症例対象研究を含むがそれに限定されない分子変異体の表現型影響の識別に関して、複数の戦略が存在するが、現在のところ、算出変異体影響予測因子のみが、必要な規模でサポートを行うエビデンスを提示することが可能である。実際に、米国臨床遺伝・ゲノム学会(ACMG)および分子病理学協会(AMP)からの臨床変異体解釈のための合同ガイドラインに従う当業者からの臨床変異体分類の分析は、臨床変異体分類の50%までが算出変異体影響予測因子の利用に依拠することを示す。しかし、それらの広い利用にも関わらず、ベンチマーク研究は、SIFT、PolyPhen(v2)、GERP++、Condel、CADD、REVEL他などの算出変異影響予測アルゴリズムの性能が0.52~0.75の範囲の精度(AUC)で、顕著に低いことを示す(Mahmood et al.2017)。
【0006】
分子機能の直接測定は、遺伝子型(例えば、配列)変異体の臨床および非臨床影響の正確な解釈に対する基準を提供してもよい(Shendure and Fields 2016;Araya and Fowler 2011)。今日まで、多種多様な分子機能への変異体の影響を直接査定するために、測定の多様なスペクトラムが考案されている。しかし、既存の方法には、分子機能を定義して測定するために調査されている臨床(および非臨床)表現型に関連付けられた変異体の作用のメカニズムの先験的知識または仮定が必要である(Shendure and Fields 2016)。これらの方法はしばしば、測定された特定の分子機能に影響する変異体のみの効果を得、また、それを通知することに限定されて、大規模で測定され得る変異体の型、分子機能の型、および機能要素の型、ならびに遺伝子の限定を課す。このように、例えばホスファターゼ測定は、PTEN腫瘍抑制因子の触媒活性に影響する変異体に関する潜在的な疾患関連性を指定し(例えば、含み)得るが、タンパク質安定性に影響する変異体は触媒活性における観測可能な欠陥なしに疾患を患うリスクを増大させる可能性があるため、このような測定は、これらの変異体に関する潜在的な疾患関連性を除外する(例えば、排する)ことが不可能である可能性がある。反対に、例えばタンパク質安定性測定は、PTEN腫瘍抑制因子における安定性欠陥につながる変異体に関する潜在的な疾患関連性を指定し(例えば、含み)得るが、このような測定は、触媒活性に影響する変異体に関する潜在的な疾患関連性を除外する(例えば、排する)ことが不可能である可能性がある。作用(したがって測定するための関連する分子機能)のメカニズムの先験的知識または仮定の潜在的な必要性は、十分に特徴付けられた機能要素(例えば、遺伝子)および表現型にこれらの方法の応用を限定する可能性があり、それにより、よく理解されていない疾患関連遺伝子へのそれらの応用が妨げられる可能性がある。
【0007】
ハイスループットDNA配列プラットフォームの技術的基盤を基礎とし、深層変異スキャニング(DMS)、HITS-KIN、RNAマップ他などの近年開発された大規模機能測定は、コード化、非コード化、および調整要素における一塩基変異体(SNV)および非同義変異体(NSV、ミスセンス変異体)を含む異なる配列クラスの、包括的な、またはほぼ包括的な範囲の潜在的な配列変異体を可能にしている(Fowler et al.2010;Araya et al.2012;Guenther et al.2013;Buenrostro et al.2014;Kelsic et al.2016;Patwardhan et al.2009)。このような方法は、リポジストロフィーならびに、PPARGにおける変異体を有する患者の2型糖尿病(T2D)の増大したリスク、またはBRCA1における変異体を有する患者の乳がんおよび卵巣がんの増大したリスクなどの臨床表現型を含む患者の表現型への遺伝子型(例えば、配列)変異体などの分子変異体の影響の強固な、統計学的に検証された解釈の基準となってもよい(Starita et al.2015;Majithia et al.2016)。このような方法は、臨床および非臨床検査現場において強固な変異体解釈を提供してもよいが、これらの方法には、各分子機能および各機能要素を測定するために、大幅な開発およびカスタマイゼーションが必要となる可能性がある。これにより、変異体、生物物理学的処理、分子機能、機能要素、遺伝子、および最終的には、パスウェイの多様な型に渡って、遺伝子型(例えば、配列)変異体などの分子変異体の臨床および非臨床結果を系統的に査定するための汎化可能な、拡張性のある解決法として、それらの利用が限定されてもよい。このように、変異体影響査定のために多機能プラットフォームおよび方法が必要である。
【0008】
添付図面は本明細書に組み込まれ、本明細書の一部を形成する。
本発明は、例えば、以下の項目を提供する。
(項目1)
生体試料内で識別された分子変異体の表現型影響を判定するためのコンピュータ実装方法であって、
モデルシステム内の、1つ以上の機能要素に関連付けられた分子変異体を受容することであって、前記モデルシステムが単一細胞、細胞コンパートメント、細胞内コンパートメント、または合成コンパートメントを含む、受容することと、
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの分子スコアまたは表現型スコアを判定することと、
特定の分子変異体を含有する前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの前記それぞれの分子スコアまたは表現型スコアに基づいて、前記分子変異体に関連付けられた分子シグナルまたは表現型シグナルを判定することと、
特定の分子変異体を含有する前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントの前記分子スコアまたは表現型スコアに基づいて、前記分子変異体に関連付けられた集団シグナルを判定することと、
統計学習に基づいて前記分子変異体に関する機能スコアまたは機能分類を判定することであって、前記統計学習が、分子変異体の前記分子シグナル、前記表現型シグナル、または前記集団シグナルを前記分子変異体の表現型影響に関連付ける、判定することと、
前記機能スコアもしくは機能分類、前記機能スコアもしくは機能分類のモデリング、予測因子スコアもしくは予測因子分類のモデリング、またはホットスポットスコアもしくはホットスポット分類のモデリングに基づいて、前記分子変異体のエビデンススコアまたはエビデンス分類を導出することと、
前記機能スコア、前記機能分類、前記エビデンススコア、または前記エビデンス分類に基づいて、前記分子変異体の前記表現型影響を判定することと、を含む、方法。
(項目2)
前記エビデンススコアまたは前記エビデンス分類が、1つ以上の機能要素における前記分子変異体からの前記分子シグナル、前記表現型シグナル、または前記集団シグナルに基づいて判定される、項目1に記載の方法。
(項目3)
前記エビデンススコアまたはエビデンス分類が、前記機能スコアもしくは機能分類、前記予測因子スコアもしくは予測因子分類、または前記ホットスポットスコアもしくはホットスポット分類から導出される、項目1に記載の方法。
(項目4)
前記エビデンススコアまたはエビデンス分類が、回帰または分類を利用してエビデンススコアおよびエビデンス分類を前記分子変異体の表現型影響に関連付ける統計学習を応用することによって、導出される、項目1に記載の方法。
(項目5)
前記分子変異体の前記機能スコアまたは機能分類が、回帰または分類を利用して分子シグナルを前記分子変異体の表現型影響に関連付ける統計学習を応用することによって、導出される、項目1に記載の方法。
(項目6)
前記分子変異体の前記表現型影響が、変異体、対象または集団の臨床データベース、表現型データベース、集団データベース、分子アノテーションデータベース、または機能データベースに基づいて、導出される、項目4に記載の方法。
(項目7)
前記分子変異体の前記表現型影響が、変異量、変異率、および変異シグネチャーなどの分子シグナルに基づいて導出される、項目4に記載の方法。
(項目8)
前記分子シグナル、前記表現型シグナル、または前記集団シグナルの独立した、または互いに素な推定値を利用して生成された複数の統計学的モデルから、前記分子変異体の前記機能スコアまたは機能分類が導出される、項目1に記載の方法。
(項目9)
機能モデリングエンジン(FME)から、前記分子変異体の前記機能スコアまたは機能分類が導出され、機械学習技術を応用することによって、前記FMEが生成され、前記分子変異体の非測定特徴を前記機能スコアまたは機能分類に関連付け、また、前記非測定特徴が進化的、集団、機能的、構造的、動的、かつ物理化学的特徴を含む、項目1に記載の方法。
(項目10)
変異体解釈エンジン(VIE)から、前記分子変異体の前記予測因子スコアまたは予測因子分類が導出され、機械学習技術を応用することによって、前記VIEが生成され、前記機能スコアまたは機能分類および非測定特徴を前記分子変異体の前記表現型影響に関連付ける、項目1に記載の方法。
(項目11)
より下位の変異体解釈エンジン(VIE)から、前記予測因子スコアまたは予測因子分類が導出され、前記より下位のVIEが機能要素、機能型、または条件固有である、項目1に記載の方法。
(項目12)
より上位の変異体解釈エンジン(VIE)から、前記予測因子スコアまたは予測因子分類が導出され、前記より上位のVIEがパスウェイ、ホモログファミリー、酵素ファミリー、または条件固有である、項目1に記載の方法。
(項目13)
より上位の変異体解釈エンジン(VIE)から、前記予測因子スコアまたは予測因子分類が導出され、前記VIEが複数のパスウェイ、ホモログファミリー、酵素ファミリー、または条件を通知する、項目1に記載の方法。
(項目14)
顕著に変異している領域およびネットワーク(SMR/SMN)算出を応用した空間クラスタリング技術から、前記分子変異体の前記ホットスポットスコアまたはホットスポット分類が導出され、上位または下位機能スコア、または特定の機能分類を有する高密度な分子変異体を有する残差の領域およびネットワークを検出する、項目1に記載の方法。
(項目15)
前記分子変異体を含有する前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントにおいて計測された前記分子スコアの概要統計、概要統計、記載統計、推計統計、またはベイズ推定モデルとして導出される前記分子変異体より下位の分子シグナルを、前記分子シグナルが含む、項目1に記載の方法。(項目16)
より下位の分子シグナルを調整、シグナル伝達、パスウェイ、処理、細胞周期活性、変更、欠陥、または状態に関連付ける既存のモデルを応用することによって導出される前記分子変異体のより上位の分子シグナルを、前記分子シグナルが含む、項目1に記載の方法。
(項目17)
より下位の分子シグナルから教師なし学習、特徴表現学習、または次元削減技術を介して導出される前記分子変異体のより上位の分子シグナルを、前記分子シグナルが含む、項目1に記載の方法。
(項目18)
前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントからの分子測定、分子処理、分子特徴に対応するより下位の分子スコアを、前記分子シグナルが含む、項目1に記載の方法。
(項目19)
より下位の分子スコアを調整、シグナル伝達、パスウェイ、処理、細胞周期活性、変更、欠陥、または状態に関連付ける既存のモデルを応用することによって導出される前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントのより上位の分子スコアを、前記分子シグナルが含む、項目1に記載の方法。
(項目20)
教師なし学習、特徴表現学習、または次元削減技術からより下位の分子スコアを介して導出される前記単一細胞、前記細胞コンパートメント、前記細胞内コンパートメント、または前記合成コンパートメントのより上位の分子スコアを、前記分子シグナルが含む、項目1に記載の方法。
(項目21)
より下位の分子スコアの圧縮表現を学習するようにオートエンコーダニューラルネットワークがトレーニングされ、より下位の分子シグナルをより上位の圧縮表現に符号化するために前記オートエンコーダが利用される、項目20に記載の方法。
【図面の簡単な説明】
【0009】
いくつかの実施形態による、分子変異体の表現型影響を判定するための、統合機能測定および算出深層変異学習(DML)処理およびシステム、ならびに、障害のRAS/MAPKファミリーの2つの遺伝子における処理およびシステムの応用から生成された例示的な(例えば、中間)データを示す。
同上。
同上。
いくつかの実施形態による、RAS/MAPKパスウェイ、HRAS、PTPN11、およびMAP2K2の3つの遺伝子における生殖細胞系列(例えば、遺伝性)および体細胞障害に関する疾患原因(例えば、病原)および中性(例えば、良性)分子変異体の識別(例えば、二項分類)における深層変異学習(DML)処理およびシステムの性能を示す。
同上。
いくつかの実施形態による、MAP2K2における生殖細胞系列疾患原因(例えば、病原)または中性(例えば、良性)分子変異体を含有する細胞の識別(例えば、二項分類)における深層変異学習(DML)処理およびシステムの性能を示す。
同上。
いくつかの実施形態による、分子スコアの強固な、縮約表現を生成するために、トレーニングされ、かつ応用されたニューラルネットワークベースのノイズ除去オートエンコーダのアーキテクチャを示す。
いくつかの実施形態による、MAP2K2およびPTPN11の制御、野生型、および変異バージョンを含有するH293細胞からの細胞抽出の酵素免疫測定法を通じてリン酸化された合計ERKタンパク質の画分として測定された、正常化ERKパスウェイ活性化を示す。
いくつかの実施形態による、様々な細胞数、読み取り深度、次元削減モデル(m
DR
)、および機能モデル(m

)を用いた測定の段階的最適化および展開を通じて分子変異体の表現型影響を識別するための深層変異学習(DML)の展開の費用削減のための、分子変異体の(縮約された)真理集合上で最適化がまず実行され、展開が分子変異体の目標集合を含む方法の例を示す。
いくつかの実施形態による、表現型スコアの算出方法の例を示す。
いくつかの実施形態による、分子スコアの算出方法の例を示す。
いくつかの実施形態による、個別の分子変異体に関連付けられた分子シグナルの算出方法を示す。
いくつかの実施形態による、分子シグナルの、分子状態特異的な、独立した、または互いに素な推定値算出方法を示す。
いくつかの実施形態による、分子状態または表現型スコアに渡る特定の分子変異体を有する細胞の分布を特徴付け、集団シグナルを導出する方法を示す。
いくつかの実施形態による、個別の分子変異体に関連付けられたより下位の分子シグナルからのより上位の分子シグナルの識別のための教師なし学習技術の活用方法の例を示す。
いくつかの実施形態による、回帰および分類技術を介して、分子、表現型、または集団シグナルを分子変異体の表現型影響に関連付けるための機械学習を介した、機能スコアおよび機能分類の導出方法の例を示す。
いくつかの実施形態による、様々な数の細胞を利用してトレーニングされたように、2つの異なる表現型影響を有する分子変異体の二項分類のための方法およびシステムの性能の例を示す。
同上。
いくつかの実施形態による、潜在的な非同義変異体の部分集合からの機能スコアおよび機能分類を利用して、タンパク質コード化遺伝子における、すべての潜在的な非同義変異体に関する機能スコアまたは機能分類を記載する配列機能マップの推論を可能にする方法の例を示す。
いくつかの実施形態による、一連のモデリング層を通じて分子変異体の表現型影響を判定するために、費用を削減し、DML処理の範囲を増大させるシステムおよび方法の例を示す。
いくつかの実施形態による、機械学習技術を利用した、遺伝子および条件特異であり得る、より下位の変異体解釈エンジン(VIE)の生成方法の例を示す。
いくつかの実施形態による、顕著に変異している領域(SMR)およびネットワーク(SMN)の識別のための方法の例を示す。
様々な実施形態を実施する上で有用な例示的なコンピュータシステムである。
【0010】
図面において、同じ参照番号は、同一の要素または同様な要素を示す。さらに、全体として、参照番号の左端の数字(複数可)は、参照番号が最初に登場した図面を識別する。
【発明を実施するための形態】
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許