TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024140387
公報種別公開特許公報(A)
公開日2024-10-10
出願番号2023051508
出願日2023-03-28
発明の名称情報処理装置及び情報処理方法
出願人株式会社日立製作所
代理人藤央弁理士法人
主分類G16B 30/00 20190101AFI20241003BHJP(特定の用途分野に特に適合した情報通信技術)
要約【課題】目的の核酸配列の見かけの伸び縮みに対処可能な、標識位置のアラインメントを実行する。
【解決手段】情報処理装置は、参照される核酸配列における部分配列の間隔の第1の比を複数算出し、第1の比の組み合わせと、第1の比の組み合わせに対応する当該核酸配列における部分配列の位置を示す情報と、を示すインデックスを構築し、目的の核酸配列における部分配列の間隔の第2の比を複数算出し、第2の比の組み合わせと、インデックスが示す第1の比の組み合わせと、の比較結果に基づいて、第2の比の組み合わせに対応する第1の比の組み合わせを抽出し、当該参照される核酸配列において、当該抽出した第1の比の組み合わせに対応する部分配列の位置を示す情報を出力する。
【選択図】図1
特許請求の範囲【請求項1】
情報処理装置であって、
プロセッサとメモリとを備え、
前記メモリは、参照される核酸配列における部分配列の位置を示す第1の数値列と、目的の核酸配列における前記部分配列の計測位置を示す第2の数値列と、を保持し、
前記プロセッサは、
前記第1の数値列に基づいて、前記参照される核酸配列における前記部分配列の間隔の第1の比を複数算出し、
前記第1の比の組み合わせと、前記第1の比の組み合わせに対応する前記参照される核酸配列における部分配列の位置を示す情報と、を示すインデックスを構築し、
前記第2の数値列に基づいて、前記目的の核酸配列における前記部分配列の間隔の第2の比を複数算出し、
前記第2の比の組み合わせと、前記インデックスが示す第1の比の組み合わせと、の比較結果に基づいて、前記第2の比の組み合わせに対応する第1の比の組み合わせを抽出し、
前記参照される核酸配列において、前記抽出した第1の比の組み合わせに対応する前記部分配列の位置を示す情報を出力する、情報処理装置。
続きを表示(約 2,300 文字)【請求項2】
請求項1に記載の情報処理装置であって、
前記プロセッサは、前記参照される核酸配列において隣接する前記部分配列の間隔の比と、前記参照される核酸配列から所定のルールに基づいて一部の前記部分配列を間引いた場合に隣接することとなる部分配列の間隔の比と、を前記第1の数値列に基づいて、前記複数の第1の比として算出する、情報処理装置。
【請求項3】
請求項1に記載の情報処理装置であって、
前記プロセッサは、前記目的の核酸配列において隣接する前記部分配列の間隔の比と、前記目的の核酸配列から所定のルールに基づいて一部の前記部分配列を間引いた場合に隣接することとなる部分配列の間隔の比と、を前記第2の数値列に基づいて、前記複数の第2の比として算出する、情報処理装置。
【請求項4】
請求項1に記載の情報処理装置であって、
前記プロセッサは、
前記第2の比の組み合わせに一致する第1の比の組み合わせを前記インデックスから特定し、
前記特定した第1の比の組み合わせそれぞれについて、所定の確率モデルに基づいて、当該特定した第1の比の組み合わせが前記第2の比の組み合わせに対応する確率を算出し、
前記算出した確率に基づいて、前記第2の比の組み合わせに対応する第1の比の組み合わせを抽出する、情報処理装置。
【請求項5】
請求項4に記載の情報処理装置であって、
前記所定の確率モデルは、前記目的の核酸配列の観測された分子長と正しい分子長の比を示す伸縮率の確率、前記目的の核酸配列における前記部分配列の計測位置と正しい位置とのずれの確率、前記目的の核酸配列における前記部分配列の誤検出の確率、及び前記目的の核酸配列における前記部分配列の検出漏れの確率、の少なくとも1つを反映するモデルである、情報処理装置。
【請求項6】
請求項1に記載の情報処理装置であって、
前記プロセッサは、
前記インデックスが示す前記第1の比の組み合わせについて、前記インデックスにおいて対応する前記参照される核酸配列における部分配列に隣接する部分配列の間隔の比、に基づいて前記第1の比の組み合わせを拡張し、
前記第2の比の組み合わせに対応する前記目的の核酸配列における部分配列に隣接する部分配列の間隔の比、に基づいて前記第2の比の組み合わせを拡張し、
前記拡張した第2の比の組み合わせと、前記拡張した第1の比の組み合わせと、の比較結果に基づいて、前記第2の比の組み合わせに対応する第1の比の組み合わせを抽出する、情報処理装置。
【請求項7】
請求項6に記載の情報処理装置であって、
前記プロセッサは、
前記拡張した第2の比の組み合わせに一致する、前記拡張した第1の比の組み合わせを特定し、
前記拡張した第2の比の組み合わせに一致する前記拡張した第1の比の組み合わせの拡張部分において、第2の比に一致した第1の比が示す前記参照される核酸配列の部分配列の位置を示す情報と、
前記拡張した第2の比の組み合わせに一致する前記拡張した第1の比の組み合わせの非拡張部分において、第2の比に一致した第1の比が示す前記参照される核酸配列の部分配列の位置を示す情報と、を出力する、情報処理装置。
【請求項8】
請求項1に記載の情報処理装置であって、
入力装置に接続され、
前記プロセッサは、
前記第1の比の組み合わせそれぞれに含まれる第1の比の個数、及び前記第2の比の組み合わせそれぞれに含まれる第2の比の個数の入力を、前記入力装置を介して受け付ける、情報処理装置。
【請求項9】
請求項1に記載の情報処理装置であって、
前記プロセッサは、
前記第2の比の組み合わせが示す目的の核酸配列における部分配列の計測位置と、前記抽出した第1の比の組み合わせが示す参照される核酸配列における部分配列の位置と、の比較結果に基づいて、前記目的の核酸配列に構造変異があるかを判定し、
前記目的の核酸配列に構造変異があると判定した場合、当該構造変異を示す情報を出力する、情報処理装置。
【請求項10】
情報処理装置による情報処理方法であって、
前記情報処理装置は、プロセッサとメモリとを備え、
前記メモリは、参照される核酸配列における部分配列の位置を示す第1の数値列と、目的の核酸配列における前記部分配列の計測位置を示す第2の数値列と、を保持し、
前記情報処理方法は、
前記プロセッサが、前記第1の数値列に基づいて、前記参照される核酸配列における前記部分配列の間隔の第1の比を複数算出し、
前記プロセッサが、前記第1の比の組み合わせと、前記第1の比の組み合わせに対応する前記参照される核酸配列における部分配列の位置を示す情報と、を示すインデックスを構築し、
前記プロセッサが、前記第2の数値列に基づいて、前記目的の核酸配列における前記部分配列の間隔の第2の比を複数算出し、
前記プロセッサが、前記第2の比の組み合わせと、前記インデックスが示す第1の比の組み合わせと、の比較結果に基づいて、前記第2の比の組み合わせに対応する第1の比の組み合わせを抽出し、
前記プロセッサが、前記参照される核酸配列において、前記抽出した第1の比の組み合わせに対応する前記部分配列の位置を示す情報を出力する、情報処理方法。

発明の詳細な説明【技術分野】
【0001】
本発明は、情報処理装置及び情報処理方法に関する。
続きを表示(約 2,000 文字)【背景技術】
【0002】
DNA(DeoxyriboNucleic Acid)配列決定技術の進歩に伴い、多くの個人ゲノムが明らかにされた。個人ゲノムでは、参照ゲノムとの差異が数多く含まれている。それらの多数を占めるのは周辺の塩基配列の中で1塩基だけが参照ゲノムと異なっているSNV(Single Nucleotide Variant)であるが、数千塩基又はそれ以上の大きな塩基配列が一度に変化する構造変異(SV、Structural Variant)も、一塩基変異にくらべれば数は少ないものの含まれている。
【0003】
SNVやSVには個人差をもたらす生殖細胞系列の変異だけでなく、体細胞変異とよばれる後天的に発生した変異があり、後天的に発生した変異の中にはがん化を引き起こすものもある。こうした変異を的確に検出し、その生物学的意義、臨床的意義を解明することは、がんの治療や生物学の研究において重要な課題である。
【0004】
構造変異を明らかにするためには、数千塩基以上の大きなゲノム領域の変化を捉える必要がある。しかし、現在のDNA配列決定技術で一度に読み取ることができる塩基配列の長さは限られている。一度に読み取ることができる塩基配列の長さは、当初ヒトの標準ゲノム配列を決定する際に使われたサンガー法では最大1000塩基程度、現在主流のNGS(Next Generation Sequencing)では数百塩基程度に限られる。
【0005】
NGSではペアエンド配列と呼ばれる、数百塩基程度離れた2つの塩基配列のペアを得ることもできるが、ペアエンド配列を用いてもやはり1000塩基程度の範囲の狭い領域の配列しか得られない。しかし、ヒトのゲノムにはSINE(Short Intersparsed Nuclear Element)やLINE(Long Intersparsed Nuclear Element)といった反復配列が多数存在しているほか、セントロメアやテロメアと呼ばれる領域にも反復配列が存在する。
【0006】
一度に高々1000塩基分の塩基配列しか見られなければこれらの反復配列を区別できないため、得られた塩基配列をつなぎ合わせてもゲノム全体の塩基配列を推定することができない。近年普及してきたロングリード配列決定技術では数万塩基に及ぶ塩基配列を一度に得ることができるが、あらゆる反復配列の位置を同定するには不十分である。したがって、ゲノム上のさらに広い領域を解析するための技術が必要である。
【0007】
こうした用途に利用できるのが、ゲノム上の短い特定の塩基配列を蛍光等で標識し、標識間隔のパターンからゲノム上の位置を同定する、ゲノムマッピングと呼ばれる技術である。ゲノムマッピングでは、ゲノムを構成するDNAを増幅して裁断し、数十万塩基からなるDNA断片を多数生成する。
【0008】
ゲノムマッピングでは、多数生成された各DNA断片上における特定の塩基配列を標識し、当該DNA断片に出現する各標識配列(以下、単に標識とも呼ぶ)が先頭から約何塩基目に出現するかを示す標識位置を計測する。さらに、各DNA断片について、標識位置を昇順に並べることで、各DNA断片を昇順の数値列に変換することができる。この数値列を、以下では計測データとも呼ぶ。
【0009】
このようなゲノムマッピングの技術を開示する文献として、特開2009-022274号公報(特許文献1)がある。この公報には、「展開あるいは伸長した染色体DNAにおいて、一種類の繰り返し塩基配列に対して核酸をハイブリダイゼーションし、ハイブリダイゼーションした核酸に導入されている標識物を用いることにより、染色体DNAの複数個の該繰り返し塩基配列の組について染色体DNA上での相互の距離を計測し、次いで、計測された距離の特徴に基づき、該組みおよび該組に含まれる該繰り返し塩基配列の染色体上の領域あるいは位置を決定することを含む、染色体DNA上の位置マッピング方法。」が記載されている(要約参照)。
【0010】
なお、ゲノムマッピングによって得られた計測データを、参照ゲノム配列等から得られた標識位置と比較して、共通部分や非共通部分を明らかにする処理は、アラインメントと呼ばれる。計測データの基となったDNA断片における構造変異や当該計測データにおける計測エラーが発生していなければ、当該計測データが示す各標識位置は、参照ゲノム上のいずれかの標識位置に対応する。一方、構造変異が発生すると、計測データ上の標識と、参照ゲノム上の標識と、で対応する位置が不連続になる。このような標識位置の異常を捉えることで、構造変異が検出できる。
【先行技術文献】
【特許文献】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許