特許ウォッチ

公開番号2024140387
公報種別公開特許公報(A)
公開日2024-10-10
出願番号2023051508
出願日2023-03-28
発明の名称情報処理装置及び情報処理方法
出願人株式会社日立製作所
代理人藤央弁理士法人
主分類G16B 30/00 20190101AFI20241003BHJP(特定の用途分野に特に適合した情報通信技術)
要約【課題】目的の核酸配列の見かけの伸び縮みに対処可能な、標識位置のアラインメントを実行する。
【解決手段】情報処理装置は、参照される核酸配列における部分配列の間隔の第1の比を複数算出し、第1の比の組み合わせと、第1の比の組み合わせに対応する当該核酸配列における部分配列の位置を示す情報と、を示すインデックスを構築し、目的の核酸配列における部分配列の間隔の第2の比を複数算出し、第2の比の組み合わせと、インデックスが示す第1の比の組み合わせと、の比較結果に基づいて、第2の比の組み合わせに対応する第1の比の組み合わせを抽出し、当該参照される核酸配列において、当該抽出した第1の比の組み合わせに対応する部分配列の位置を示す情報を出力する。
【選択図】図1
特許請求の範囲【請求項１】
情報処理装置であって、
プロセッサとメモリとを備え、
前記メモリは、参照される核酸配列における部分配列の位置を示す第１の数値列と、目的の核酸配列における前記部分配列の計測位置を示す第２の数値列と、を保持し、
前記プロセッサは、
前記第１の数値列に基づいて、前記参照される核酸配列における前記部分配列の間隔の第１の比を複数算出し、
前記第１の比の組み合わせと、前記第１の比の組み合わせに対応する前記参照される核酸配列における部分配列の位置を示す情報と、を示すインデックスを構築し、
前記第２の数値列に基づいて、前記目的の核酸配列における前記部分配列の間隔の第２の比を複数算出し、
前記第２の比の組み合わせと、前記インデックスが示す第１の比の組み合わせと、の比較結果に基づいて、前記第２の比の組み合わせに対応する第１の比の組み合わせを抽出し、
前記参照される核酸配列において、前記抽出した第１の比の組み合わせに対応する前記部分配列の位置を示す情報を出力する、情報処理装置。
続きを表示（約 2,300 文字）【請求項２】
請求項１に記載の情報処理装置であって、
前記プロセッサは、前記参照される核酸配列において隣接する前記部分配列の間隔の比と、前記参照される核酸配列から所定のルールに基づいて一部の前記部分配列を間引いた場合に隣接することとなる部分配列の間隔の比と、を前記第１の数値列に基づいて、前記複数の第１の比として算出する、情報処理装置。
【請求項３】
請求項１に記載の情報処理装置であって、
前記プロセッサは、前記目的の核酸配列において隣接する前記部分配列の間隔の比と、前記目的の核酸配列から所定のルールに基づいて一部の前記部分配列を間引いた場合に隣接することとなる部分配列の間隔の比と、を前記第２の数値列に基づいて、前記複数の第２の比として算出する、情報処理装置。
【請求項４】
請求項１に記載の情報処理装置であって、
前記プロセッサは、
前記第２の比の組み合わせに一致する第１の比の組み合わせを前記インデックスから特定し、
前記特定した第１の比の組み合わせそれぞれについて、所定の確率モデルに基づいて、当該特定した第１の比の組み合わせが前記第２の比の組み合わせに対応する確率を算出し、
前記算出した確率に基づいて、前記第２の比の組み合わせに対応する第１の比の組み合わせを抽出する、情報処理装置。
【請求項５】
請求項４に記載の情報処理装置であって、
前記所定の確率モデルは、前記目的の核酸配列の観測された分子長と正しい分子長の比を示す伸縮率の確率、前記目的の核酸配列における前記部分配列の計測位置と正しい位置とのずれの確率、前記目的の核酸配列における前記部分配列の誤検出の確率、及び前記目的の核酸配列における前記部分配列の検出漏れの確率、の少なくとも１つを反映するモデルである、情報処理装置。
【請求項６】
請求項１に記載の情報処理装置であって、
前記プロセッサは、
前記インデックスが示す前記第１の比の組み合わせについて、前記インデックスにおいて対応する前記参照される核酸配列における部分配列に隣接する部分配列の間隔の比、に基づいて前記第１の比の組み合わせを拡張し、
前記第２の比の組み合わせに対応する前記目的の核酸配列における部分配列に隣接する部分配列の間隔の比、に基づいて前記第２の比の組み合わせを拡張し、
前記拡張した第２の比の組み合わせと、前記拡張した第１の比の組み合わせと、の比較結果に基づいて、前記第２の比の組み合わせに対応する第１の比の組み合わせを抽出する、情報処理装置。
【請求項７】
請求項６に記載の情報処理装置であって、
前記プロセッサは、
前記拡張した第２の比の組み合わせに一致する、前記拡張した第１の比の組み合わせを特定し、
前記拡張した第２の比の組み合わせに一致する前記拡張した第１の比の組み合わせの拡張部分において、第２の比に一致した第１の比が示す前記参照される核酸配列の部分配列の位置を示す情報と、
前記拡張した第２の比の組み合わせに一致する前記拡張した第１の比の組み合わせの非拡張部分において、第２の比に一致した第１の比が示す前記参照される核酸配列の部分配列の位置を示す情報と、を出力する、情報処理装置。
【請求項８】
請求項１に記載の情報処理装置であって、
入力装置に接続され、
前記プロセッサは、
前記第１の比の組み合わせそれぞれに含まれる第１の比の個数、及び前記第２の比の組み合わせそれぞれに含まれる第２の比の個数の入力を、前記入力装置を介して受け付ける、情報処理装置。
【請求項９】
請求項１に記載の情報処理装置であって、
前記プロセッサは、
前記第２の比の組み合わせが示す目的の核酸配列における部分配列の計測位置と、前記抽出した第１の比の組み合わせが示す参照される核酸配列における部分配列の位置と、の比較結果に基づいて、前記目的の核酸配列に構造変異があるかを判定し、
前記目的の核酸配列に構造変異があると判定した場合、当該構造変異を示す情報を出力する、情報処理装置。
【請求項１０】
情報処理装置による情報処理方法であって、
前記情報処理装置は、プロセッサとメモリとを備え、
前記メモリは、参照される核酸配列における部分配列の位置を示す第１の数値列と、目的の核酸配列における前記部分配列の計測位置を示す第２の数値列と、を保持し、
前記情報処理方法は、
前記プロセッサが、前記第１の数値列に基づいて、前記参照される核酸配列における前記部分配列の間隔の第１の比を複数算出し、
前記プロセッサが、前記第１の比の組み合わせと、前記第１の比の組み合わせに対応する前記参照される核酸配列における部分配列の位置を示す情報と、を示すインデックスを構築し、
前記プロセッサが、前記第２の数値列に基づいて、前記目的の核酸配列における前記部分配列の間隔の第２の比を複数算出し、
前記プロセッサが、前記第２の比の組み合わせと、前記インデックスが示す第１の比の組み合わせと、の比較結果に基づいて、前記第２の比の組み合わせに対応する第１の比の組み合わせを抽出し、
前記プロセッサが、前記参照される核酸配列において、前記抽出した第１の比の組み合わせに対応する前記部分配列の位置を示す情報を出力する、情報処理方法。

発明の詳細な説明【技術分野】
【０００１】
本発明は、情報処理装置及び情報処理方法に関する。
続きを表示（約 2,000 文字）【背景技術】
【０００２】
ＤＮＡ（ＤｅｏｘｙｒｉｂｏＮｕｃｌｅｉｃＡｃｉｄ）配列決定技術の進歩に伴い、多くの個人ゲノムが明らかにされた。個人ゲノムでは、参照ゲノムとの差異が数多く含まれている。それらの多数を占めるのは周辺の塩基配列の中で１塩基だけが参照ゲノムと異なっているＳＮＶ（ＳｉｎｇｌｅＮｕｃｌｅｏｔｉｄｅＶａｒｉａｎｔ）であるが、数千塩基又はそれ以上の大きな塩基配列が一度に変化する構造変異（ＳＶ、ＳｔｒｕｃｔｕｒａｌＶａｒｉａｎｔ）も、一塩基変異にくらべれば数は少ないものの含まれている。
【０００３】
ＳＮＶやＳＶには個人差をもたらす生殖細胞系列の変異だけでなく、体細胞変異とよばれる後天的に発生した変異があり、後天的に発生した変異の中にはがん化を引き起こすものもある。こうした変異を的確に検出し、その生物学的意義、臨床的意義を解明することは、がんの治療や生物学の研究において重要な課題である。
【０００４】
構造変異を明らかにするためには、数千塩基以上の大きなゲノム領域の変化を捉える必要がある。しかし、現在のＤＮＡ配列決定技術で一度に読み取ることができる塩基配列の長さは限られている。一度に読み取ることができる塩基配列の長さは、当初ヒトの標準ゲノム配列を決定する際に使われたサンガー法では最大１０００塩基程度、現在主流のＮＧＳ（ＮｅｘｔＧｅｎｅｒａｔｉｏｎＳｅｑｕｅｎｃｉｎｇ）では数百塩基程度に限られる。
【０００５】
ＮＧＳではペアエンド配列と呼ばれる、数百塩基程度離れた２つの塩基配列のペアを得ることもできるが、ペアエンド配列を用いてもやはり１０００塩基程度の範囲の狭い領域の配列しか得られない。しかし、ヒトのゲノムにはＳＩＮＥ（ＳｈｏｒｔＩｎｔｅｒｓｐａｒｓｅｄＮｕｃｌｅａｒＥｌｅｍｅｎｔ）やＬＩＮＥ（ＬｏｎｇＩｎｔｅｒｓｐａｒｓｅｄＮｕｃｌｅａｒＥｌｅｍｅｎｔ）といった反復配列が多数存在しているほか、セントロメアやテロメアと呼ばれる領域にも反復配列が存在する。
【０００６】
一度に高々１０００塩基分の塩基配列しか見られなければこれらの反復配列を区別できないため、得られた塩基配列をつなぎ合わせてもゲノム全体の塩基配列を推定することができない。近年普及してきたロングリード配列決定技術では数万塩基に及ぶ塩基配列を一度に得ることができるが、あらゆる反復配列の位置を同定するには不十分である。したがって、ゲノム上のさらに広い領域を解析するための技術が必要である。
【０００７】
こうした用途に利用できるのが、ゲノム上の短い特定の塩基配列を蛍光等で標識し、標識間隔のパターンからゲノム上の位置を同定する、ゲノムマッピングと呼ばれる技術である。ゲノムマッピングでは、ゲノムを構成するＤＮＡを増幅して裁断し、数十万塩基からなるＤＮＡ断片を多数生成する。
【０００８】
ゲノムマッピングでは、多数生成された各ＤＮＡ断片上における特定の塩基配列を標識し、当該ＤＮＡ断片に出現する各標識配列（以下、単に標識とも呼ぶ）が先頭から約何塩基目に出現するかを示す標識位置を計測する。さらに、各ＤＮＡ断片について、標識位置を昇順に並べることで、各ＤＮＡ断片を昇順の数値列に変換することができる。この数値列を、以下では計測データとも呼ぶ。
【０００９】
このようなゲノムマッピングの技術を開示する文献として、特開２００９－０２２２７４号公報（特許文献１）がある。この公報には、「展開あるいは伸長した染色体ＤＮＡにおいて、一種類の繰り返し塩基配列に対して核酸をハイブリダイゼーションし、ハイブリダイゼーションした核酸に導入されている標識物を用いることにより、染色体ＤＮＡの複数個の該繰り返し塩基配列の組について染色体ＤＮＡ上での相互の距離を計測し、次いで、計測された距離の特徴に基づき、該組みおよび該組に含まれる該繰り返し塩基配列の染色体上の領域あるいは位置を決定することを含む、染色体ＤＮＡ上の位置マッピング方法。」が記載されている（要約参照）。
【００１０】
なお、ゲノムマッピングによって得られた計測データを、参照ゲノム配列等から得られた標識位置と比較して、共通部分や非共通部分を明らかにする処理は、アラインメントと呼ばれる。計測データの基となったＤＮＡ断片における構造変異や当該計測データにおける計測エラーが発生していなければ、当該計測データが示す各標識位置は、参照ゲノム上のいずれかの標識位置に対応する。一方、構造変異が発生すると、計測データ上の標識と、参照ゲノム上の標識と、で対応する位置が不連続になる。このような標識位置の異常を捉えることで、構造変異が検出できる。
【先行技術文献】
【特許文献】
（【００１１】以降は省略されています）

関連特許