特許ウォッチ

公開番号2025161559
公報種別公開特許公報(A)
公開日2025-10-24
出願番号2024064853
出願日2024-04-12
発明の名称ゲノム配列の類似性評価の方式、ソフトウェア、システム、装置
出願人個人
代理人
主分類G16B 20/00 20190101AFI20251017BHJP(特定の用途分野に特に適合した情報通信技術)
要約【課題】ゲノム配列の類似性評価において、DNA塩基の変異の影響を軽減し、また、計算時間および記憶容量の増大を避けるゲノム配列の類似性評価の方式並びにその方式を実装するソフトウェア、システム及び装置を提供する。
【解決手段】ゲノム配列の類似性評価の方式では、要素ベクトルの初期化を行った後、2つのゲノム配列データの読み込みを行う。そして、ゲノム配列情報の各要素に対し要素ベクトルへの変換を行い、ゲノム配列情報の各要素に対し要素ベクトルの合成ベクトルへ変換し記憶する。さらに、データ配列間の2成分の相互相関係数を算出し、2成分の相互相関係数の絶対値の平均値を算出する。
【選択図】図4
特許請求の範囲【請求項１】
４種のコードの配列で表現されるゲノム配列に対し、配列要素に以下の特性：
（1）２次元平面上で同じ大きさをもつ
（2）対向する２つのベクトルで１つの組を成し、２組がある
（3）異なる組のベクトルは垂直である
を備える４種の２次元ベクトル（要素ベクトルと呼ぶ）を割り当てることにより、ゲノム配列を前記要素ベクトルの調査開始点からの合成ベクトルである２次元データ配列に変換し、２つのゲノム配列間の類似性評価に前記２次元データの相互相関係数を用いることを特徴とするゲノム配列の類似性評価の方式、およびその方式を実装するソフトウェア、システム、装置。
続きを表示（約 350 文字）【請求項２】
４種のコードの配列で表現される２つのゲノム配列の要素を逐次読み込み、要素数の加算、２次元ベクトルへの変換、合成ベクトルの計算、合成ベクトル成分の加算、ベクトル成分の２乗の加算、合成ベクトル間の成分の積の加算を逐次行い、ゲノム配列の読み込み終了後にデータ配列間の相互相関係数を算出することにより、類似性計算に要する記憶容量をゲノム配列の大きさに依らず一定に抑えることを特徴とする請求項１の方式、およびその方式を実装するソフトウェア、システム、装置。
【請求項３】
ゲノム配列を請求項１に記載の要素ベクトルの合成ベクトルに変換した後、要素番号情報と組合せ３次元データを生成し、３次元の表示および統計分析を可能とする方式、およびその方式を実装するソフトウェア、システム、装置。

発明の詳細な説明【技術分野】
【０００１】
本発明は、ゲノム配列の数値表現、類似性評価および可視化に関係する。
続きを表示（約 3,600 文字）【背景技術】
【０００２】
ＤＮＡは４種の塩基の配列であり、塩基配列を符号化したゲノム配列は一般にＡＴＧＣの４種の文字列として表現される。その文字列は、文字が不規則に並んでおり、人間が判読することは難しい。例えば、複数のゲノム配列があった場合、どこがどれだけ異なるのかあるいは似ているのか、人間が判読することは難しい。そのため、ゲノム配列の解析は、コンピュータによる文字列解析あるいは数値解析が行われる。例えば、多数のゲノム配列データから類似するゲノム配列を収集し、動的計画法による塩基の変異（置換、欠失、挿入）の推定などが行われる。類似するゲノム配列の収集にあたり、類似性評価が重要となるが、ゲノム配列の文字列の先頭からの一致率のみでは塩基の変異の影響を強く受け、同種の配列であっても類似性を正しく評価できない。そのため、塩基の変異についての事前情報がない状況において、変異の影響を小さく抑えて、類似性を評価する方法が必要となる。なお、ここでゲノム配列は、ゲノム全体または染色体や遺伝子などの一部の配列を指す。
【０００３】
ゲノム配列はヒトの場合で全体では約３０億文字分であり、染色体単位に分割しても数千万文字分のデータ量となる。ゲノム配列の大規模な調査に向けて、類似性評価の計算時間および記憶容量の増大を避ける方法が求められる。
【０００４】
ゲノム配列を数値化した上で、評価関数を設定し、ゲノム配列の類似性評価を行う手法がいくつか提案されている。後記の非特許文献１に３次元ベクトルを用い、ゲノム配列を３次元データ配列に変換し、３次元グラフ（Ｈカーブ）の表示を行う数値化手法について記載されている。また、非特許文献２では、前記文献１とは異なる３次元ベクトルを用いて３次元グラフ（Ｚカーブ）の表示を可能にする数値化手法について記載されている。他にも、非特許文献３で、複数の３次元ベクトルを組合せてゲノム配列を数値化する手法が提案されている。非特許文献４では、９種類の数値化手法を取り上げ、ゲノム配列の類似性計算の評価を行っている。ゲノム配列の数値表現および類似性評価方法において、塩基の変異の影響を過度に受けないこと、計算時間および記憶容量の増大を避けること、双方を満たす標準となる手法はない。
【先行技術文献】
【非特許文献】
【０００５】
Eugene Hamori and John Ruskin, H Curves, A Novel Method of Representation of Nucleotide Series Especially Suited for Long DNA Sequences, THE JOURNAOLF BIOLOGICAL CHEMISTRY Vol. 258, No, 2, 1983
Chun-Ting Zhang and Ren Zhang, Analysis of distribution of bases in the coding sequences by a diagrammatic technique, Nucleic Acids Research, Vol. 19, No. 22 6313-6317
Guosen Xie, Zhongxi Mo, 3D graphical representations of DNA primary sequences based on the classifications of DNA bases and their applications, Journal ofTheoreticalBiology269(2011)123–130
Gerardo Mendizabal-Ruiz, Israel Roma Ân – Godõ Ânez, Sulema Torres-Ramos, Ricardo A. Salido-Ruiz, J. Alejandro Morales, On DNA numerical representations for genomic similarity computation, PLOS ONE (https://doi.org/10.1371/journal.pone.0173288) March 21, 2017
【発明の概要】
【発明が解決しようとする課題】
【０００６】
本発明が解決しようとする課題は、ゲノム配列の類似性評価において、ＤＮＡ塩基の変異の影響を軽減すること、および、計算時間と記憶容量の増大を避けることである。
【課題を解決するための手段】
【０００７】
ＤＮＡは４種の塩基から成る。２次元平面は４方向（上下左右）の軸で４象限に分けられる。ＤＮＡと２次元平面のこの特性を活かし、４塩基を４軸または４象限の座標にマッピングすることで、ＤＮＡゲノム配列の数値表現が可能となる。本発明では、ＤＮＡゲノム配列のＡＴＧＣの４種のコードに、以下の３つの特性を備える４種の２次元ベクトル（ここでは要素ベクトルと呼ぶ）を割り当てる。
要素ベクトルの３つの特性：
（1）２次元平面上で同じ大きさをもつ
（2）対向する２つのベクトルで１つの組を成し、２組がある
（3）異なる組のベクトルは垂直である
さらに、ゲノム配列の各要素を調査開始点からの要素ベクトルの合成ベクトルに変換する。この合成ベクトルへの変換により、１次元のゲノム配列は２次元座標のデータ配列に変換される。２つのゲノム配列に前記の変換を実施し、得られる２組の２次元データ配列間の相互相関係数を計算し、類似性評価を行う。この方式は、ＲＮＡ配列（ＡＵＧＣの４種の文字配列）に対しても同様に用いることができる。
【０００８】
ゲノム配列を２次元ベクトルの合成ベクトルに変換することの利点は、ゲノム配列を累積的な数値表現とすることで、ゲノム配列全体の大局的な類似性評価を可能にし、ＤＮＡ塩基の変異の影響を過度に受けないことである。累積的な数値表現となることから、例えば、合成ベクトルの終点の座標はゲノム配列全体を反映したものとなる。要素ベクトルの合成の軌跡について注目すると、ひとつのＤＮＡ配列を元にし、ＤＮＡ塩基の変異が発現した場合、本方式によるベクトル軌跡は、変異点で本来の軌跡から外れるが、変異点以外では元の軌跡と平行な軌跡を描く。このため、変異があっても俯瞰的には類似したベクトル軌跡となり、大局的な類似性評価が可能となる。また、２次元ベクトルを利用するより、３次元以上の多次元情報を用いる方法より、計算時間を削減することができる。
【０００９】
相互相関係数を類似性評価に使用することの利点は、ゲノム配列の全体的な評価を行いＤＮＡ塩基の変異の影響を過度に受けないことである。相互相関係数の計算においては、各データ配列の各次元成分において、平均値からの各配列要素の偏差の総和を使用する。平均値は各次元成分の全体情報を反映しており、相互相関係数によりデータ配列間の全体的な相関関係を定量化することができる。以上から、本方式により俯瞰的な２次元データ配列間の相関性評価が可能となり、塩基の変異の影響を過度に受けることなく、ゲノム配列の類似性評価が可能となる。
【００１０】
２組の２次元データ配列間の相互相関係数の計算は、一般的には、２次元の成分ごとに各配列要素について平均値からの偏差を求め、その偏差のデータ配列間の積の平均値を、各データ配列の成分の標準偏差の双方で除することで求められる。相互相関係数計算の初期段階で各成分の平均値を求める場合、データ配列全体を２回読み込むか、データ配列の全体をメモリに記憶する必要が生じる。相互相関係数の計算手順を変更し、各合成ベクトルの各次元成分の累計、成分の２乗の累計、合成ベクトル間の成分の積の累計を先に求め、その後に相互相関係数を求めることにする。これにより、ゲノム配列の読み込みから、合成ベクトルへの変換、合成ベクトル成分の累計と２乗の累計および合成ベクトル間の成分の積の累計の計算までを一連の処理（パイプライン）として配列要素ごとに実行することが可能になり、２次元データ配列の全体をメモリに記憶する必要がなく、かつ、ゲノム配列の読み込みを１回のみ行うことで相互相関係数の計算が実行可能となる。各種の累計計算（パイプライン内）を平行（オーバラップ）して実行することも可能であり、処理時間の短縮が可能となる。
（【００１１】以降は省略されています）

関連特許