ショートリードのDNAシーケンスバイオインフォマティクス解析:生殖細胞系列バリアントと体細胞コーリングのワークフロー

本テクニカルノートでは、ショートリードの DNAシーケンス (DNA-seq)バイオインフォマティクス解析の概要:生殖細胞系列バリアント(germline variant)と体細胞コーリング (somatic calling) のワークフローをご紹介します。

DNAシーケンスのワークフローとデータ解析 

DNA-seqのワークフロー(図1)において、良好なシーケンス結果を得るためには、良質な DNA を使用することが重要です。したがって、すべてのサンプルは、サンプル調製(図1a)の後、まず品質管理(QC)手順(図1e)を経て、シーケンス(図1c)に十分な品質であることを確認する必要があります。DNAまたはcDNAがQCに合格すると、次に、使用するシーケンス方法の要件に基づいてライブラリーの調製が行われます(図1b)。シーケンシングが完了したら、データ解析を行います(図1d)(Novogene、2011c)。データ解析の詳細については、次節で説明します。

図1. DNA-seqとデータ解析のワークフロー。

生殖細胞系列バリアントコールワークフロー

シーケンサーは膨大な量のデータを出力として生成し、バイオインフォマティクスはシーケンサー出力から得られた情報を取得、保存、解析するために使用されます。DNA-seqのバイオインフォマティクス解析手法には、生殖細胞系列バリアントコールと体細胞系列バリアントコールの2種類があります。図1f〜jは、Illuminaプラットフォームにおけるショートリード生殖細胞系列バリアントコーリングの典型的なバイオインフォマティクス解析に関わるステップを示したものです。

ステップ1:データQC

ポストシーケンスQCは、FastQCソフトウェア上で生データを処理し、配列品質、ヌクレオチド分布、GCコンテンツ分布、リード重複率などの情報を得ることから始まります(Nietsch et al.、2016)。生データは、配列の品質を確保し、基準を満たさない好ましくないリードや品質の悪いリードを除去するためにクリーンアップされます。出力は、FASTQ、FASTAまたはGTF形式のクリーンデータとなります(図1f)。

FASTQは、生物学的配列とそれに対応する品質スコアを表現するテキストベースのフォーマットです。図2に示すように、FASTQフォーマットの配列は、4つの部分から構成されています:(1)配列識別子(図2a)、(2)生の配列文字(図2b)、(3)「+」文字(図2c)、任意で同じ配列識別子が続く、(4)品質スコア(図2d)(Hosseini et al.、2016).

2. データQCステップのFASTQファイルの例(Hosseini et al.、2016)。

ステップ2:アライメント

データのクリーンアップ後、Burrows Wheeler Aligner(BWA)プログラムを用いて、参照ゲノムへのアライメントを実施します(図1g)。これは、生成されたリードのタイプに応じて、ローカルアライメント(Smith-waterman algorithm)またはグローバルアライメント(Wunsch algorithm)のいずれかになります。ローカルアライメントは、全体として大きく分岐していることが多い長い配列の中で、局所的に類似性の高い領域を特定するために使用されます。一方、グローバルアライメントは、2つの異なる配列間の最高レベルの類似性を見つけるために使用され、これは密接に関連していないリードに適しています。

BWAは、まずゲノムの「インデックス付加」を行い、次に配列リードと参照ゲノムとの間でメモリ効率に優れた高速な文字列照合を行います。アライメント出力ファイルは、SAM(Sequence alignment/map)またはBAM形式です(図3)。SAMはテキストベースのフォーマットで、参照配列にアライメントされた生物学的配列を表現します。図3に示すように、典型的なSAMファイルの例では、1)”@”文字で始まるヘッダー部、2)QNAME、CIGAR、SEQ、QUALなど11のフィールドからなるアライメント部の2つの部分に分かれています。アライメントセクションでは、各データ行が参照ゲノムにアライメントされた各リードを表しています。BAMファイルは、SAMファイルのバイナリ版で、BGZF(Blocked GNU Zip Format)ツールで圧縮されています(Hosseini et al.、2016)。

3. アライメントステップのSAMファイルの例(Hosseini et al.、2016)。

ステップ3:重複の除去 

SAMファイルには大量のデータが含まれているため、PicardツールでBAMファイル(SAMファイルのバイナリ版)に変換してから解析することが推奨されています(図4)。ソートされたBAMファイルは、ライブラリー調製やシーケンスから生じるPCRや光学的重複などの重複を評価するために使用されます(図4)。そして、バリアントコールに先立ち、重複を除去する(図2h)。このステップでは、データの品質が下流の解析に重要であるため、base quality score recalibration (BQSR) により、base quality score (Q)も測定されます。

4. 重複除去のワークフロー(Zhou、2022)。

ステップ4:バリアントコール

バリアントコールは、2つのゲノムサンプル間の バリアント を同定することができます。これらの差異は、SNPや小さなインデルに限定されます。逆位や重複のような大きな構造的変異は、通常バリアントコールではカバーされません。

生殖細胞系列バリアントコールでは、GATK4 (Genome Analysis Toolkit version 4) HaplotypeCallerと呼ばれるプログラムを使用します。その他、SAMTools( 一塩基変異 用)、DeepVariant( 一塩基変異 と 挿入欠失 用)、CNVnator( コピー数変異 用)なども使用できます(Zhou、2022)。

図5は、GATK4 HaplotypeCallerツールの原理を示したものです。まず、参照ゲノムを横断するスライディングウィンドウを使用して、活性領域を特定します(図5a)。次に、各活性領域において、もっともらしいハプロタイプ(単一染色体に沿って共起する遺伝的変異体)が集められます(図5b)。次に、ペア隠れマルコフ(Pair Hidden Markov、PairHMM)モデルを用いて、各ハプロタイプの尤度を決定します(図5c)。これにより、各サンプルについて、遺伝子型の尤度(ゆうど)とそのゲノムアノテーションを含むGVCF(Genomic variant call format)ファイルが生成され、ジョイントジェノタイピングに使用することができます(図5d)。さらに、ここから全サンプルに渡ってバリアントをコールし、最終的なVCF(Variant call format、バリアントコールフォーマット)ファイルを得ることができます(Zhou、2022)。

5. GATK4 HaplotypeCallerツールの原理(Zhou、2022)。

ステップ5:アノテーション

呼び出されたバリアントを解釈するためにバリアントのアノテーションを行い、多くの場合、バリアントアノテーターソフトウェアであるANNOVARを使用して行われます。ANNOVARは、与えられたゲノムのSNV、インデル、CNVのアノテーションを行うために使用されます。ANNOVARのアノテーションには、遺伝子ベースのアノテーション、フィルターベースのアノテーション、リージョンベースのアノテーションの3種類があります。遺伝子ベースのアノテーションは、変異がタンパク質をコードする変化を引き起こすかどうかを調べます。領域ベースのアノテーションでは、特定のゲノム領域(例えば、ゲノムの高度に保存された領域)における変異を特定します。フィルターベースのアノテーションは、特定のデータベースで文書化されたバリアントを特定します。アノテーションの入力はバリアントコールから生成されたVCFファイルであり、出力はアノテーションされた遺伝子バリアントのテキストベースのフォーマットファイルです(Zhou、 2022)。

体細胞バリアントコールのワークフロー

生殖細胞系列のバリアントコールと比較して、体細胞バリアントコールは低頻度のバリアントを識別し、アーティファクトから分離することができます。MuTect2、Strelka2、VarScan2など、多くのツールを使用することができます。VarScan2を用いた体細胞バリアントコールの典型的なワークフローを図6に示します。GATK4のHaplotypeCallerツールを用いた生殖細胞系列のバリアントコールと同様に、VarScanもBAMファイルを入力として、活性領域ベースの処理、アセンブリベースのハプロタイプ再構成、リードのハプロタイプへのペアHMMアライメントを行い、体細胞変異をコールします。しかし、体細胞バリアントコールでは、バリアント尤度と遺伝子型の推定に根本的に異なるモデルが使用されます。生殖細胞系列のバリアントコールと同様に、体細胞バリアントコールの出力もVCFファイルである。その後、バリアントフィルタリングを行うことで、解析可能なバリアントを生成することができます(図6)(Zhou、2022)。

6. VarScan2ツール(Zhou、2022)を使用した体細胞バリアントコールのワークフロー。

参考文献

Hosseini, M., Pratas, D., Pinho, A. J. (2016). A survey on data compression methods for biological sequences. MDPI, 7(4): 56. doi: 10.3390/info7040056. https://www.mdpi.com/2078-2489/7/4/56

Nietsch, R., Haas, J., Lai, A. et al. (2016). The role of quality control in targeted next-generation sequencing library preparation. Genomics Proteomics Bioinformatics, 14: 200-206. doi: org/10.1016/j.gpb.2016.04.007. https://www.sciencedirect.com/science/article/pii/S1672022916301073

Novogene. (2011). A beginner’s guide to DNA-seq: bioinformatics analysis. Novogene Co., Ltd. https://www.novogene.com/us-en/resources/blog/a-beginners-guide-to-dna-seq-bioinformatics-analysis-2/

Zhou, Y. (2022). A beginners guide to DNA-seq: bioinformatics analysis [webinar]. Novogene Co., Ltd. https://www.novogene.com/us-en/resources/onlineevent/a-beginners-guide-to-dna-seq-bioinformatics-analysis/