シーケンスリードの長さと幅と深さ

本テクニカルノートでは、シーケンスリードの リード長 (read length)、 リード幅 (breadth) と リード深さ  (depth) について詳しく解説しています。

シーケンサーリードのリード長 (Read length)

リード長とは、 DNA 断片から配列された塩基対(bp)の数です。ショートリードシーケンスでは長さの短いリード(~80~200bp)が、ロングリードシーケンスでは長さの長いリード(~500bp~2.3Mb)が生成されます(Illumina 2023a)。適切なシーケンスリード長は、サンプルタイプ、アプリケーション、カバレッジ要件によって決まります(Illumina、2023b)。

Illuminaのプラットフォームはショートリードが採用(図1a)、Pacific Biosciences(PacBio)とOxford Nanopore Technologies(ONT)が開発したプラットフォームはロングリードが採用されています(図1b)。PacBioとONTが開発したロングリードシーケンスは、科学者がショートリードで直面する多くの制限を克服しています。ロングリードシーケンスでは、より多くの配列が重なるため、 de novoアセンブリ やゲノムの繰り返し領域をより確実に解決するのに有効です。発現プロファイリングや計数研究などの他の用途では、長いリードよりも短いリードの方が十分であり、費用対効果も高いです(イルミナ、2023b)。

シングルエンドシーケンスペアエンドシーケンス は、シーケンスのリードの種類で、その違いを図1に示します。シングルリードシーケンスは、DNA断片の片端からもう片端までの塩基配列を決定します(図1a)。一方、ペアエンドシーケンスでは、DNA断片の両端をシーケンスすることができます(つまり、DNA断片を一方の端から読み取った後、もう一方の方向に再びプロセスを開始します)(図1b)。2倍の数のシーケンシングリードが得られることに加え、各ペアリード間の距離がわかっているため(例えば、200bpから数千塩基対の間)、アライメントアルゴリズムはこの情報を使って、繰り返し領域上のリードをより正確にマッピングできます。そのため、この方法を用いると、特に配列が難しいゲノムの繰り返し領域において、より正確なリードアライメントが可能になり、構造的な再配列を検出することができます。これらの理由から、ペアエンドシーケンスはシングルレッドシーケンスよりも一般的に使用されています(Illumina、2023b)。

図1DNAシーケンスアプリケーションのリード長の例(Illumina、2023b)。

シーケンサーリードの幅(Breadth)と深さ (Depth) 

シーケンスの幅と深さは、 シーケンスカバレッジ で表示されます。カバレッジ深度は、「シーケンシングされた断片によってどれだけ強い参照がカバーされているか」という問いに答えるもので、つまり、シーケンシングされたサンプルの各塩基に整列、つまり「カバー」するシーケンスリードの平均数を指しています。配列決定カバレッジレベルは、特定の塩基位置でバリアント発見がある程度の信頼性をもって行えるかどうかを決定することが多いです。

Coverage depthは、Lander/Waterman方程式(Illumina、2023c; Sims et al.、2014)を用いて計算することができます:

例えば、ゲノムサイズが100Mbで、100bpサイズのリードが5M本あれば、ゲノムレベルでのシーケンスカバレッジは5倍となります。

Coverage breadthは、「サンプルのどの程度がシーケンサーでカバーされているか」という問いに答えるものです。シーケンシングリードでカバーされた塩基の割合として報告されます。例えば、95%カバレッジは、サンプル中の95%の塩基がある深さでシーケンスされたことを示します(Sims et al.、2014)。

実験のシーケンスカバレッジ要件は、対象となる特定のアプリケーション、リード長、遺伝子発現レベル、参照ゲノムサイズ、ゲノムの複雑さと反復領域、実験に使用するシーケンスプラットフォームと方法論のエラー率、公開文献、科学コミュニティからのベストプラクティスなどの多くの要因によって変化します(Illumina、2023c;Zhou、2022)。DNA-seqアプリケーションのシーケンスカバレッジ推奨値の例を表1に示します。

表1. さまざまなショートリードおよびロングリードのDNA-seqアプリケーションに推奨されるシーケンスカバレッジ(Zhou、2022)。

1WGS = Whole genome sequencing.

2WES = Whole exome sequencing.

参考文献

Illumina. (2023a). Illumina sequencing platforms. Illumina, Inc. https://www.illumina.com/systems/sequencing-platforms.html

Illumina. (2023b). Read length recommendations. Illumina, Inc. https://www.illumina.com/science/technology/next-generation-sequencing/plan-experiments/read-length.html

Illumina. (2023c). Coverage depth recommendations. Illumina, Inc. https://www.illumina.com/science/technology/next-generation-sequencing/plan-experiments/coverage.html

Sims, D., Sudbery, I., Ilott, N. et al. (2014). Sequencing depth and coverage: key considerations in genomic analyses. Nat Rev Genet, 15: 121–132. doi: org/10.1038/nrg3642. https://pubmed.ncbi.nlm.nih.gov/24434847/

Zhou, Y. (2022). A beginners guide to DNA-seq: bioinformatics analysis [webinar]. Novogene Co., Ltd. https://www.novogene.com/us-en/resources/onlineevent/a-beginners-guide-to-dna-seq-bioinformatics-analysis/