シングルセル・トランスクリプトーム・シーケンスのデータ解析

はじめに

シングルセルRNAシーケンスシングルセル RNA シーケンス (scRNA-seq) は、次世代シーケンスを使用して、特定のサンプルの個々の細胞内の RNA 分子の発現を測定する技術です。 More （scRNA-seq）は、多数の個々の細胞のトランスクリプトーム全体をプロファイリングできる強力な技術です（Andrews et al.、2021）。バルク RNAシーケンス次世代シーケンスを用いてサンプル中のRNAの量や配列を調べる技術。 More （RNA-seq）は通常、サンプル中の細胞集団全体の遺伝子発現を解析し、異なるサンプル条件間での変化を同定するために使用されるのに対し、scRNA-seqはサンプル中の個々の細胞の遺伝子発現を解析し、細胞の種類や状態間の違いを比較するために使用されます。データ解析の際、バルクRNA-seqデータは遺伝子および転写産物の発現推定、差次的発現解析、代替スプライシングのために評価されるが、scRNA-seqデータは次元削減、細胞亜集団の同定、軌跡解析のためにさらに解析することができ、scRNA-seqデータ解析はバルクRNA-seqよりも複雑です　(Malhotra et al.、2022; Novogene、2011)。このテクニカルノートでは、NovogeneにおけるscRNA-seqのデータ解析の典型的なステップについて説明します。scRNA-seq データ解析ワークフローのステップは、プロジェクトの実験目標やデザインによって異なります。

関連記事シングルセル・トランスクリプトーム・シーケンスのご紹介

関連記事バルクおよびシングルセル・トランスクリプトーム・シーケンスの応用

関連記事シングルセル・トランスクリプトーム・シーケンスの仕様とワークフロー

scRNA-seqにおけるリードの順序と構築

使用するライブラリーNGSを行う場合に創るやつ。 More 調製法に応じて、 cDNAcDNA (complementary DNA) は、RNA 分子を鋳型として逆転写によって合成される DNA 配列です。 More ライブラリーは細胞バーコードおよび/またはユニーク分子識別子（UMI）で標識されます。ライブラリーはシーケンス用にプールされます（マルチプレックス）。シーケンシングによりリードデータが得られ、品質管理、割り当てられたバーコードに基づくグループ化（デマルチプレックス）、リードのアライメントが行われます。UMIを使用する場合、リードデータはさらにデマルチプレックスされ、捕捉された mRNAmRNA (Messenger RNA) は、細胞にタンパク質を作るように指示する一本鎖 RNA の一種です。 More 分子のカウント数（カウントデータ）が生成されます。そのため、scRNA-seqデータをより良く解析するためには、それぞれのリードにどのような情報が含まれているかを理解することが有用です。Novogene では、シングル細胞の分離とシーケンスライブラリーの調製に 10x Genomics の Chromium Controller プラットフォームを使用しているため、Chromium シングルセル遺伝子発現テクノロジー（図 1a）と Chromium システムで生成されるリードの順序と構造（図 1b）を理解することが重要です。

図 1a は Chromium シングルセル遺伝子発現テクノロジーを示し、図 1b は scRNA-seq リードの順序と構築を示します。各ゲルビーズには、それぞれ10xバーコード配列（緑）、UMI（オレンジ）、ポリ（dT）テール（青）からなるユニークな一本鎖オリゴヌクレオチドヌクレオチド数が少なく、短くて直鎖状のDNAまたはRNA More がコーティングされています（図1）。10xバーコードは、逆転写RNAテンプレートからDNAを合成するプロセス。 Moreの際にcDNA分子の3’末端をインデックスするために使用され、その結果、解析中に転写物を個々の細胞に割り当てることが可能になります。UMIは短い分子タグであり、 PCRPCR（Polymerase chain reaction、ポリメラーゼ連鎖反応）は、変性、オリゴヌクレオチドのアニーリング、および DNA ポリメラーゼ伸長のサイクルを繰り返すことによる核酸配列の酵素的増幅を伴う技術です。 More 増幅の前にライブラリー工程でDNA断片に付加されます。これらのUMIにより、同じmRNA分子の増幅コピーと、同じ遺伝子から転写された別々のmRNA分子からのリードを区別することができます。ポリ（dT）テールはmRNAを捕捉するために用いられます（Luecken & Theis、2019）。

図1. a) Chromium単一細胞遺伝子発現技術の模式図（10x Genomics、2023aより変更）。 b) scRNA-seqリードの順序と構築（GitHub、2023より変更）。

scRNA-seqデータ解析ワークフロー

生のシーケンスデータは処理され、カウントマトリックスを与えるためにアライメントされ、その後、前処理と下流解析が行われます（Luecken & Theis、2019）。図2にscRNA-seqデータ解析の典型的なワークフローを示します。

図2. scRNA-seqデータ解析の典型的なワークフロー（Luecken & Theis、2019より変更）。

scRNA-seqデータの前処理と可視化

前処理と可視化により、scRNA-seqデータセットの記述と次元の圧縮が可能になります。

カウントまたはリードマトリックスの生成

シーケンスシステムによって生成された生データは、分子カウントの行列（カウント行列）またはリードカウントの行列（リード行列）に前処理されます。リードマトリックスは、シングルセルライブラリー構築プロトコルにUMIを組み込んだ場合に作成されます。Cell Ranger (Zheng et al.、2017)、indrops (Klein et al.、2015)、SEQC (Azizi et al.、2018)、zUMIs (Parekh et al.、2018)　など、多くの生データ処理パイプラインが利用可能で、これらのパイプラインはすべて、リードの品質管理、細胞バーコードやmRNA分子または起源へのリードの割り当て（デマルチプレックス）、ゲノムアライメント、定量を行います。得られたカウントまたはリードマトリックスは、遺伝子を行に、サンプルを列にして、全サンプルのカウントを含む表の形式で表示されます　(Islam et al.、2014; Luecken & Theis、2019)。

Novogeneは、10x Genomicsが公式に提供するscRNA-seqデータ解析パッケージのCell Rangerパイプラインを使用しています。これは、シーケンシングによって生成されたFASTQ形式の生シーケンスデータファイルを、細胞数およびUMI数の参照ゲノムにアライメントし、細胞-遺伝子発現マトリックスを生成します（Novogene、2011）。

品質管理

単一細胞の発現データを解析する前に、すべての細胞バーコードデータが生存細胞に対応することを確実にするために、前処理されたデータを徹底的にチェックする必要があります。品質管理（Quality control、QC）は通常、3つのQC共変量に基づいて行われます(バーコードあたりのカウント数（count depth）、バーコードあたりの遺伝子数、バーコードあたりのミトコンドリア遺伝子からのカウントの割合)。これらのQC共変量の分布が評価され、外れ値がフィルタリングされます（Luecken & Theis、2019）。外れ値のバーコードは、死細胞、膜が壊れた細胞、またはダブレットに該当する可能性があります。これらの外れ値を含めると、データ解析結果に偏りが生じる可能性があります。バイアスのかかった結果は、損傷細胞やストレス細胞由来の低品質ライブラリーや、ライブラリー調製時に発生したエラーからも生じる可能性があります（Malhotra et al.、2022）。

正規化

カウントマトリックスまたはリードマトリックスの各カウントは、mRNA分子のキャプチャー、逆転写、シーケンスが成功したことを表します。これらのステップは細胞によって異なるため、各細胞はそれに関連するリード数（カウント深度）が異なり、同一の細胞でもカウント深度が異なることがあります。そのため、カウントデータに基づいて細胞間の遺伝子発現を比較する場合、差はサンプリング効果のみに由来する可能性があります。細胞間の発現を正確に比較するためには、カウントデータをスケールする正規化を行い、細胞間の正しい相対遺伝子発現量を得る必要があります（Heumos et al.、2023; Luecken & Theis、2019）。

データ補正

上記のように正規化することで、異なる細胞からのサンプリング効果を除去しようとします。しかし、正規化されたデータにはまだ望ましくない変動性が含まれている可能性があります。これを解決するために、データ補正は、バッチ効果、脱落効果、細胞周期効果に由来する変動など、さらなる技術的・生物学的共変量を対象とします（Luecken & Theis、2019）。

特徴選択

各ヒトscRNA-seqデータセットには、多数の細胞（最大25,000遺伝子）からの遺伝子発現測定値が集約されて含まれることがあるため、scRNA-seqデータでは遺伝子発現ゼロの遺伝子の割合が高くなるのが一般的です。ゼロカウントは品質管理ステップでフィルタリングされるが、各scRNA-seqデータセットの特徴空間は15,000次元を超えることがあります。従って、データセットの次元を減らすために特徴選択を行う必要があります。そうすることで、下流の解析における計算負荷が軽減され、データ中のノイズが減少し、データがより良く可視化されます。特徴選択中、遺伝子はフィルタリングされ、各異なる細胞タイプの全細胞にわたって計算された、予想よりも高い分散を持つ遺伝子（または変動の大きい遺伝子）のみが、下流解析のために選択されます（Luecken & Theis、2019）。

可視化

scRNA-seqデータを可視化することは、意味のある生物学的情報を抽出し、新規細胞タイプを同定するのに有用です。scRNA-seqの可視化で最も一般的な方法は、教師なし非線形次元削減技術のt-distributed stochastic neighbor embedding（t-SNE）です。

ダウンストリーム解析

データの前処理と可視化は、scRNA-seqデータの根本的な特性を抽象的に定義しているに過ぎないため、生物学的洞察を引き出し、根本的な生物学的システムをさらに記述するためには、ダウンストリーム解析を行う必要があります。ダウンストリーム解析法には主にクラスター解析とトラジェクトリー解析が含まれます（Luecken & Theis、2019）。

クラスター解析

クラスタリング

クラスタリングは、細胞集団を同定し、細胞間の不均一性を特徴付けるために、類似した発現プロファイルを持つ遺伝子を個別の機能クラスターにグループ化する手法です。細胞をクラスターに構造化することで、類似した細胞の同一性を推測することができます。クラスターは、縮小された発現空間におけるクラスター内距離を最小化することで導き出すことができます。発現空間は細胞の遺伝子発現の類似性を次元削減された表現に関して決定します。この低次元表現は、主成分分析とユークリッド距離に基づく類似性スコアリングで決定できます。K-meansクラスタリング、階層的クラスタリング、自己組織化マップ、様々なモデルベースの手法など、多くのクラスタリング手法が利用可能です（Kim et al.、2007）。

クラスタリングアノテーション

クラスタリング注釈は、生成された各クラスタ内のセルに識別子を割り当てるために使用されます。各クラスターの同一性は、発現量の異なる遺伝子の計算によって、あるいは不偏マーカーを用いて定義することができます。これらは、データセットで予想される細胞タイプの特定のマーカー遺伝子リストとオーバーラップされます。不偏マーカーは統計的検定やバイオインフォマティクス解析ツールの入力として使用できます（Pasquini et al.、2021)。

構成分析

クラスター化されたデータは、その構成構造の観点から分析することができます。組成分析は、異なる条件（例えば、疾患対正常、ノックアウト対野生型自然集団で最も頻繁に見られる遺伝子と特性と表現型。 More、処理対未処理サンプル）間の細胞タイプ組成の変化を測定するために、各細胞同一性クラスターに入る細胞の割合を分析することで解決します（Simmons、2022）。

軌道解析

軌跡の推論

観察された異質性の発生を促進する生物学的プロセスは動的な過程であるため、クラスタリング解析だけでは細胞の多様性を十分に説明することはできません。従って、細胞がどのように異なる状態を通過するかを知るためには、軌跡推論などの軌跡解析手法を用いて遺伝子発現の動的モデルを作成する必要があります。軌跡推論法はscRNAデータを動的プロセスのスナップショットとして解釈します。この方法では、軌跡上の細胞の相対的な位置を表す変数であるpseudotimeの値に基づいて細胞を軌跡や経路上に配置することで、動的なプロセスを再構築することができます。擬似時間の値が大きいほど、そのセルはルート・セルから遠くなります（Luecken & Theis、2019）。

Basepairは、FASTQやBAMなど生データをアップロードして、パイプラインを選択するだけの簡単操作でシングルセルRNA-Seqのデータ解析が可能です。多サンプルのグループ間比較も簡単です。Seuratなども実装済みです。

Basepairについてみる

参考文献

Andrews, T.　S., Kiselev, V. Y., McCarthy, D. et al. (2021). Tutorial: guidelines for the computational analysis of single-cell RNARNA (Ribonucleic acid) はすべての細胞に存在する一本鎖核酸で、窒素塩基とリン酸基に結合したリボース糖であるヌクレオチドで構成されています。 More sequencing data. Nat Protoc, 16, 1–9, https://doi.org/10.1038/s41596-020-00409-w

Azizi, E., Carr, A. J., Plitas, G., et al. (2018). Single-Cell Map of Diverse Immune Phenotypes in the Breast Tumor Microenvironment. Cell, 174(5):1293-1308.e36. doi: 10.1016/j.cell.2018.05.060. https://pubmed.ncbi.nlm.nih.gov/29961579/

GibHub. (2022). Introduction to single-cell RNA-seq. GitHub. https://hbctraining.github.io/scRNA-seq/lessons/02_SC_generation_of_count_matrix.html

Heumos, L., Schaar, A.C., Lance, C. et al. (2023). Best practices for single-cell analysis across modalities. Nat Rev Genet, 24, 550–572. doi: 10.1038/s41576-023-00586-w. https://www.nature.com/articles/s41576-023-00586-w#citeas

Islam, S., Zeisel, A., Joost, S., et al. (2014). Quantitative single-cell RNA-seq with unique molecular identifiers. Nat. Methods, 11(2): 163–66. https://pubmed.ncbi.nlm.nih.gov/24363023/

Kim, K., Zhang, S., Jiang, K. et al. (2007). Measuring similarities between gene expression profiles through new data transformations. BMC Bioinformatics, 8, 29. doi: 10.1186/1471-2105-8-29. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-29#citeas

Klein, A. M., Mazutis, L., Akartuna, I., et al. (2015). Droplet barcoding for single-cell transcriptomics applied to embryonic stem cells. Cell, 161(5): 1187-1201. doi: 10.1016/j.cell.2015.04.044. https://pubmed.ncbi.nlm.nih.gov/26000487 /

Luecken, M. D., Theis, F. J. (2019). Current best practices in single-cell RNA-seq analysis: a tutorial. Mol Syst Biol, 15: e8746. doi: 10.15252/msb.20188746. https://doi.org/10.15252/msb.20188746

Malhotra, A., Das, S., Rai, S. N. (2022). Analysis of single-cell RNA sequencing data: a step-by-step guide. J Biomed, 2(1): 43-61. doi: 10.3390/biomedinformatics2010003. https://doi.org/10.3390/biomedinformatics2010003

Novogene. (2011). Differentiation and application of single cell RNA sequencing data analysis. Novogene Co., Ltd. https://www.novogene.com/eu-en/wp-content/uploads/sites/7/2022/11/Differentiation-and-Application-of-Single-Cell-RNA-Sequencing-Data-Analysis-1.pdf

Parekh, S., Ziegenhain, C., Vieth, B., et al. (2018). zUMIs – A fast and flexible pipeline to process RNA sequencing data with UMIs. Gigascience. 7(6): giy059. doi: 10.1093/gigascience/giy059. https://pubmed.ncbi.nlm.nih.gov/29846586/

Pasquini, G., Arias, J. E. R., Schäfer, P. et al. (2021). Automated methods for cell type annotation on scRNA-seq data. Comput Struct Biotechnol, 19, 961-969. https://doi.org/10.1016/j.csbj.2021.01.015

Simmons, S. (2022). Cell type composition analysis: Comparison of statistical methods. bioRxiv. https://doi.org/10.1101/2022.02.04.479123

Zheng, G., Terry, J., Belgrader, P. et al. (2017). Massively parallel digital transcriptional profiling of single cells. Nat Commun, 8, 14049. doi: 0.1038/ncomms14049. https://www.nature.com/articles/ncomms14049#citeas

10x Genomics. (2023a). Inside Chromium next GEM technology. 10x Genomics. https://pages.10xgenomics.com/rs/446-PBO-704/images/10x_LIT025_Inside-Chromium-Next-GEM-Technology_Letter_Digital.pdf

10x Genomics. (2023b). What is a barcode whitelist?. 10x Genomics. https://kb.10xgenomics.com/hc/en-us/articles/115004506263-What-is-a-barcode-whitelist-#:~:text=Answer%3A%20A%20barcode%20whitelist%20is,are%20available%20during%20library%20preparation.