単一の300merオリゴプールを使用して、ヒトタンパク質の転写リプレッサードメインを特定するためのハイスループットリクルートアッセイ

はじめに

病気の根底にあるメカニズムを解明するためには、タンパク質がヒト細胞でどのように機能するかを理解することが重要です。機能性タンパク質の研究は、タンパク質の配列空間とその変異体突然変異によって生じる生物または新しい遺伝的性質。 More が膨大であるため、困難な場合があります (Craig et al.、2014)。このため、ヒトゲノムにコードされている20,000種類のタンパク質のうち、約4,000種類の機能が未知のままです。

タンパク質の関連する配列の特徴の中で、ドメインタンパク質の異なる機能単位および／または構造単位。通常、ドメインは特定の機能や相互作用を担い、タンパク質の全体的な役割に貢献しています。 More は重要な位置を占めています (Forslund & Sonnhammer、2008)。ドメインは、独自に折りたたむことができるタンパク質構造のコンパクトな領域です。通常、各ドメインには個別のフォールド（折り畳み）があり、特定のタスクを実行します。小さなタンパク質は多くの場合、単一のドメインのみで構成されていますが、ほとんどの大きなタンパク質は、さまざまな細胞機能を達成するために複数のドメインで構成されています。ドメインは独立して機能することも、隣接するドメインと協力することもでき、ドメインのさまざまな配置により、さまざまな機能のタンパク質を作成できます。ドメインは構造タンパク質アーキテクチャモジュールであるため、タンパク質機能は特定のドメインにリンクされていると想定されているため、タンパク質ドメインの研究はタンパク質機能を理解するために重要です (Wang et al.、2021)。

転写因子DNAをRNAに転写する過程に関与するタンパク質。 More (Transcription factors、TF) は、遺伝子発現の調節において重要な役割を果たすタンパク質であり、それによって細胞の分化、発生、免疫調節などの多様な生物学的プロセスに影響を与えます。ほとんどのTFは、その機能を達成するために、DNA結合ドメインとエフェクタードメインという2種類の主要なタンパク質ドメインで構成されています。DNA結合ドメインは、特定のDNA配列を認識することによってTFをターゲットのゲノム調節領域に誘導しますが、エフェクタードメインは、補因子、酵素、およびメディエーターとの相互作用などのいくつかのメカニズムを介してターゲット遺伝子の発現を活性化または抑制します(Sotoetal.、2022)。遺伝子発現を活性化および抑制するエフェクタードメインは、それぞれアクティベータードメインおよびリプレッサードメインと呼ばれます。TFのDNA結合ドメインに関する多くの研究がありますが、TF機能におけるエフェクタードメインに関する包括的な知識はまだ限られています(Sotoetal.、2022)。転写を媒介するエフェクタードメインを特定し、これらのエフェクタードメインのアミノ酸組成を特徴付けると、遺伝子調節に関する理解が深まり、ヒト疾患における調節不全の遺伝子発現を修正するためのより良いアプローチを考案できるようになります(Tycko et al.、2020; Zhu & Huq、2011)。

エフェクター機能は、伝統的に採用アッセイで測定されてきました。このアッセイでは、レポータープロモーター活性を測定するために細胞に導入される発現ベクター中のプロモーター配列またはエレメントに結合した外来性コード領域。 More 遺伝子の上流のプロモーター遺伝子の上流にあるDNAの領域で、RNAポリメラーゼや転写因子などの関連タンパク質が結合し、遺伝子の転写を開始します。 More を標的とする合成DNA結合ドメインに、候補エフェクタードメインが融合されます。候補が転写エフェクターとして機能すると、レポーター遺伝子の発現が変化します。このアッセイは個々のタンパク質を特徴付けるために適用されていますが、各エフェクタードメインをクローニングし、細胞に送達して測定する必要があるため、柔軟性とスループットは低くなります (Tycko et al.、2020)。したがって、高スループット方法でタンパク質エフェクタードメインを特徴付ける方法を開発する必要があります。

大規模なDNA合成技術の使用により、何千もの固有のエフェクター配列を含むライブラリーを作成できます。候補エフェクタードメインの長さは10アミノ酸から300を超えるアミノ酸まで変化する可能性があり、堅牢なオリゴヌクレオチド合成は長さがわずか約150ヌクレオチド(つまり50アミノ酸)に制限されていたため、より構造化されたものや、より長い潜在的なリプレッサードメインについて研究を行うことは困難でした。Twist Bioscienceは、長さが最大300ヌクレオチド (300mer) の非常に均一で正確なオリゴヌクレオチドヌクレオチド数が少なく、短くて直鎖状のDNAまたはRNA More (オリゴ)プールを合成できるシリコンプラットフォームを開発しました。この機能により、科学者は、長くて高度に構造化されたものであっても、より多くの候補エフェクタードメインを研究することができます。

このアプリケーションノートでは、新規のハイスループットリクルートメント (HT-recruit)アッセイについて説明します。このアッセイは、数千の核タンパク質ドメインをハイスループットでスクリーニングして、ヒト細胞の注釈付き、注釈なし、および変異生物のゲノムの核酸配列の変化。 More核タンパク質ドメインにおけるリプレッサー機能を特定できます。このHT-recruitアッセイでは、Twist Bioscienceの300mer オリゴプール一本鎖オリゴヌクレオチド（オリゴ）のコレクションまたはライブラリー。 More 、磁気細胞選択、および次世代シーケンス次世代シーケンス（NGS、Next generation sequencing) は、ゲノム全体、あるいはDNAやRNAの標的領域のヌクレオチドの順序を同時に決定できる強力な技術です。 More (NGS)が使用されました。3つのスクリーニングが実行されました: 1) リプレッサー機能に関する数千のPFAM注釈付き核タンパク質ドメインのスクリーニング、2) タンパク質タイリングアプローチを使用した注釈なし核タンパク質ドメイン内のリプレッサードメインの発見、および3) アミノ酸バリアントを特定するためのディープミューテーションスキャン CRISPRiCRISPRi（CRISPR interference）は、原核細胞および真核細胞において、遺伝子発現の配列特異的抑制を誘導する遺伝子改変技術です。 More システムのよく知られたKRABドメインのリプレッサー活性を変更します。この研究の総合的な結果は、ヒト核タンパク質配列における転写リプレッサー機能の解明におけるTwist Bioscienceの300merオリゴプールの能力を示します。

実験ワークフロー

HTリクルートアッセイワークフロー

図 1は、HTリクルートアッセイのワークフローを示しています。赤白血病細胞株であるK652細胞株は、蛍光シトリンマーカーおよび合成表面マーカー(IgκリーダーおよびPDGFRΒ膜貫通ドメインにリンクされたヒトIgG1Fc領域; Igκ-hIgG1-Fc-PDGFRβ)、磁気ビーズによるON細胞とOFF細胞の分離を可能にします。

ステップ1: ライブラリの生成

Twist Bioscienceは、シリコンベースのプラットフォーム上で、さまざまな潜在的エフェクタードメインをコードする300merオリゴのプールを合成しました(図 1a)。

ステップ2: ライブラリの増幅

プールされたライブラリーは、ポリメラーゼ連鎖反応 ( PCRPCR（Polymerase chain reaction、ポリメラーゼ連鎖反応）は、変性、オリゴヌクレオチドのアニーリング、および DNA ポリメラーゼ伸長のサイクルを繰り返すことによる核酸配列の酵素的増幅を伴う技術です。 More ) によって増幅されました(図 1b)。

ステップ3: ライブラリー・プールのクローン作成

プールされたライブラリーの個々のオリゴは、リバースTetリプレッサー (rTetR) dox誘導性DNA結合ドメインへの融合としてレンチウイルス特定の遺伝子配列を標的細胞に導入するために使用されるウイルスベクター。。 More ベクターにクローニングされ(図 1c)、プラスミドライブラリープールを形成しました(図 1d)。

ステップ4: スピンフェクションによるK562レポーター細胞の形質導入

合成レポーター(蛍光シトリンマーカーおよび合成表面マーカー)を含むK562細胞に、遠心分離による細胞への形質導入プロセスであるスピンフェクションによってレンチウイルスベクター生物内で安定的に維持できる小さなDNA断片で、クローニングの目的で外来DNA断片を挿入することができます。 More を形質導入しました(図 1e)。

ステップ5:ドキシサイクリン (dox) 治療による募集

形質導入に成功した細胞をdoxで処理して、合成レポーター遺伝子の上流のTetO部位でrTetRを介してリプレッサードメインの動員を誘導しました（図 1e、f）。doxの存在下で、抑圧的なrTetRドメイン融合を発現する細胞は、合成レポーター遺伝子のpEFプロモーターをサイレンシングすることができ、それによってOFF細胞で表されるように、レポーターの発現を阻害します。一方、抑制機能を欠くドメインを持つ形質導入細胞は、ON細胞で表されるように、合成レポーター遺伝子で発現し続けます（図 1e、f）。

ステップ6: 磁気マイクロビーズによるレポーター細胞の分離

5日間のdox処理後、表面に発現した合成レポーター遺伝子に結合した磁気マイクロビーズを使用して、ON細胞とOFF細胞を分離しました（図 1g）。

ステップ7: ONおよびOFF遺伝子発現によるドメインの配列決定

ONおよびOFFセルからのドメインを抽出し、配列を決定しました。抑制活性を持つドメイン (つまり、レポーター発現を欠くドメイン) が特定されました (図 1h)。

図1. HTリクルートアッセイのワークフロー。

HT-recruitワークフローは3つの画面に適用され、以下で説明する各画面で微調整が行われました。

スクリーニング1: リプレッサー機能に関する何千ものPFAM注釈付き核タンパク質ドメインのスクリーニング

スクリーニング2: タンパク質タイリングアプローチを使用した、注釈のない核タンパク質ドメインにおけるリプレッサードメインの発見

スクリーニング3: CRISPR干渉 (CRISPRi) で使用されるジンクフィンガー転写因子 (ZNF10) からのKRABリプレッサードメインの深い変異スキャン

スクリーニング1: リプレッサー機能のための数千のPFAM注釈付き核タンパク質ドメインのスクリーニング

このスクリーニングは、UniProtデータベースからPFAM注釈付き核タンパク質ドメインのリプレッサー機能を見つけることを目的としていました。300merとしてのTwist Bioscienceのプールされた合成に適合する、≤80アミノ酸のドメインが選択されました。PCR増幅ステップでの偏りを避けるために(図 1b)、80アミノ酸より短いドメインを80アミノ酸に延長しました。ライブラリ内のPFAMドメインの総数は5,093でした。DMDタンパク質上の80個のアミノ酸（240bp）または80個のアミノ酸を有する合計861個の配列も陰性対照として使用した。DMDタンパク質は核内に局在していないため、ネガティブコントロールとして使用されました。したがって、転写調節機能を持っている可能性は低いです (Twist Bioscience、2023; Tycko et al.、2020)。

スクリーニング2: タンパク質タイリングアプローチを使用した、注釈のない核タンパク質ドメインにおけるリプレッサードメインの発見

タイリングスクリーンの目的は、核タンパク質の注釈のない領域でエフェクタードメインを発見することでした。238の注釈のない核タンパク質のリストを選択して、タンパク質のタイリングを行いました。タンパク質タイリングは、ゲノムの領域に存在することが知られているが、その機能はほとんど知られていない配列を特徴付ける方法です (Wilson et al.、2006)。タンパク質タイリングでは、等間隔に配置された (重複または分離した) プローブを使用して、タンパク質配列の全長にまたがります。この画面では、タイル (長さ240ヌクレオチドまたは80アミノ酸) が重複パターンでずらされ、238核タンパク質の全長の30ヌクレオチドまたは10アミノ酸のタイリングウィンドウで区切られました (図 2)。画面1と同様に、361個のDMDタイリングネガティブコントロールタイルもこの画面に含まれており、合計15,737個のタイルになります。タイルはrTetRに融合され（図 1d、e）、HTリクルートが実行されました（図 1f）（Twist Bioscience、2023; Tycko et al.、2020）。

図2. 核タンパク質内のリプレッサードメインを検出するためのタイリングスクリーンの模式図。AAはアミノ酸を表します (Twist Bioscience、2023)。

スクリーニング3: CRISPRiで使用されるジンクフィンガー転写因子 (ZNF10) からのKRABリプレッサードメインの深い変異スキャン

この深い変異スクリーニングの目的は、ZNF10 KRABリプレッサードメインの配列と機能の関係を明らかにすることでした。ディープミューテーションスキャニング次世代シーケンス技術を用いて、1回の実験でタンパク質の105以上のユニークな変異体の活性を測定する方法。 More は、タンパク質のすべての残基を飽和変異させ、機能を特徴付けて、タンパク質の配列決定から機能へのマッピングを可能にする手法です (Kuiper et al.、2022; Starita & Fields、2015)。ZNF10のKRABドメインが選択されたのは、特にCRISPRiでの遺伝子抑制アプリケーションに広く使用されているためです(Tycko et al.、2020)。図 1に示すHT-recruitアッセイを使用して、ディープミューテーションスキャンを実行しました。ライブラリは、可能なすべての単一置換と、同じアミノ酸のすべての連続した二重置換および三重置換を使用して設計されました。InterProタンパク質ファミリーデータベースで見つかったヒトKRAB遺伝子のすべてのPFAM注釈付きKRABドメインと、5つのKRABジンクフィンガー遺伝子のタイリングシーケンスも画面に含まれていました。DMD遺伝子からの約300のランダム配列と200のタイルがネガティブコントロールとして使用され、5,731配列のライブラリサイズが得られました (Twist Bioscience、2023; Tycko et al.、2020)。

結果と議論

スクリーニング1: リプレッサー機能のための数千のPFAM注釈付き核タンパク質ドメインのスクリーニング

UniProtデータベースからのヒト核タンパク質のPFAMドメインの長さを図 3に示します。それらの約70%は≤80アミノ酸長であり、300merとしてプールされた合成と互換性があることを示しています (図 3)。PFAMドメインの転写活性をアッセイする前に、K562細胞で十分に発現しているものを特定しました。PFAMドメイン (3,014ドメイン) の66%が十分に発現されたドメインであることがわかり、これらのみがスクリーニングに使用されました。スクリーニング後、446個のPFAMドメインが転写抑制機能を持っていることがわかりました。リプレッサーヒットには、ZNF10のKRABやホメオドメインなどの既知のリプレッサードメインに加えて、DUF3669やDUF1087などの以前に特徴付けられた機能不明のドメイン (DUF) が含まれていました。スクリーニングが繰り返され、複製された結果は再現性が高いことが示されました(r²= 0.96) (Twist Bioscience、2023; Tycko et al.、2020)。このスクリーニングの結果は、HTリクルートアッセイが高い再現性でリプレッサーを特定できることを示しました。

図3. ヒト核タンパク質のPFAMドメインの長さ (Twist Bioscience、2023)。

スクリーニング2: タンパク質タイリングアプローチを使用した、注釈のない核タンパク質ドメインにおけるリプレッサードメインの発見

スクリーニングされた238のタンパク質のうち、141がタンパク質タイリングスクリーンでリプレッサーヒットドメインであることがわかりました。タイルの約4.3%が再現可能なヒットでした (r²= 0.72)。リプレッサーヒットの例には、BAZ2A (核リモデリング複合体コンポーネント)、TET1、TET2、TET3DNAデメタラーゼ、およびMGA転写因子の注釈のないドメインが含まれます。MGA転写因子の抑制機能は知られていますが、抑制活性の原因となるドメインは特定されていませんでした。このタイリングスクリーンにより、MGAの抑制機能を担う2つのドメイン (アミノ酸341～420および2381～2460)を特定できました (Twist Bioscience、2023; Tycko et al.、2020)。このスクリーニングの結果は、HTリクルートアッセイが、注釈のないドメインのリプレッサー機能を発見できることを明らかにしました。

スクリーニング3: CRISPRiで使用される亜鉛フィンガー転写因子 (ZNF10) からのKRABリプレッサードメインの深い変異スキャン

深い変異スキャンから、ZNF10 KRABエフェクタードメインの抑制機能に必要な13のアミノ酸残基が見つかりました。これらの残基は、KRABドメインの2つの重要な構成要素であるAボックス領域とBボックス領域に寄与しています。Aボックス領域は、DNA結合TFに結合することによって遺伝子発現を抑制する分子であるコリプレッサーKAP1の結合に不可欠ですが、Bボックス領域はKAP1結合を強化するために必要です (Peng et al.、2017; Tycko et al.、2020）。ディープミューテーションスクリーニングの再現性は高かった（r²= 0.93) (Twist Bioscience、2023; Tycko et al.、2020)。結果は、CRISPRi KRABリプレッサードメインの深い変異スキャンにより、それらのアミノ酸バリアントと抑制機能との関係を理解できることを示しました。

TF機能のエフェクタードメインに関する包括的な知識はまだ不足しており、エフェクター機能を測定するための既存のリクルートメントアッセイはスループットが低いため (El-Gebali et al.、2019)、よりハイスループットな機能スクリーニングの必要性を克服するためにHTリクルートが開発されました。3つの画面の集合的な結果は、HTリクルートアッセイが抑制機能を未知の機能を持つものを含むPFAMドメインと関連付けることができ (スクリーニング1)、タンパク質の注釈のない領域でエフェクタードメインを発見し (スクリーニング2)、アミノ基を識別することができたことを示しています。ZNF10 KRABエフェクタードメインのリプレッサー機能に影響を与える酸バリアント (スクリーニング3)。

HT-recruitの成功は、ライブラリーの調製に高品質のオリゴプールを使用することに大きく依存します (図 1a)。高い均一性と高い配列忠実度を含むオリゴプールの品質機能は、スクリーニングの感度と成功、およびスクリーニングの再現性に直接影響します。レプリケートされた画面の再現性は、r²値または決定係数。これは、画面全体の複製間の相関の尺度です(Twist Bioscience、2023)。シリコンプラットフォームでTwist Bioscienceによって製造されたオリゴプールを使用すると、実行された3つのスクリーニングすべてで再現性の高いスクリーニング結果が得られました。r²値 (r²= スクリーニング1、2、3でそれぞれ0.96、0.72、0.93)、この研究で使用されたTwist Bioscienceの300merオリゴプールが高品質であることを確認しました。スクリーニングの感度と成功にはオリゴプールの品質が重要ですが、各オリゴでスクリーニングするコンテンツの量を決定するには、オリゴの長さも重要です。これは、この研究の画面2のようなタンパク質タイリング画面に特に関連しています。

結論

HTリクルートアッセイは、Twist Bioscienceによって製造された均一で正確な300merオリゴプールを使用して、K562細胞の注釈付き、注釈なし、および変異核タンパク質ドメインのリプレッサー機能を正常に特定しました。約446のPFAM注釈付きドメインが転写リプレッサー機能を持っていることがわかりました。そのうちのいくつかは未知の機能のドメインです。タンパク質タイリングアプローチでは、BAZ2A、TET1、TET2、TET3DNAデメタラーゼ、およびMGATFの注釈のないドメインのタンパク質を含む、141のタンパク質がリプレッサーヒットであることがわかりました。MGAの抑制機能に関与する2つのドメイン(アミノ酸341～420および2381～2460)も特定されました。深部変異スキャンでは、ZNF10 KRABエフェクターの抑制機能に必要な13のアミノ酸残基が特定されました。非常に均一で正確なオリゴプールの使用により、3つのスクリーンすべての再現性が高くなりました。この研究の総合的な結果は、合成された300merオリゴプールとHTリクルートアッセイを使用したエフェクタードメインのスクリーニングと分析を通じて、転写エフェクターメカニズムの知識を深める段階を設定し、転写を制御するためのより良いアプローチを可能にすることを示しています。

参考文献

Craig, N. L., Cohen-Fix, O., Green, R. et al. (2014). Molecular Biology: Principles of Genome Function. 2nd ed., Oxford University Press.

El-Gebali, S., Mistry, J., Bateman, A. et al. (2019). The Pfam protein families database in 2019. Nucleic Acids Res, 47(D1): D427–D432. doi: 10.1093/nar/gky995. https://pubmed.ncbi.nlm.nih.gov/30357350

Forslund, K., Sonnhammer, E. L. L. (2008). Predicting protein function from domain content. Bioinformatics, 24(15): 1681-1687. doi:10.1093/bioinformatics/btn312. https://academic.oup.com/bioinformatics/article/24/15/1681/265929

Keiper, B. P., Prins, R. C., Billerbeck, S. (2022). Oligo pools as an affordable source of synthetic DNADNAは「deoxyribonucleic acid」の略で（デオキシリボ核酸）、2本のポリヌクレオチド鎖からなるポリマーで、互いに巻きついて二重らせんを形成しています。 More for cost‐effective library construction in protein‐ and metabolic pathway engineering. Chemiochem, 23(7): e202100507. doi: 10.1002/cbic.202100507. https://pubmed.ncbi.nlm.nih.gov/34817110

Peng, H., Gibson, L. C., Capili, A. D. et al. (2007). The structurally disordered KRAB repression domain is incorporated into a protease resistant core upon binding to KAP-1-RBCC domain. J Mol Bio, 370: 269–289. doi: 10.1016/j.jmb.2007.03.047. https://pubmed.ncbi.nlm.nih.gov/17512541

Soto, L., Li Z., Santoso, C. S. et al. (2022). Compendium of human transcription factor effector domains. Mol Cell, 82(3): 514–526. doi:10.1016/j.molcel.2021.11.007. https://pubmed.ncbi.nlm.nih.gov/34863368

Starita, L. M., Fields, S. (2015). Deep mutational scanning: a highly parallel method to measure the effects of mutation on protein function. Cold Spring Harb Protoc, 8: 711-714. doi: 10.1101/pdb.top077503. https://pubmed.ncbi.nlm.nih.gov/26240414/

Twist Bioscience. (2023). Versatile High-Throughput Screening for Transcriptional Repressor Domains Using a Single 300mer Oligo Pool. Twist Bioscience. https://www.twistbioscience.com/resources/application-note/versatile-high-throughput-screening-transcriptional-repressor-domains

Tycko, J., DelRosso, N., Hess, G. T. et al. (2020). High-throughput discovery and characterization of human transcriptional effectors. Cell, 183(7): 2020–2035.e16. doi:10.1016/j.cell.2020.11.024. https://pubmed.ncbi.nlm.nih.gov/33326746

Wang, Y., Zhang, H., Zhong, H. et al. (2021). Protein domain identification methods and online resources. Comput Struct Biotechnol J, 2(19): 1145-1153. doi: 10.1016/j.csbj.2021.01.041. https://pubmed.ncbi.nlm.nih.gov/33680357

Wilson, C. H., Tsykin, A., Wilkinson, C. R. et al. (2006). 1- Experimental design and analysis of microarray data. In D. K. Arora, R. M. Berka, G. B. Singh, Applied Mycology and Biotechnology (Vol. 6, pp. 1-336). Elsevier. https://doi.org/10.1016/S1874-5334(06)80004-3

Zhu, L., Huq, E. (2011). Mapping functional domains of transcription factors. Methods Mol Biol, 754: 167-84. doi: 10.1007/978-1-61779-154-3_9. https://pubmed.ncbi.nlm.nih.gov/21720952