Synbio, Bioengineering, Bioinfomatics関連の研究について書いたりするかもしれません。

MENU

合成生物学論文メモ (Jul 2022)

読み流した論文のメモ。黒色はメモ、緑色は感想、赤色は特に面白いと思ったもの。19報。

Synthetic Biology

Transcription/Translation Control

遺伝子回路、転写翻訳制御など
E.coliにおいてRBSの一部(spacer region: -7~-2, SDの一部: -17~-12)を対象に~20,000の変異体を作成してスクリーニングした。CDSGFPRFPを使用したそれぞれの場合で蛍光量の相関が高いものをLCD(low context-dependence)配列として同定し、解析およびその他のCDS(GFP上流に他のタンパクのN末端36ntを繋げたもの)での発現量の定量を行なった。部位としてはspacer regionはコンテクスト依存性が低く、特にAC-richな場合は異なるCDS間での相関係数が0.714となった。
GFP発現量の比較が難しいからだとは思うが、36ntの付加でCDSの異なるコンテクストとして妥当かは少し疑問。
シアノバクテリア(S. elongatus)においてAHLに反応する遺伝子回路を組み込み、E.coliからのAHL発現をシグナルとして遺伝子発現を行うQSシステムを実装した。3種類のTF(LuxR, TraR, LasR)についてS.elongatus, E.coliそれぞれで反応曲線を定量すると、いずれのTF回路についてもE.coliでのOFF状態での発現量(basal expression)はS.elongatesよりも低かったが、その他の傾向については細かい違いはあったものの概ね一致した。共培養系でE.coliのAHL発現を誘導すると、S.elongatusからの蛍光タンパク質(mNeonGreen)発現量や光合成を介したスクロースの産生量を増加させる事が出来た。
OFFの時の発現漏れは他のシステムの導入で工夫出来そう。

Cell-free / Reconstruction

無細胞系、再構成など
ウィルス様キャプシドによる酵素リアクターの作成において、酵素の種類によってキャプシドタンパクの長さや酵素との混合割合の最適化が必要である。最適化の手間を解決するため、P22バクテリオファージ由来のキャプシドタンパクの長さや酵素との接続有無を変えた6種類のプラスミドを作成し、簡便に検証できる系を開発した。YFPと3種類のMK(mevalonate kinase)で最適化の実証を行った。

Optogenetics

光駆動型ツール、蛍光イメージング、光受容体など、その他〇〇genetics系
青色光照射によってミトコンドリアの分裂を促進するシステムを実装した。CRY2/CIBをそれぞれミトコンドリア膜結合タンパク(TOM20)およびリソソーム結合タンパク(LAMP)と繋げ、光照射時のCRY2/CIB結合によってリソソームをミトコンドリアリクルート可能にした。また、光照射(20min)で分裂したミトコンドリアは24hの暗条件によって再結合した。応用例として、ミトコンドリアが長くなり(hyperfused)好気呼吸機能が低下する変異体で分裂を促進すると、酸素消費速度とATP合成量が部分的に回復した。
ミトコンドリアの再結合の方のメカニズムは知らないが、こちらも誘導出来たら面白そう。

Protein Engineering

タンパク質工学
所望の立体構造を持つタンパク質をデザインするにあたって、既存手法でwet実測との乖離が起きやすかった問題点をモデルの工夫と問題の読み替えの2つのアプローチで改善した。BERTの入力としてはターゲット残基の周辺に配置されるアミノ酸の情報を用いて、ターゲット残基のアミノ酸、側鎖の配座、溶媒アクセシビリティ等のmultitask予測を事前学習として行なった。事前学習後のモデルを用いて、アミノ酸を段階的に配列が収束するまで変異を重ね、最終的な配列をデザイン配列とした。デザインした配列はRosettaによるエネルギー予測、AF2による構造予測と良く一致した他、wet実験で結晶構造解析を行なったものについても予測に近い構造が得られた。
事前学習法の工夫が面白かった。デザインの構造->配列ステップは続々と出てきている感じがある。
  • De novo design of protein homodimers containing tunable symmetric protein pockets
  • Authors: Hicks, Derrick R; Kennedy, Madison A; Thompson, Kirsten A; DeWitt, Michelle; Coventry, Brian; Kang, Alex; Bera, Asim K; Brunette, T J; Sankaran, Banumathi; Stoddard, Barry; Baker, David
  • Journal: Proceedings of the National Academy of Sciences of the United States of America
  • Year: 2022
  • DOI: 10.1073/pnas.2113400119
  • Institution: University of Washington, USA
2回回転対称なタンパク質オリゴマーをデザインする計算科学的手法を改善した。Rosettaモンテカルロサンプリングでは特定の構造モチーフを取得するのが難しかったが、配列がリピートする様な制約をかける事でこの点を解決した。デザインした101配列を対象とした実証実験では、44/101の構造で水溶性を、36/44の構造でヘリックス性(circular dichroism)を、31/36の構造でSAXS(small angle X-ray scattering)の結果が予測と近いプロファイルになる事をそれぞれ確認した。結晶構造を解いた2つのサンプルはデザインした通りの構造を取った。
デザインの各ステップが明快だった。水溶性の時点で大分サンプルが削れてしまったのでその点を考慮すればより良さそう。
  • Logic-gated antibody pairs that selectively act on cells co-expressing two antigens
  • Authors: Oostindie, Simone C; Rinaldi, Derek A; Zom, Gijs G; Wester, Michael J; Paulet, Desiree; Al-Tamimi, Kusai; van der Meijden, Els; Scheick, Jennifer R; Wilpshaar, Tessa; de Jong, Bart; Hoff-van den Broek, Marloes; Grattan, Rachel M; Oosterhoff, Janita J; Vignau, Julie; Verploegen, Sandra; Boross, Peter; Beurskens, Frank J; Lidke, Diane S; Schuurman, Janine; de Jong, Rob N
  • Journal: Nature biotechnology
  • Year: 2022
  • DOI: 10.1038/s41587-022-01384-1
  • Institution: Leiden University Medical Center, Netherlands
二種類のIgGが同時に結合する時のみオリゴマー形成が起こる様な論理ゲートを実装し、抗原への特異性を高めた。ホモ6量体を形成しにくいIgGのFcドメイン変異体(K439E, S440K)に対し、下流の免疫反応に必要なFcγR, C1qエフェクタとの結合を弱める変異(G236R, G237A)を新たに加えた。これによりエフェクタ存在下でのヘテロ6量体形成への嗜好性を向上させた。
二段階でオリゴマーの嗜好性を制御している点が面白かった。
Kemp eliminaseを対象に、酵素活性の変化をMaximum Entropy Modelで解析した。directed evolutionで得られた変異体ではモデルのスコアはk_catやk_cat/Kmと正の相関を示し、これは酵素活性と熱力学的な安定性とのトレードオフとして説明できる可能性がある。一方で活性部位から離れた残基の変異については負の相関を示した。
事前学習モデルがこれらの特徴をどれ位捉えられているか調べたら面白そう。酵素活性以外の特性にも当てはまるかは検証できると面白い。

CRISPR/Cas

クリスパー系
Cas1-Cas2インテグラーゼと逆転写されるncRNA(retron)の特性を利用して、同一細胞内の転写イベント時系列をCRISPR arrayとして物理的に記録する仕組みを開発した。初めにretronのCRISPR arrayへの組み込みを系として確立した後、同じCRISPR array中でも識別できる6種類の互いに直交なバーコード配列を設計した。システムのスペックを計測後、転写イベントをポアソン過程でモデル化してシミュレーションを行った。シミュレーションの結果、シーケンスリード数(~10^5)、転写イベント間の経過時間(~24h)、retronのシグナル強度が識別能に重要な事が分かった。
転写の計測に新たな次元が加わった感じで発展性がすごい。色々と最適化の余地はありそうなので期待。

Metabolic/Signal Pathway Engineering

シグナル経路、代謝経路、代謝酵素工学など
E.coliにおいてserotonin産生系を構築するにあたって、補因子であるBH4を細胞内で再生産する系の導入により産生量を向上させた。

DNA / Biophysics

DNA、核酸論理回路、ナノスケール構造物など
DNA折り紙を使って細胞表面に物理刺激をかける構造体: Nano-winchを作成した。パーツの配列長を変化させる事で物理刺激の肝となる部分の長さを変え、かかる圧力を調整した。また、DNAを後から加える事でパーツを変化させられる系も作成した。応用例として、物理刺激に反応するレセプターであるintegrinを活性化して下流のシグナルをONにする事が出来た。
シンプルにすごい。現状はコレステロールで細胞膜に接着させているが、nanobody等で特異性を持たせることも出来るかもしれないとのこと。

Alternative Hosts / Strain Engineering

宿主や系統株の開発
アグロバクテリウム(A. tumefaciens)の表面に抗体VHHを発現させることで、酵母や哺乳類細胞への細胞接着を促進し、ホスト細胞への感染効率を向上させた。初めにA. tumefaciensのautotransporter遺伝子を同定し、細胞外に表出する部分をVHHに置き換えてタンパク質提示を可能にした。実証として、split-Nanolucの小サブユニットをA.tumefaciensからHeLa細胞へ運搬させて発光を確認した。
autotransporterのデザインからするのが大変そう、面白かった。

Miscellany

その他
タンパク質相互作用を定量するyeast two-hybrid assayにおいて、affinityの高いレンジで解像度が低くなってしまう問題を、タンパク質発現量を調節する事で解決した。

Computational Biology / Bioinformatics

Representation Learning

核酸アミノ酸配列の表現学習
2階層のVQ-VAEを用いて細胞画像からタンパク質の局在に関与する特徴抽出を行うモデルCytoselfを作成した。自己教師あり学習では細胞画像の再構成を行い、VAEで得られた低次元ベクターからタンパク質ラベルの予測を行った。この時、外側のVAEの表現ベクター(25*25*64)をlocalな、内側VAEの表現ベクター(4*4*576)をglobalな特徴量とした。既存のモデルの分類性能を上回った他、低次元の埋め込みのプロファイルからラベル未知のタンパク質の局在部位を推察可能である事を示した。
階層的な表現学習は配列に対しても二次構造やIDR予測等で応用できそう。
事前学習済みのタンパク質生成モデルProtGPT2を作成した。生成配列の妥当性を評価するため、天然変性領域(IUPred3で予測)と二次構造(PSIPREDで予測)を天然配列と比べると各特徴が同等の割合で見られた。また、ホモロジー探索(HHblits)による比較をすると、全体の傾向(identity vs alignment length)としては天然配列と生成配列は近かったが、生成配列にはデータベース(UniClust30)を丸暗記しているような傾向は見られなかった。また、立体構造予測(Rosetta, MD simulation, AlphaFold)による比較では、全体の傾向は天然配列と近かった一方で、天然の配列には無いトポロジーが複数見つかった。
ドライ側では難しいが、今後の実証実験でどの程度の性能が出るか楽しみ。
バクテリアのメタゲノムデータから遺伝子クラスタ(BGC: biosynthesis gene cluster)を予測する言語モデルを作成した。モデル構造はByteNetとCNNを組み合わせた形で、Pfam embeddingを入力としてMLM(masked language modeling)による事前学習を行なった。MLMの予測精度自体はPfam embeddingをランダムにした場合とESM-1bの出力表現を用いた場合とで大きな差は無かったが、訓練後の潜在表現の分布はESM-1bを用いた方が遥かに良くファミリーごとのクラスタを形成した。事前学習直後のモデルではBGCの開始位置(AUC=0.720)と当該ドメインがBGCかどうか(AUC=0.876)を高精度で予測できた他、その後のfinetuningでは精度が向上した(AUC=0.941、ただし事前学習なしでもAUC=0.937)。
Fine-tuning後の性能が振るわなかったのは残念だが、事前学習後の性能が良いのでdiscussionにもある様にマイニングに良さそう。
抗コロナウィルス性ペプチドを予測するタスクにおいて、データセット特異的なword2vecを作成する事でSOTAを達成した。古典的なアミノ酸配列の埋め込み(one-hot, AAC, BLOSUM62など)とword2vecとを、幾つかのMLモデル(Transformer, BiLSTM, CNN, RF, SVM)と組み合わせたところ、word2vec+RFが最も良い精度だった。
データセットが小さいとやはり潜在表現を使う方向性の方が良さそう。タンパク質言語モデルの潜在表現は精度が出なかったのかは気になる。
タンパク質変異体のfitness予測を行うにあたって、GPT2に工夫を加えたモデルを事前学習し、SOTAを達成した。また、DMS(deep mutational scanning)データと予測タスク(置換データセットが87種類、indelデータセットが7種類)をまとめたライブラリProteinGymを作成した。モデル構造としては通常の1-merを処理するattention headと並列に3-mer, 5-mer, 7-merを畳み込んだものを扱うattention headを組み込み、k-mer特徴を明示的かつヘッド特異的に学習させた。データセットが1塩基置換に偏っている点には注意が必要とのこと。

Deep Learning

深層学習を使ったバイオインフォ系のタスク
MSAを使わずにタンパク質立体構造を予測するモデルを作成した。タンパク質言語モデルから取り出した配列潜在表現とattention mapを下流の立体構造予測部分(AF2のEvoformerとstructure modelingの派生)の入力として使った。MSAフリーのモデルとしてはSOTAを達成した他、一部のデータセットではMSAモデルに匹敵する精度を示した。また、入力配列長によるスケールはあるものの、短い(<800)配列ではAF2やRosettaFoldに比べて100-1000倍早い計算速度を達成した。