技術服務熱線:800-820-5086 | 400-880-5086 登錄 | 注冊 ENGLISH

Cell 重磅綜述:關于人類轉錄因子,你想知道的都在這!

2020-04-01點擊9次
分享:

轉錄因子(Transcription Factors, TFs) 指能夠以序列特異性方式結合 DNA 并且調節轉錄的蛋白質。轉錄因子通過識別特定的 DNA 序列來控制染色質和轉錄,以形成指導基因組表達的復雜系統。盡管眾多科學家對理解轉錄因子如何控制基因表達有著濃厚的興趣,精準定位轉錄因子在基因組上的特異性結合位點,以及轉錄因子結合后最終如何參與轉錄調節仍然具有挑戰性。


本綜述主要涵蓋了 1600 多種可能的人類轉錄因子和與其中三分之二轉錄因子結合的 motif,來鑒定轉錄因子并對其功能進行注釋。本文根據目前對轉錄因子及其功能的理解,為思考轉錄因子如何單獨又如何作為整體工作提供了思路。




什么是轉錄因子

轉錄因子是對基因組的直接闡釋,是執行 DNA 解碼序列的第一步。許多轉錄因子充當著主調節因子和選擇基因的角色,控制著細胞類型的決定、發育模式和特定途徑控制(如免疫反應)的過程。在實驗室中,轉錄因子可以促進細胞分化、去分化和轉分化。轉錄因子和轉錄因子結合位點突變是人類致病的主要因素。在后生動物中,他們蛋白質序列調控區的生理作用通常非常保守,這表明基因組調控" 網絡 "可能同樣是保守的。但是,個別監管序列的轉換率很高,當時間尺度更長時,轉錄因子可能會發生多拷貝和突變。相同的轉錄因子可以調節不同細胞類型中的不同基因(例如,乳腺和子宮內膜細胞系中的 ESR1),這表明即使在同一生物體內轉錄因子的調節也是動態的。確定轉錄因子如何以不同方式組裝以識別綁定位點和調控" 網絡 "轉錄是一項龐大而令人望而生畏的工作,但是,對于理解它們的生理作用、解碼基因組的特定功能,以及在復雜生物中繪制高度特異性表達程序的編排是至關重要的。

相對于其他序列,轉錄因子對特異性結合序列具有 1,000 倍甚至更高的偏好,因為轉錄因子可以通過阻斷其他蛋白質的 DNA 結合位點進而發揮作用(例如,經典的 lambda,lac 和 trp 阻遏物),單獨結合特定 DNA 序列的能力通常被視為調節轉錄能力的指標。如果沒有轉錄因子結合的 DNA 序列的詳細信息,就不能在功能上理解這些蛋白質。轉錄因子與特異性 DNA 結合通常概括為“基序”(motif),是指給定 TF 優先的相關短序列組的模型,其可用于掃描較長序列(例如,啟動子)以鑒定潛在的結合位點。確定 DNA 結合的 motif 通常是詳細闡釋轉錄因子功能的第一步,鑒定潛在的結合位點為進一步分析提供了途徑。在過去的十年中,我們開發 motif 和基因組結合位點的能力得到了顯著提高,從而產生了關于 TF-DNA 相互作用的前所未有的大量數據。為了開發目前的 TF 目錄,本文主要參考了 TRANSFAC,JASPAR,HT-SELEX,UniPROBE 和 CisBP,以及先前的人類轉錄因子目錄。



如何識別轉錄因子

最早在 20 世紀 80 年代,就描述了真核生物中的主要 TF 家族,如 C2H2- 鋅指(ZF),同源域,堿性螺旋 - 環 - 螺旋(bHLH),堿性亮氨酸拉鏈(bZIP)和核激素受體(NHR)。通常通過諸如 DNA 酶足跡法或遷移率變換的方法鑒定結合位點,再使用 N - 末端肽測序,噬菌體文庫或單雜交篩選鑒定特定結合蛋白。繼續通過實驗方法鑒定(例如,單雜交測定,DNA 親和純化 - 質譜,和蛋白質微陣列可以篩選新的 DNA 結合蛋白),但是今天,大多數已知和推定的 TF 已經通過先前表征的 DNA 結合結構域(DBD)的序列同源性來鑒定,這也用于對 TF 進行分類。目前在蛋白質數據庫(PDB)中可獲得大約 100 種已知的真核生物 DBD 類型。迄今為止,除了少數充分表征的哺乳動物轉錄因子之外的所有轉錄因子都含有已知的 DBD。在僅基于與 DBD 的同源性匹配來推斷功能時必須小心,因為并非所有結構域都一定會結合特定 DNA 序列。



如何確定 TF-DNA 結合的 motif

首先根據結合位點中每個堿基的轉錄因子的相對偏好產生一張基礎表或“位置權重矩陣”(PWM)。在每個堿基位置,四個堿基中的每一個都具有得分,并且將序列的每個堿基的這些得分相乘來預測得到轉錄因子對該序列的相對親和力。在許多情況下,這反映了對一個或少數相關序列的強烈偏好。此外,PWM 還存在一些缺點:基線位置之間可能存在依賴關系由于 DNA 形狀或可變形性;轉錄因子可以具有多種結合模式(例如,蛋白質的不同物理構型導致分離的,不同的基序)等。為了解釋這些復雜性,科學家們開發了更復雜的模型,例如結合了對二核苷酸和高級 k -mers 的偏好,使得轉錄因子及其家族的準確性有所提高。然而,在許多情況下,改進的效果很小甚至檢測不到。PWM 仍然是分析轉錄因子結合最常用的模型,并術語“motif”來表示 PWM。

接下來通常通過實驗確定的結合位點和與 motif 匹配的序列之間僅存在部分重疊,甚至實驗確定的結合位點是相對較差的預測因子。同時,motif 匹配通常是 ChIP-seq(染色質免疫沉淀測序)數據集中最富集的序列之一,表明內在 DNA 結合的特異性對于體內轉錄因子的結合是重要的。出現這樣的現象不是空穴來風,大多數轉錄因子結合位點很小(通常是 6 -12 個堿基),并且是靈活的,因此典型的人類基因(> 20 kb)將包含大多數轉錄因子的多個潛在結合位點。因此我們需要通過其它途徑來解決問題,例如轉錄因子之間的協同性和協同作用,為這種特異性缺陷提供了一個現成的解決方案。大多數人類的轉錄因子必須共同努力才能完成任何事情,但是他們之間的相互作用和關系的細節大多數是未知的。結合 DNA 后轉錄因子的生物化學作用也在很大程度上未被反映出來。因此,解碼基因調控如何與 TF 結合基序和基因序列相關仍然是一個主要的現實層面的挑戰。



轉錄因子的協同性和與核小體相互作用

理論論證和實踐觀察表明,后生動物的轉錄因子一般必須共同作用才能與 DNA 結合,在效應功能中達到所需的特異性。轉錄因子有多種合作方式,例如幫助相互結合 DNA(協同結合)或通過不同機制影響染色質狀態或轉錄(協同調節)。TF 還可以作為同二聚體(例如,bZIP 和 bHLH),三聚體(例如,熱休克因子)或更高級結構協同結合。

協同結合可以通過幾種方式發生。當它由蛋白質 - 蛋白質相互作用介導時最容易理解,當兩個(或更多個)相互作用蛋白質以相容的間隔和方向結合 DNA 時,便賦予其額外的穩定性。高通量體外研究表明,協同結合常常影響復合物中轉錄因子的序列偏好,并且還可能對兩個結合位點之間的間隔序列產生限制。單分子成像的結果研究證實,當多個轉錄因子結合在一起時會占據更長時間。

最近的研究表明 DNA 介導的協同結合也在轉錄因子功能中起重要作用。分子建模和結構分析表明,在某些情況下,協同性是由于 DNA 促進了蛋白質之間的接觸。在其他情況下,蛋白質結合在 DNA 的對立面或彼此相對較遠的一邊,表明 DNA 直接介導了協同性。也就是說,一個轉錄因子的結合以促進另一個轉錄因子結合的方式影響 DNA 的形狀。

為了與核小體 DNA 結合,TF 必須與核小體競爭或以某種方式與核小體或核小體 DNA 相互作用以進入其位點。TF 也可內在地與核小體競爭結合 TF,此外,一些 TF 可以啟動核小體的置換或至少改變它們的構象。這些 TF 的活性也可能取決于它們結合核小體 DNA 的能力,這可能受核小體上結合位點的旋轉定位的影響(例如,Yamanaka 因子 POU5F1,SOX2,KLF4 和 MYC)。另一個有趣的現象是,不同的染色質重塑器具有特定 DNA 序列和 / 或核小體構象的偏好,表明核小體和核小體的定位機制賦予了 TF 功能上額外的 DNA 序列特異性。



轉錄因子效應器的功能

轉錄因子在與 DNA 結合時影響轉錄的方式變化很大。一些轉錄因子(例如,TBP)可以直接 RNA 招募聚合酶,還有一些可以招募促進特定轉錄階段的輔助因子。大多數真核生物的轉錄因子被認為通過招募輔助因子起作用。這種“共激活因子”和“輔阻遏物”最初被鑒定為轉錄因子效應子活性的介質,通常是大的多亞基蛋白質復合物,或通過幾種機制調節轉錄的多結構域蛋白質。它們通常涉及染色質結合,核小體重塑和組蛋白或其他蛋白質結構域的共價修飾。IFNβ 增強體是共激活因子招募的一個經典例子,其中多個轉錄因子的結合導致 GCN5 / KAT2A 和 CBP / p300 組蛋白乙酰轉移酶的募集。由此產生的局部染色質環境變化會引起核小體重塑,如 SWI / SNF 復合物為 RNA 聚合酶創造空間以結合并啟動轉錄。一些共激活因子和輔阻遏物似乎更廣泛。p300 經常被用作增強子的標記物,與數十種 TF 相關聯。連接 TF 和 RNA 聚合酶 II 的 Mediator 復合物類似地與數千個基因座相關聯。

特異性的效應結構域通常可以介導 TF 特異性輔助因子的招募。同樣,核激素受體的配體結合結構域以配體和背景依賴的方式促進與共激活因子、輔阻遏物和其他 TF 的相互作用。經大量研究后,發現蛋白質中存在的經典轉錄激活因子序列(例如,TP53,E2F 和 SP1 中發現的酸性序列),它們通常是非結構化的低復雜性序列,具有稱為短線性基序的小功能區域。

TF 傳統上被歸類為“激活物”和“阻遏物”;然而許多 TF 根據所在序列的位置和輔助因子的作用可以招募具有相反作用的多種輔助因子,例如,MAX 作為與 MNT 或 MXD1 作為異二聚體與 DNA 結合時起抑制劑作用,當作為異二聚體與 MYC 結合時起激活作用。目前還沒有全面的輔助因子目錄。此外,基因激活或增強子和啟動子之間的通信所需的生化功能在很大程度上仍然是未知的。人體中多達 443 種不同的染色質修飾蛋白已經做好了歸類,并且已經了解了輔助因子和染色質蛋白之間的許多相互作用。但是,相同的研究檢測到很少的 TF,這表明 TF- 輔助因子的相互作用是弱的 / 瞬時。



人類 TF 的合集

目前并沒有一個通用的解決方案可以自動生成我們所需要的列表,因此當下結構域無法精確地推測出轉錄因子,文庫又是高度不統一的,電子信息的注解有沒有一個統一的標準。最新的人類轉錄因子庫發表于 2009 年,總共涵蓋了 535 個人的轉錄因子,并描述了所推測的 DBD。近年來,該文庫迅速擴展。本綜述對人類轉錄因子集進行了一定程度的修訂。

本綜述手工查詢了 2,765 種蛋白質,為每種蛋白質創建了一個網頁,其中包含所有相關信息和外部數據庫的鏈接。本綜述考慮了全局序列比對和 DNA 已知的結合的殘基,以便在僅有亞基結合 DNA 的家族(例如,ARID,HMG 和 Myb / SANT)中對表征不佳的蛋白質做一個評估。考慮到可行性的因素,我們沒有搜索或記錄蛋白質修飾或結合配偶體等復雜性。 “HumanTFs”網站(http://humantfs.ccbr.utoronto.ca/)顯示結果,每個 TF 都有一個單獨的頁面,以及每種 DBD 類型的所有已知 motif 和信息以及序列比對。此網站還有一個用戶可以選擇提交其他信息的選項。


Table1. 判斷和識別 TF 特異性結合的實驗方法

最終記錄的 1,639 個已知或潛在的人類轉錄因子,其中大多數至少包含了兩種 DBD 類型中的一種(C2H2-ZFs 和 Homeodomains)。剩下近一半(46%)是另外六個 bHLH、bZIP、Forkhead、核激素受體、HMG / Sox 和 ETS(圖 1B)。在考慮了缺乏 DNA 序列特異性的已知亞類后,含有 Myb / SANT 和 HMG 結構域的 TF 比先前估計的少得多。1,639 個 TF 中的絕大多數(93%)或作為單體與 DNA 結合或作為同源多聚體與 DNA 結合。且許多都包含相同 DBD 類型的多拷貝(圖 1C),但其中大多數是 C2H2-ZF,它們與 DNA 按列結合(圖 1A)。每種蛋白質的 C2H2-ZF 數量變化很大,一定程度上取決于效應結構域(圖 1B)。含有 KRAB 的亞型中的大量 C2H2-ZF 可能是由于靶向單個轉座子所需的特異性。只有一小部分 TF(47 或?3%)含有多種類型的 DBD,而 POU 是最常見的同源域是最常見的(圖 1C)。大多數人類 TF 也含有其他蛋白質結構域(圖 1D):其中有 391 種不同類型的非 DNA 結合結構域,與 TF 效應子功能的多樣化和廣泛網絡的概念一致。

當前的 TF 列表可能仍然不完整,完整的 DBD 系列可能仍然未被完全發掘。實際上,由于缺乏規范的 DBD,此列表中的 69 個 TF 被歸類為“unknown family”。大多數這些蛋白質缺乏 motif(見下文),晶體結構基本上是無法獲得的,并且與 DNA 結合的證據僅包括在單個文庫中鑒定的少數序列。因此,在獲得更多實驗數據結果前,應謹慎對待此類別的 TF。

此外,一些已知的 DBD 系列可能比目前所理解的更大。例如,根據 Interpro 和 SMART 數據庫,預測的簡單的 AT 鉤結構域(由 13 個氨基酸 [aa] 共有序列表示)分別存在于 3 和 21 號人類基因中。然而,一個更寬泛的定義,只需要在 22 個堿基窗口上存在側翼為多個堿性殘基的 GRP 三肽(Aravind 和 Landsman,1998),它存在于數百種人類蛋白質中,每種蛋白質都可以代表真正的 TF。C2H2-ZF 家族也值得評估,因為出現了更好的模型來識別這些短的(?23 aa)結構域,并將參與 DNA 結合的那些區域與促進與 RNA 或其他蛋白質相互作用的區域區分開來(Brayer 和 Segal,2008)。


Figure1. 人類轉錄因子合集



人類轉錄因子的序列特異性

目前大約四分之三(1,211)的人類轉錄因子具有與其結合的 motif。已知 motif 中的 913 個是通過體外高通量法(例如 HT-SELEX 或 PBM)測定出來的。圖 1B 說明大多數類別的 TF 具有高或完全的 motif 覆蓋,而少數具有主要差異。例如,幾乎所有的同源結構域(188/196)都有一個已知或推斷的 motif,可能是由于它們相對容易在體外研究,它們的深層次的特點能夠通過同源性推斷。相比之下,C2H2-ZF 類轉錄因子目前缺少數百個 motif(267/747)(圖 1B),可能是因為它們難以在體外研究(許多是大蛋白),而且保守的相對較少。

許多 TF 識別相似的 motif,通常對應到 TF 家族或亞家族,這個現象與許多先前的研究一致(圖 2A)。值得注意的是,C2H2-ZF 蛋白為 motif 中最為多樣性的(圖 2B),這與先前所研究得結構和 DNA 接觸殘基的多樣性一致。圖 2C 顯示的是 NHR 家族的 motif,說明轉錄因子多樣性涉及單體 DNA 序列偏好和蛋白質復合物形成的變化。圖 2C 中的許多 motif 被二聚體識別。在人體中總共有超過 500 個特異性的 motif,表明廣泛的 DNA 序列可以作為轉錄因子結合位點。




Figure2. 特異性結合人類轉錄因子的 DNA



人類轉錄因子的保護和進化

轉錄因子的演變通常比它們的調控位點的演變慢得多。人和果蠅之間的轉錄因子直系同源物通常顯示出幾乎相同的序列特異性。盡管如此,轉錄因子確實在不斷進化,它們的 motif、結合物和表達模式都在不停地改變著。人類轉錄因子中不變與改變中的一個突出例子便是大多數哺乳動物基因組編碼了數百種含有 KRAB 的 C2H2-ZF 蛋白,其中許多都顯示出了多樣化選擇的標志,在人和小鼠之間也具有復雜的直系同源模式。在人類中,KRAB C2H2-ZF 蛋白通常都與轉座子(TEs)(主要是 LINE 和內源性逆轉錄病毒)結合,在初期可能是通過抑制 KRAB 結構域的功能使它們沉默。轉座子和轉錄因子之間的“軍事競賽”為其迅速而又多樣化的變化做出了很好的解釋。

基于它們在真核基因組中的分布(圖 3A),當前的 1,639 個轉錄因子根據親緣關系得知其涵蓋了包括脊椎動物,四足動物,胎盤哺乳動物或靈長類動物在內的后生動物主要群體。有趣的是,幾乎所有脊椎動物都具有同源域蛋白的可識別對應物,而幾乎所有哺乳動物特異性蛋白都含有 C2H2-ZF 結構域。實際上,Ensembl 定義的人類 TF-TF 旁系同源物之間的分化都有兩種趨向:兩側對稱動物中多種 TFs 家族出現了第一波重復,由 KRAB C2H2-ZF 主導的第二波重復則出現在 Amniota(圖 3B,左)。早期時整個多樣性的 TF 家族的復制與脊椎動物中整個基因組發生兩輪復制的假說一致。該事件與細胞類型的多元化發展是大致符合的,并且復制的 TF 可能有助于調控新細胞類型。KRAB 的輻射性增加可能在一定程度上解釋了為什么胎盤能夠很大可能的傳遞逆轉錄病毒。值得注意的是,在過去的 3 億年里,KRAB 的輻射區域中 TF-TF 的復制主導了其在所有人類同源物的分布(圖 3B,右)。


Figure3. 人類轉錄因子的直系同源基因和旁系同源基因



人類轉錄因子在組織和細胞類型中的表達

基因(包括轉錄因子)的組織和細胞類型包括 TFs 的特異性表達通常對應著相應的特定功能。我們使用來自人類組織圖譜中的 RNA-seq 數據檢查了在 37 個成人組織中的 1,554 個轉錄因子的表達模式(圖 4A),采用其組織特異性表達的定量定義。這種基因表達模式的全局視圖捕獲了許多特征明確的 TF 的已知作用。例如,SOX2,OLIG1 和 POU3F2(OCT7)幾乎只在大腦皮層中表達,而 GATA4 和 TBX20 僅在心肌中高度表達。該數據集中大約三分之一(543)的人類 TF 表現出組織特異性表達的特點,其中包括許多具有不良特征的生理作用。

在其他的 TF 家族中,一半(49%)是具有組織特異性的,并提供了關于其特定生理功能的線索。更高分辨率的數據,例如來自單細胞 RNA-seq,可以解析同一組織的不同類型細胞對轉錄因子間的聯系,使得對于細胞鑒定和受轉錄因子調控的基因有更深刻的理解。



遺傳學和疾病中的人類轉錄因子

轉錄因子占所有人類基因的約 8%,并且與多種疾病和表型相關。轉錄因子突變通常是高度有害的,這也解釋了為什么基因組 TF 編碼位點富含超保守的位點。轉錄因子遺傳分析可能因基因調控網絡固有的功能冗余而變得復雜,因為表型可能難以僅在特定條件下檢測得到或表現出來,或者因為在群體水平上具有高度有害作用的變體不存在。盡管如此,關于臨床表型中人類 TF 的全球視角確實揭示了一個共同的主題。圖 4B 展示出了編碼 TF 的基因內或附近的大量突變相關的人類疾病表型。對于與先天性生長激素缺乏有關的垂體前葉發育不全觀察到了觀察到大量基因的富集。已知的 15 種基因參與該表型,其中有 12 種是編碼 TF(p<10 -11),包括多個同源域和 Sox 家族的轉錄因子。總的來說,人 313 個(19.1%)的轉錄因子至少與一種表型相關,顯著高于所觀察到的部分(16.2%)。相比之下,基于最近的 CRISPR 篩選的數據(3% 對 10%),轉錄因子從人類癌細胞系中的核心必需基因組中排除,可能是因為人類的轉錄因子庫已主要用于發育或組織功能特定化。

一些多基因疾病的全基因組關聯研究(GWAS)信號也富集了基因座編碼的轉錄因子(圖 4C)。這些疾病中的很多都具有強烈的免疫依賴性,表明許多免疫反應相關的轉錄因子所具有的突出作用。此外,許多獨立的轉錄因子基因座具有針對多種疾病的強 GWAS 信號。例如,編碼 Ikaros 基因家族 C2H2-ZFS 的基因座中,突變體 IKZF1 和 IKFZ3,在適應性免疫應答中起到了至關重要的作用。

轉錄因子的模塊化結構有助于突變影響的機制的識別。DBD 突變會改變序列特異性,位于 DBD 之外的突變也可能對基因表達產生很大的影響。在癌癥中,染色體異常可以產生具有新功能的癌融合蛋白,例如 Ets 因子 ERG 和 FLI1 與 RNA 結合蛋白 EWSR1 融合。同樣的,對于任何基因,在控制 TF 表達的調節區內的突變,最終導致 TF 功能改變。例如,在驅動 MYC 表達的增強子中弱化 TCF7L2(TCF-4)結合位點可降低結腸中腫瘤發生的風險。

轉錄因子作為一類獨特的基因,它們的結合位點會受所調節的 DNA 的變異或突變影響。目前發現了許多這樣的例子,其中涵蓋了大量的的轉錄因子家族疾病。更深入地了解轉錄因子對于如何找到對應目標并控制基因表達模式對于我們了解 85%-93% 的常見疾病相關的遺傳變異有極大的幫助。

基因組中的大多數的功能性 DNA 都是具有調節性的,轉錄因子在其的識別和功能發揮中起著核心作用。在許多人類疾病中 TFs 有著明顯的作用,使得理解轉錄因子所介導的基因調控機制的重要性更加突出。目前所面臨的挑戰依然存在,包括解決調節相同基因的多種元件之間的協同作用和冗余,預測增強子 - 啟動子的聯系,沿染色體及其三維結構上大規模調控的特點,以及各種類型的表觀遺傳記憶。解決這些挑戰的計算機方法是正在進行中,開發探索轉錄因子在成核和調停的實驗技術同樣也在進行著。這些進展將有助于我們達到下一個人類遺傳學前沿:以 TF 的方式解碼基因組。


Figure4. 人類轉錄因子的功能特性


參考文獻

Lambert SA, Jolma A, Campitelli LF, Das PK, Yin Y, Albu M, Chen X, Taipale J, Hughes TR, Weirauch MT. The Human Transcription Factors. Cell. 2018;175:598–9. 

伯豪生物在線人工客服

本文來源于網絡:如侵權,請郵件提示刪除,接收郵箱:[email protected]


四川快乐十二一定牛