當(dāng)讀到“產(chǎn)生一條多肽鏈或功能RNA所需的全部核苷酸序列”的科學(xué)定義時(shí),多數(shù)人都會(huì)露出一頭霧水的表情。但當(dāng)聽到“生命之書、生命的密碼、生命的鑰匙、遺傳的藍(lán)圖”的比擬時(shí),大家都會(huì)下意識(shí)報(bào)出:這是DNA!
對(duì)于生命而言,DNA的重要性不言而喻。它既支撐生命的構(gòu)造和性能,也儲(chǔ)存著個(gè)體生長(zhǎng)、孕育、凋亡“從生到死”的全部相關(guān)信息。正因如此,著眼于健康與疾病的謎題,人類不僅需要翻開、閱讀這本生命之書,也亟需“讀完”它——
2024年12月5日,西湖大學(xué)生命科學(xué)學(xué)院、西湖實(shí)驗(yàn)室俞曉春團(tuán)隊(duì)再國(guó)際頂尖學(xué)術(shù)期刊 Science 上發(fā)表了題為:The complete telomere-to-telomere sequence of a mouse genome(完整的端粒到端粒小鼠參考基因組序列)的研究論文,報(bào)道了該團(tuán)隊(duì)在解析小鼠參考基因組方面取得的重要突破。這意味著人類歷史上第一次看清小鼠基因組DNA全貌。
現(xiàn)在,請(qǐng)用上一些想象力,一起走入基因組DNA的殿堂,造訪大自然塑造的“生命密碼”。
想象你的面前出現(xiàn)了一座汗牛充棟的圖書館,這是隸屬于某個(gè)人類同胞的一個(gè)細(xì)胞核。你步入其中,看到了幾十排標(biāo)注著“染色體”的書架。你隨機(jī)選了一個(gè)架子,抽出了幾本書,發(fā)現(xiàn)書的封面上都寫著“DNA”。接著,你翻到其中一本的目錄頁(yè),上面指示了“本書共含有X個(gè)基因”。你隨意瀏覽了不同基因的章節(jié),意識(shí)到這些篇章僅由四個(gè)字母構(gòu)成——A、T、C、G——這些叫作“堿基”的字母不斷變換順序、排列組合,最終寫完了全書……
很好,現(xiàn)在你已經(jīng)了解了基因組DNA的基本面貌。
正如開頭所述,如果我們想獲得一個(gè)生命體的所有遺傳信息,就需要知曉全部基因組DNA的情況,這意味著要閱讀完所有染色體“書架”上的DNA之書,知道這些書的每一個(gè)字母,即A/T/C/G是如何排列的。關(guān)注生物體所有DNA(即整個(gè)基因組)的科學(xué),就是基因組學(xué)。迄今,基因組學(xué)領(lǐng)域的一個(gè)重要研究目標(biāo),正是獲得完整的、精確的基因組序列,這對(duì)于我們理解基因組的結(jié)構(gòu)和功能至關(guān)重要。
事實(shí)上,讀取這些堿基字母排序的過(guò)程,正是“大名鼎鼎”的基因組DNA測(cè)序。
1977年,弗雷德里克·桑格發(fā)明了第一代測(cè)序技術(shù),特點(diǎn)是只能測(cè)試一個(gè)基因的某個(gè)部分,最多一個(gè)基因。本世紀(jì)初,第二代測(cè)序技術(shù)問(wèn)世,它克服了前一代的缺點(diǎn),一次能讀取成千上萬(wàn)的短DNA片段,因此也被稱作高通量測(cè)序技術(shù);但它依然存在癥結(jié):能讀取的DNA片段過(guò)短,通常在100-300個(gè)堿基對(duì)(bp)之間。2010年左右,第三代測(cè)序技術(shù)誕生,實(shí)現(xiàn)了對(duì)每一條DNA分子的單獨(dú)測(cè)序;換句話說(shuō),現(xiàn)在我們能夠讀取較長(zhǎng)的DNA片段了,可以達(dá)到10-50千堿基對(duì)(kb,1kb=1000bp)甚至更長(zhǎng)。
由于人類基因組包含大約30億個(gè)堿基對(duì),能夠讀取更長(zhǎng)片段的第三代基因測(cè)序技術(shù)的出現(xiàn),為科學(xué)家破解完整的人類基因圖譜的進(jìn)程按下加速鍵。2022年3月31日,《科學(xué)》(Science)發(fā)表文章報(bào)道了名為“端粒到端粒聯(lián)盟”的國(guó)際科學(xué)團(tuán)隊(duì),完成了第一個(gè)完整的、無(wú)間隙的人類基因組序列,填補(bǔ)了2003年“人類基因組計(jì)劃”遺留下的8%尚未讀取的基因區(qū)域。
在大洋彼岸的中國(guó)浙江杭州的西湖大學(xué),俞曉春實(shí)驗(yàn)室當(dāng)時(shí)的博后、現(xiàn)在的助理研究員李麒麟及時(shí)關(guān)注到了這條新聞。這令這個(gè)團(tuán)隊(duì)感到無(wú)比振奮,因?yàn)樗麄內(nèi)粘?ldquo;打交道”的小鼠身上,正存在相似的瓶頸。目前小鼠的基因“檔案”中,最完整的是參考基因組GRCm39,同樣也存在約7%-8%未被解析的區(qū)域。
西湖大學(xué)生命科學(xué)學(xué)院科研副院長(zhǎng)、西湖實(shí)驗(yàn)室科研副主任俞曉春教授長(zhǎng)期致力于DNA損傷修復(fù)機(jī)制和癌癥發(fā)生發(fā)展的研究;簡(jiǎn)單來(lái)說(shuō),就是DNA受損引發(fā)的癌癥的診斷、檢測(cè)與治療。而小鼠,是生命科學(xué)研究中最常見的實(shí)驗(yàn)動(dòng)物和模式生物,這是因?yàn)樵S多生物實(shí)驗(yàn)不宜在人體內(nèi)進(jìn)行,因此,小鼠的基因組DNA信息直接關(guān)系到人類健康的探索。也正因如此,人類對(duì)小鼠基因組DNA的認(rèn)知與這個(gè)團(tuán)隊(duì)的研究密切相關(guān)。
既然人類的“基因拼圖”已完成,想必小鼠的“拼圖”也勝利在望了?令他們沒(méi)想到的是,這一等就是一年。
親自做基因測(cè)序,對(duì)俞曉春實(shí)驗(yàn)室來(lái)說(shuō),實(shí)屬一個(gè)“無(wú)心插柳柳成蔭”的課題:直到2023年4月,他們都在等待兩家資金雄厚、早已對(duì)外宣布下場(chǎng)的美國(guó)與英國(guó)科研機(jī)構(gòu)做完并發(fā)布小鼠的完整基因組DNA圖譜。
為什么他們?nèi)绱岁P(guān)心小鼠這尚缺的7%-8%序列?這是因?yàn)椋?strong>這些未知的基因組DNA里或許隱藏著一些至今無(wú)法解釋的遺傳性疾病的謎底。
這些“空白”尤其存在于異染色質(zhì)和核糖體DNA(rDNA)區(qū)域。這些區(qū)域富含重復(fù)的基因序列,即一些反復(fù)出現(xiàn)的,看似近乎一模一樣、但實(shí)則有細(xì)微區(qū)別的片段——你可以想象為許多塊極其相似的拼圖。二代基因測(cè)序技術(shù)僅能測(cè)出其中的一段(且由二代技術(shù)完成的小鼠基因組圖譜中還有錯(cuò)誤),對(duì)完整的排序序列“束手無(wú)策”;而三代技術(shù)可以“完全看清”。
時(shí)至2023年的春天,遲遲不見歐美的實(shí)驗(yàn)室發(fā)布“大新聞”,俞曉春實(shí)驗(yàn)室最終決定自己動(dòng)手拼完這幅小鼠基因組“拼圖”。“(全球)剩下的人一直在等,但我們不想等了。”俞曉春回憶說(shuō)。
這個(gè)誕生于意外的課題,研究過(guò)程相當(dāng)順利,歷時(shí)一年就完成了。
簡(jiǎn)單來(lái)講,俞曉春團(tuán)隊(duì)綜合了眾多三代基因測(cè)序技術(shù),讓它們互相補(bǔ)足,開發(fā)了一把能夠充分挖掘小鼠基因的“金鏟子”。他們以最常用的小鼠C57BL/6的單倍體胚胎干細(xì)胞(mhaESC)為樣本,進(jìn)行了基因測(cè)序和組裝,獲得了長(zhǎng)度為2.77 Gbp(表示十億個(gè)堿基對(duì))的完整的高質(zhì)量小鼠參考基因組序列,其中包含215.23 Mbp(表示一百萬(wàn)個(gè)堿基對(duì))先前未被鑒定的序列,填補(bǔ)了約7.7%的基因組空白。
mhaESC基因組與先前參考基因組的共線性比對(duì)結(jié)果
如果你對(duì)他們基因組DNA “拼圖”的步驟感興趣,這個(gè)流程大致是這樣的:第一步,測(cè)序技術(shù)把所有拼圖(即片段)上的圖案(即堿基對(duì))讀完;接著,計(jì)算機(jī)對(duì)這些信息進(jìn)行數(shù)據(jù)處理;最后,復(fù)雜算法會(huì)完成“拼裝”(即基因組組裝),形成完整的全貌。這個(gè)過(guò)程涉及到了PacBio HiFi、Oxford Nanopore超長(zhǎng)、Illumina短讀長(zhǎng)、Hi-C和BioNano光學(xué)圖譜等多項(xiàng)基因測(cè)序技術(shù)。
那么,這些研究人員具體取得了哪些關(guān)于小鼠基因的新發(fā)現(xiàn)呢?
首先,發(fā)現(xiàn)了新的蛋白質(zhì)編碼基因。顧名思義,這些基因的作用是編碼對(duì)應(yīng)的蛋白質(zhì)。與先前的參考基因組版本相比,該研究額外注釋了639個(gè)蛋白質(zhì)編碼基因,其中先前未被發(fā)現(xiàn)的全新的蛋白質(zhì)編碼基因有140個(gè)(這是因?yàn)?39個(gè)基因中部分為已知基因的“重復(fù)”拷貝)。這些新的蛋白質(zhì)編碼基因可能參與多種生物學(xué)過(guò)程,為未來(lái)的研究提供了新的方向。
第二,較精確地“看清”核糖體DNA的基因序列。核糖體是細(xì)胞內(nèi)的“蛋白質(zhì)工廠”,負(fù)責(zé)合成蛋白質(zhì)。核糖體DNA是細(xì)胞中的一種特殊DNA,它專門負(fù)責(zé)編碼核糖體的RNA(rRNA)——一種核糖體的重要組成部分,幫助核糖體合成蛋白。用簡(jiǎn)潔的比擬來(lái)說(shuō),核糖體DNA給出了細(xì)胞內(nèi)rRNA的“藍(lán)圖”。這個(gè)發(fā)現(xiàn)為進(jìn)一步解析核糖體潛在的蛋白質(zhì)翻譯功能的差異性提供參考。
第三,解析了著絲粒區(qū)域的基因序列詳情。著絲粒是染色體上的一個(gè)特殊區(qū)域,幫助染色體在細(xì)胞分裂時(shí),將遺傳物質(zhì)平均分配到兩個(gè)新的細(xì)胞中。本研究的結(jié)果顯示,小鼠各染色體之間的著絲粒長(zhǎng)度具有明顯差異,且序列內(nèi)部富含轉(zhuǎn)座元件和片段重復(fù)(SD),同時(shí)還有散在的基因分布,表明該區(qū)域可能會(huì)進(jìn)行活躍的轉(zhuǎn)錄和轉(zhuǎn)座事件,驅(qū)動(dòng)著絲粒區(qū)域進(jìn)行適應(yīng)性改變等行為。對(duì)著絲粒區(qū)域的解析,有助于理解因著絲粒功能缺陷導(dǎo)致的染色體重排、非整倍性等相關(guān)疾病的發(fā)病機(jī)制。
從科學(xué)意義上來(lái)說(shuō),俞曉春實(shí)驗(yàn)室的這項(xiàng)研究,通過(guò)綜合“長(zhǎng)讀長(zhǎng)”第三代測(cè)序技術(shù)成功完成了小鼠基因組的端粒到端粒組裝,填補(bǔ)了現(xiàn)有參考基因組中的空白區(qū)域,揭示了新的基因和結(jié)構(gòu)變異,“拼完”了小鼠基因組圖譜的“拼圖”。這些發(fā)現(xiàn)不僅提高了對(duì)小鼠基因組結(jié)構(gòu)和功能的理解,也為基因組學(xué)研究提供了重要的技術(shù)參考和數(shù)據(jù)資源。
在這項(xiàng)研究中,兩位第一作者,分別發(fā)揮了科研所長(zhǎng),劉俊麗助理研究員負(fù)責(zé)濕實(shí)驗(yàn)及論文圖片,李麒麟助理研究員負(fù)責(zé)干實(shí)驗(yàn)及文稿;通訊作者俞曉春教授負(fù)責(zé)“掌舵”課題的大方向以及論文的完善。
“你們?cè)谘芯窟^(guò)程中遇到最大的難點(diǎn)是什么?”這個(gè)問(wèn)題竟然有朝一日成為了實(shí)驗(yàn)室“答不上來(lái)”的問(wèn)題。正如前文所言,這個(gè)課題進(jìn)展勢(shì)如破竹,投稿過(guò)程也十分順利。
但要在科研的疆域取得成果,并非一日之功。這項(xiàng)研究的順利開展,既得益于俞曉春自在美國(guó)密歇根大學(xué)醫(yī)學(xué)院內(nèi)科系成為獨(dú)立PI后,對(duì)染色體近20年的研究積累;同時(shí),也與兩位一作作者歷經(jīng)過(guò)的、作為一名科研工作者的磨煉與自我調(diào)整息息相關(guān)。
劉俊麗,是西湖實(shí)驗(yàn)室第一批“開拓學(xué)者”之一,曾在科研的路途上迷茫過(guò)、也曾經(jīng)歷過(guò)gap的時(shí)光,但她最終選擇加入俞曉春實(shí)驗(yàn)室,盡管那意味著要完全改變研究方向,需要從“0”開始。如今,她分享說(shuō):“做科研,任何一個(gè)方向都有研究意義。我覺(jué)得實(shí)驗(yàn)取得的任何結(jié)果都能帶給我快樂(lè),這是為什么我要堅(jiān)持做科研的原因。”
如果說(shuō)這個(gè)課題有一個(gè)發(fā)起人,那非李麒麟莫屬:他是俞曉春團(tuán)隊(duì)第一個(gè)注意到人類基因組序列完成的人。出于對(duì)遺傳學(xué)和基因組學(xué)的興趣,他從大學(xué)本科直至在美國(guó)做博后階段都專注于生物信息學(xué)。李麒麟說(shuō):“但我發(fā)現(xiàn)做純數(shù)據(jù)并不能對(duì)實(shí)際情況有很好的了解,所以最后我選擇了俞老師的實(shí)驗(yàn)室,這里有濕實(shí)驗(yàn)的實(shí)時(shí)結(jié)果給出反饋,這樣我再去做數(shù)據(jù)分析,研究能更好地開展。”
當(dāng)然,俞曉春實(shí)驗(yàn)室劍指的始終并不是小鼠基因組真容本身,而是希望利用這把“基因組之鏟”探索遺傳性癌癥、發(fā)育性疾病未解的致病機(jī)理。“支線”的故事已完成,接下來(lái),讓我們一起靜待這個(gè)實(shí)驗(yàn)室的“主線”誕生更多助力人類攻克頑疾的成果。
論文鏈接:
https://www.science.org/doi/10.1126/science.adq8191
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com