亚洲字幕成人中文在线观看,日韩久久网,欧美日韩一,操日本女人逼视频,国产欧美123,久久久久av,欧美久久久久久久久中文字幕

產(chǎn)品分類導航
CPHI制藥在線 資訊 DeepSeek刷屏,其實只是開始

DeepSeek刷屏,其實只是開始

熱門推薦: 大語言模型 AI 醫(yī)學科研
作者:生信人  來源:抗體圈
  2025-02-05
春節(jié)之際,借國產(chǎn)大模型 DeepSeek 引發(fā)的 AI 熱潮,介紹 AI 在醫(yī)學科研中的應用,涵蓋大語言模型背景知識,以及其在基因組、病毒學、分子生物學等多領域的研究成果。

今天是春節(jié),首先祝大家春節(jié)快樂。這幾天國產(chǎn)大模型DeepSeek刷屏,除了讓英偉達股價暴跌,也開始撼動美國大模型的壟斷地位,當然了這也再次引爆了AI。今天就來跟大家介紹下AI在醫(yī)學科研中的應用。

一、引言

2024年諾貝爾化學獎頒發(fā)給了在計算蛋白質(zhì)設計和蛋白質(zhì)結(jié)構(gòu)預測領域做出突出貢獻的三位科學家,凸顯了人工智能和計算方法在解析生物語言中的關鍵作用,也預示著 AI 技術在生物醫(yī)藥領域更為廣闊的應用前景。

生物醫(yī)學應用

圖1 近五年LLM及其變體在生物醫(yī)學應用中的發(fā)展歷程(來源:arXiv:2409.00133)

LLM通過大量自然語言數(shù)據(jù)的訓練,理解語言的微妙之處,生成新的內(nèi)容,并與數(shù)據(jù)進行互動。如果你曾與ChatGPT這樣的聊天機器人互動過,你就已經(jīng)體驗到了其魅力所在。這些模型不僅能以聊天機器人的形式出現(xiàn),還能深入挖掘復雜生物數(shù)據(jù)集的內(nèi)在含義。今天小編就借此機會來系統(tǒng)盤點一下截至目前大語言模型在生物醫(yī)藥領域的應用。掃碼添加  ?  交流Ai制藥

二、背景知識

1、適用數(shù)據(jù)

語言模型可以應用于任何序列數(shù)據(jù),無論序列的基本單位(即Token)是句子中的單詞還是蛋白質(zhì)中的氨基酸。盡管句子和蛋白質(zhì)是自然序列的,但其他類型的生物數(shù)據(jù)也可以表示為序列。

2、如何進行預訓練

LLM通過解決填空題(如“中國的___是北京”)進行預訓練,從而學習語言和單詞之間的關聯(lián)。盡管最初是為填空任務訓練的,但它們可以通過微調(diào)用于其他任務。生物序列LLM通過將DNA或氨基酸序列視為文本,來分析生物數(shù)據(jù),任務是預測掩蔽的氨基酸或核苷酸,從而理解“蛋白質(zhì)/DNA語言”,并發(fā)現(xiàn)新的依賴模式。這些模型在蛋白質(zhì)結(jié)構(gòu)預測、基因功能、調(diào)控元件識別等任務中顯示出強大的能力,甚至超越傳統(tǒng)方法。

預訓練語言模型的三種方法圖2 預訓練語言模型的三種方法(來源:https://doi.org/10.1038/s41592-024-02354-y)

3、Transformer的三種架構(gòu)類型

LLMs的設計通?;赥ransformer架構(gòu),可分為三種主要類型:編碼器模型(Encoder-only)、解碼器模型(Decoder-only)和編碼器-解碼器模型(Encoder-Decoder)。編碼器模型專注于輸入數(shù)據(jù)的表示,解碼器模型專注于生成輸出數(shù)據(jù),而編碼器-解碼器模型則結(jié)合了編碼和解碼的功能。

Sci-LLM常見架構(gòu)

圖3 Sci-LLM常見架構(gòu)(來源:arXiv:2401.14656)

三、研究型成果

近年來,隨著大規(guī)模語言模型(如ChatGPT、Claude)的興起,這些模型在處理大規(guī)模文本數(shù)據(jù)方面表現(xiàn)出色,并被越來越多地應用于生物研究。一批使用大數(shù)據(jù)、強算力訓練的基礎模型相繼涌現(xiàn),它們在評測中表現(xiàn)優(yōu)異,并能泛化到各種下游任務,例如單細胞基礎模型 scGPT、scFoundation,蛋白大模型Alphafold3、ROSTTAFold 等。

1、AI + 基因組:EVO

2024年11月15日,斯坦福大學Brian L. Hie團隊以封面文章的形式在Science上發(fā)表了一項開創(chuàng)性研究成果,題為“Sequence modeling and design from molecular to genome scale with Evo”。研究團隊介紹了多模態(tài)基因組基礎模型Evo,可大規(guī)模注釋和生成基因組序列。

基因組

圖4 Evo是一個涵蓋70億參數(shù)的基因組基礎模型

團隊提出了一種針對原核生物基因組的通用大語言模型Evo,編制了大型基因組數(shù)據(jù)集OpenGenome,其中包含8萬多個細菌和古細菌基因組等數(shù)百萬個預測的原核生物和噬菌體序列,涵蓋3000億個核苷酸Token。預訓練包括兩個階段:第一階段使用8千Token的上下文長度,第二階段的上下文擴展階段則使用13.1萬Token。EVO采用Hyena結(jié)構(gòu)而非Transformer建模,因此適合長序列建模。

在原核生物中預訓練模型圖5 在原核生物中預訓練模型

除了判別式任務之外,模型也應有生成能力,例如ChatGPT 能夠生成文章,Evo 模型也能夠生成基因序列。團隊展示了開展兩類下游任務的能力,分別是①分類任務:蛋白功能預測、非編碼RNA功能預測。②生成任務:CRISPR系統(tǒng)生成、轉(zhuǎn)座子生成、基因組生成。Evo模型展示了跨 DNA、RNA 和蛋白質(zhì)模態(tài)的零樣本函數(shù)預測,其性能可與特定領域的語言模型相媲美,甚至優(yōu)于特定領域的語言模型。
總體而言,Evo首次實現(xiàn)了單核苷酸分辨率下的長序列 DNA 建模,實現(xiàn)了從分子到基因組尺度的序列設計能力,為解碼復雜生命系統(tǒng)提供了利器。

2、AI + 病毒學:LucaProt

2024年10月8日諾貝爾物理、化學獎陸續(xù)青睞AI,人工智能橫掃諾獎,一時間AI for Science研究范式風頭無兩。10月9日,國際權(quán)威期刊Cell發(fā)表了中山大學與阿里云合作的重大科研成果,恰逢浪潮興起之際,該文章引發(fā)了廣泛關注,不僅激起學界熱烈討論,更被多家國內(nèi)權(quán)威雜志競相報道,可謂時勢造英雄。

全球病毒圈圖6 使用AI對全球病毒圈的深度挖掘

研究團隊開發(fā)的LucaProt深度學習模型,不僅整合了序列和結(jié)構(gòu)信息,更以前所未有的精度和效率,從全球10,487個宏轉(zhuǎn)錄組樣本中,發(fā)現(xiàn)了180個病毒超群和16萬余種全新RNA病毒,將已知病毒種類擴充了近30倍。其中包括傳統(tǒng)研究方法未能發(fā)現(xiàn)的病毒“暗物質(zhì)”,極大擴展了全球RNA病毒的多樣性。

 RNA病毒超群的真實性評價

圖7 RNA病毒超群的真實性評價

LucaProt模型整合了序列和結(jié)構(gòu)信息,準確高效地識別了高度分化的RNA病毒,包括許多之前研究不足的群體。研究結(jié)果揭示了RNA病毒在不同生態(tài)系統(tǒng)中的廣泛分布和豐度,以及它們在極端環(huán)境中的存在。此外,通過結(jié)構(gòu)預測和比較分析,研究者們證實了新發(fā)現(xiàn)的RNA病毒超群的RNA病毒屬性。這一突破標志著深度學習算法在病毒發(fā)現(xiàn)領域取得了里程碑式的進展,為病毒學研究開創(chuàng)了一種全新的范式。

3、AI + 分子生物學:AlphaFold3

2024 年 5 月 8 日,谷歌DeepMind 與 Isomorphic Labs 聯(lián)合在Nature期刊上發(fā)布蛋白質(zhì)領域最新人工智能模型AlphaFold 3,這一模型能夠準確預測蛋白質(zhì)、DNA、RNA 以及配體等生命分子的結(jié)構(gòu)及其相互作用方式。這是繼AlphaFold 2 之后的又一重大突破,號稱“所有生命分子皆可預測”,將解決百年歷史性難題,打破傳統(tǒng)!

圖8 Aphlafold3論文標題

當提供一系列分子數(shù)據(jù)時,AlphaFold 3 能生成它們的三維結(jié)合結(jié)構(gòu),展現(xiàn)這些分子如何相互組合,它能模擬蛋白質(zhì)、DNA、RNA 在內(nèi)的大型生物分子,以及小分子如配體。此外,AlphaFold 3 還能模擬這些分子的化學修飾,這些修飾控制著細胞的正常功能,一旦出現(xiàn)問題便可能引發(fā)疾病。

AF3準確預測生物分子復合物的結(jié)構(gòu)

圖9 AF3準確預測生物分子復合物的結(jié)構(gòu)

在預測類藥物相互作用方面,AlphaFold 3 實現(xiàn)了前所未有的準確度,包括蛋白質(zhì)與配體的結(jié)合以及抗體與其靶蛋白的結(jié)合。在 PoseBusters 的基準測試中,AlphaFold 3 的準確率比現(xiàn)有最佳傳統(tǒng)方法高出 50%,而且無需任何結(jié)構(gòu)信息輸入,成為首個超越傳統(tǒng)物理預測工具的人工智能系統(tǒng)。這種預測抗體與蛋白質(zhì)結(jié)合的能力,對于理解人類免疫反應的各個方面以及新抗體的設計至關重要,新藥物研發(fā)再次加速。

4、AI + 蛋白質(zhì)語言:ESM系列

2023年3月16日,臉書人工智能研究所團隊在Science上發(fā)表了題為“Evolutionary-scale prediction of atomic-level protein structure with a language model”的論文。

ESM2論文標題

圖10 ESM2論文標題

團隊使用大型語言模型演示了如何從一級序列直接推斷全原子水平的蛋白質(zhì)結(jié)構(gòu)。隨著蛋白質(zhì)序列的語言模型被放大到150億個參數(shù),蛋白質(zhì)結(jié)構(gòu)的原子分辨率信息出現(xiàn)在學習的表征中。這推動了高分辨率結(jié)構(gòu)預測的數(shù)量級加速,從而實現(xiàn)宏基因組蛋白質(zhì)的大規(guī)模結(jié)構(gòu)表征成為可能。

語言模型擴展到150億個參數(shù)時出現(xiàn)結(jié)構(gòu)

圖11 語言模型擴展到150億個參數(shù)時出現(xiàn)結(jié)構(gòu)

團隊通過訓練ESM-2折疊頭開發(fā)了端到端的單序列結(jié)構(gòu)預測器ESMFold,可直接以一級序列(原子級水平)蛋白質(zhì)結(jié)構(gòu)。它在CAMEO測試集上表現(xiàn)出高預測精度,并能夠準確預測蛋白質(zhì)復合體的組成,比AlphaFold2在單GPU情況下6倍。ESMFold內(nèi)在化了與結(jié)構(gòu)相關的進化模式,無需外部數(shù)據(jù)庫、MSA或模板,且其預測置信度與準確性高度相關。

圖12 ESMFold預測單序列蛋白性能

圖12 ESMFold預測單序列蛋白性能

團隊利用這一能力構(gòu)建了ESM宏基因組圖譜,通過預測超過 6.17億個宏基因組蛋白質(zhì)序列的結(jié)構(gòu),其中2.25億個序列的預測具有很高的置信度,這使我們能夠了解天然蛋白質(zhì)的廣泛性和多樣性。

 映射宏基因組結(jié)構(gòu)空間

圖13 映射宏基因組結(jié)構(gòu)空間

相比于其他模型,由于沒有使用MSA,該模型可以擴展到宏基因組數(shù)據(jù)集,揭示并描述遠離現(xiàn)有知識的宏基因組空間區(qū)域,發(fā)現(xiàn)新的蛋白質(zhì)結(jié)構(gòu)。ESM系列蛋白語言模型(PLM)對蛋白設計起到了極大的推動作用, 開辟了PLM這個方向,并開枝散葉,催生了一大波下游應用,例如用于預測蛋白蛋白PPI的ESMppi模型、在計算上快速實現(xiàn)DMS的ESMscan模型等。

Meta AI解散了這個團隊后,ESM原團隊成立了Evolutionary Scale AI公司,并獲得多家企業(yè)的融資。2024年6月25日,繼AlphaFold 3更新后,EvolutionaryScale團隊發(fā)布了他們最新的98B參數(shù)蛋白質(zhì)語言模型ESM3。

模型ESM3

圖14 ESM3模型論文標題

該模型不僅支持序列、結(jié)構(gòu)、功能的all-to-all推理,團隊還在實驗中發(fā)現(xiàn),它設計的新蛋白質(zhì)相當于模擬自然界5億年的進化,這是一個能夠生成新型蛋白質(zhì)的里程碑式人工智能模型。

 ESM3設計的一種新的綠色熒光蛋白

圖15 ESM3設計的一種新的綠色熒光蛋白

這是一個多模態(tài)的生成型語言模型(即除了語言模型外,還包括蛋白質(zhì)的序列結(jié)構(gòu)和功能信息),該模型采用了類似BERT的encoder-only架構(gòu),并加入了geometric attention等技術。該模型的輸入包括序列、結(jié)構(gòu)和功能等七種不同的部分,使用了大約10^24的計算資源進行訓練,總共包含了98億個參數(shù)。

5、AI + 單細胞組學:scGPT

生成式預訓練模型在語言和計算機視覺等各個領域取得了顯著的成功,多倫多大學和微軟研究院學者通過類比語言與細胞生物學(句子—細胞,單詞—基因),構(gòu)建了一個基于生成式預訓練Transformer、涵蓋超過3300萬個細胞的單細胞RNA-seq基礎大模型——scGPT。

scGPT

圖16 scGPT模型論文標題

2024年2月26日,多倫多大學和微軟研究院聯(lián)合在Nature methods 上發(fā)表一篇題為“scGPT: toward building a foundation model for single-cell multi-omics using generative AI”論文,作者開發(fā)了一個單細胞生物學基礎模型scGPT,該模型是在基于超過3300萬個細胞存儲庫的生成式預訓練transformer的基礎上構(gòu)建的。

scGPT模型預訓練模型架構(gòu)

圖17 scGPT模型預訓練模型架構(gòu)

scGPT模型的預訓練使用了CELLxGENE數(shù)據(jù)庫中的3300萬個單細胞RNA數(shù)據(jù),涵蓋不同器官和組織。微調(diào)階段,模型使用了人類胰腺和多發(fā)性硬化癥等疾病數(shù)據(jù)集,并結(jié)合CITE-Seq和scATAC-seq等組學數(shù)據(jù)。CITE-Seq同時分析基因表達和細胞表面蛋白質(zhì),scATAC-seq則通過檢測染色質(zhì)可及性提供基因調(diào)控信息。通過這些步驟,scGPT能夠有效處理單細胞多組學數(shù)據(jù),提升細胞類型識別和疾病預測的能力。

使用scGPT進行細胞類型注釋

圖18 使用scGPT進行細胞類型注釋

該模型能夠有效地提取有關基因和細胞的關鍵生物學見解,并且在細胞類型注釋、多批次整合、多組學整合、擾動響應預測和基因網(wǎng)絡推斷等下游應用中取得了更好的性能。作者通過在零樣本和微調(diào)設置下的綜合實驗證明了預訓練的好處,微調(diào)后的scGPT模型始終優(yōu)于從頭開始訓練的模型。這證明了預訓練模型對下游任務的價值,能夠?qū)崿F(xiàn)更準確和更有生物學意義的分析。

6、AI + 醫(yī)學

相比其他學科,醫(yī)學+AI,是人們最關注的、發(fā)表學術成果也是最多的領域。多模態(tài)大語言模型可以綜合分析不同類型的數(shù)據(jù),建立跨模態(tài)關聯(lián),提供從文本到影像的深度理解。

藥物開發(fā):

浙江大學人工智能醫(yī)學創(chuàng)新研究院開發(fā)的LEDAP模型,可以利用基于LLM的生物文本特征編碼來預測藥物-疾病關聯(lián)、藥物-藥物相互作用和藥物-副作用關聯(lián)。哈佛醫(yī)學院開發(fā)的一種名為TxGNN的圖神經(jīng)網(wǎng)絡模型,專門用于零樣本藥物再利用的預測,尤其針對沒有現(xiàn)有治療方案或治療選項有限的疾病。該幾何深度學習模型結(jié)合了一個龐大而全面的生物知識圖譜,以準確預測任何給定疾病-藥物對的適應癥或禁忌癥的可能性,適用于老藥新用途的開發(fā)。佛羅里達大學和德克薩斯大學團隊提出的DrugFormer 模型,整合了序列化基因標記和基于基因的知識圖譜,以高精度預測單細胞水平的藥物耐藥性。模型基于圖增強大型語言模型的方法,專門用于預測單細胞水平的藥物敏感性。

醫(yī)學輔助診斷:

哈佛醫(yī)學院Kun-Hsing Yu團隊開發(fā)了一款臨床組織病理學成像評估基礎模型CHIEF。CHIEF能在19種癌癥類型中執(zhí)行多種任務,檢測準確率接近94%,就像 ChatGPT 一樣“聚合”、“靈活”。能夠精準診斷、預測癌癥結(jié)果,甚至推薦治療方案,為醫(yī)生提供全面的支持。哈佛醫(yī)學院、麻省理工學院、俄亥俄州立大學等聯(lián)合推出了面向醫(yī)學領域的多模態(tài)AI助手PathChat,模型不僅能理解、分析復雜的醫(yī)學圖像,還能基于多輪文本對話,為臨床醫(yī)生、醫(yī)護人員提供精準和個性化的病理學指導。

四、寫在最后

本文綜述了當前大語言模型在生物醫(yī)學領域的潛力與應用,大語言模型因其展現(xiàn)出類人般的推理、工具使用和問題解決能力而備受矚目。同時,它們在化學、生物學和醫(yī)藥等專業(yè)領域展現(xiàn)出的深度理解能力,進一步凸顯了其廣泛的應用價值。
近年來,各類大語言模型層出不窮,各方AI新勢力頻頻涌現(xiàn),推動技術持續(xù)迭代與突破。目前還有很多高質(zhì)量的文章與權(quán)威綜述發(fā)表,預印本平臺也有大量相關成果正在上新,此處小編不再贅述,感興趣的朋友可以自行前往查看。如果覺得有用,歡迎在看、轉(zhuǎn)發(fā)和點贊!

參考文獻:

[1] arXiv:2409.00133.[2] Simon, E., Swanson, K. & Zou, J. Language models for biological research: a primer. Nat Methods 21, 1422–1429 (2024). https://doi.org/10.1038/s41592-024-02354-y.[3] arXiv:2401.14656.[4] Nguyen E, Poli M, Durrant MG, et al. Sequence modeling and design from molecular to genome scale with Evo. Science. 2024;386(6723):eado9336. doi:10.1126/science.ado9336[5] Hou X, He Y, Fang P, et al. Using artificial intelligence to document the hidden RNA virosphere. Cell. 2024;187(24):6929-6942.e16. doi:10.1016/j.cell.2024.09.027[6] Abramson J, Adler J, Dunger J, et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature. 2024;630(8016):493-500. doi:10.1038/s41586-024-07487-w[7] Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science. 2023;379(6637):1123-1130. doi:10.1126/science.ade2574[8] https://doi.org/10.1101/2024.07.01.600583[9] Cui H, Wang C, Maan H, et al. scGPT: toward building a foundation model for single-cell multi-omics using generative AI. Nat Methods. 2024;21(8):1470-1480. doi:10.1038/s41592-024-02201-0[10] Zhang, H., Zhou, Y., Zhang, Z., Sun, H., Pan, Z., Mou, M., Zhang, W., Ye, Q., Hou, T., Li, H., Hsieh, C. Y., & Zhu, F. (2024). Large Language Model-Based Natural Language Encoding Could Be All You Need for Drug Biomedical Association Prediction. Analytical chemistry, 10.1021/acs.analchem.4c01793. Advance online publication. https://doi.org/10.1021/acs.analchem.4c01793 [11] Huang, K., Chandak, P., Wang, Q. et al. A foundation model for clinician-centered drug repurposing. Nat Med (2024). https://doi.org/10.1038/s41591-024-03233-x[12] Liu, X., Wang, Q., Zhou, M., Wang, Y., Wang, X., Zhou, X., & Song, Q. (2024). DrugFormer: Graph-Enhanced Language Model to Predict Drug Sensitivity. Advanced science (Weinheim, Baden-Wurttemberg, Germany), 11(40), e2405861. https://doi.org/10.1002/advs.202405861[13] Wang, X., Zhao, J., Marostica, E. et al. A pathology foundation model for cancer diagnosis and prognosis prediction. Nature (2024). https://doi.org/10.1038/s41586-024-07894-z[14] Lu, M. Y., Chen, B., Williamson, D. F. K., Chen, R. J., Zhao, M., Chow, A. K., Ikemura, K., Kim, A., Pouli, D., Patel, A., Soliman, A., Chen, C., Ding, T., Wang, J. J., Gerber, G., Liang, I., Le, L. P., Parwani, A. V., Weishaupt, L. L., & Mahmood, F. (2024). A multimodal generative AI copilot for human pathology. Nature, 634(8033), 466–473. https://doi.org/10.1038/s41586-024-07618-3

相關文章

合作咨詢

   肖女士    021-33392297    Kelly.Xiao@imsinoexpo.com

2006-2025 上海博華國際展覽有限公司版權(quán)所有(保留一切權(quán)利) 滬ICP備05034851號-57
九龙坡区| 宁河县| 清水河县| 康保县| 墨竹工卡县| 永新县| 长阳| 原阳县| 那坡县| 民乐县| 成都市| 五寨县| 茶陵县| 南漳县| 玉环县| 扎赉特旗| 内丘县| 依兰县| 瑞安市| 桦南县| 卓资县| 镇康县| 栾川县| 郸城县| 荥阳市| 南城县| 怀宁县| 平利县| 长汀县| 丰原市| 叶城县| 武威市| 绥棱县| 永德县| 讷河市| 澄江县| 长沙县| 育儿| 上犹县| 奈曼旗| 石阡县|