首個(gè)千億生物醫(yī)藥ChatGPT！清華AIR聶再清：行業(yè)未來(lái)的超級(jí)應(yīng)用

發(fā)布日期：2023-09-23 20:47:40 瀏覽：

蕭簫發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI

制藥行業(yè)的“專家版ChatGPT”，終于來(lái)了！

就在這兩天，首個(gè)生物醫(yī)藥的千億參數(shù)大模型產(chǎn)品ChatDD發(fā)布，不僅制藥各階段知識(shí)“樣樣通”，還能和藥學(xué)專家進(jìn)行對(duì)話，瞬間秒懂一些行業(yè)神秘“黑話”。

這和AlphaFold2直接加個(gè)Chat功能還不太一樣——

現(xiàn)階段大模型雖然能在藥物發(fā)現(xiàn)上做得不錯(cuò)，但要么只涉及單個(gè)模態(tài)，要么不具備直接對(duì)話能力。

ChatDD則兼具多模態(tài)和對(duì)話雙重特點(diǎn)，順便還能給醫(yī)藥界學(xué)生“解個(gè)惑”。

做出這個(gè)產(chǎn)品背后的水木分子，是今年6月新成立的一家公司。清華大學(xué)智能產(chǎn)業(yè)研究院院長(zhǎng)張亞勤院士指出：

ChatDD通過(guò)人機(jī)協(xié)作對(duì)話方式有效地將專家知識(shí)與大模型知識(shí)相聯(lián)結(jié)，開(kāi)拓了繼傳統(tǒng)藥物研發(fā)TMDD、CADD、AIDD之后的第四代藥物研發(fā)新模式。

所以，它究竟在什么功能上做到“劃時(shí)代”？

我們和清華AIR教授、水木分子首席科學(xué)家聶再清聊了聊，詳細(xì)了解了ChatDD的來(lái)龍去脈。

ChatDD是一個(gè)什么樣的產(chǎn)品？

先來(lái)看看ChatDD能做哪些事兒，具體又能用在哪里。

它的外觀和ChatGPT有點(diǎn)像，是一個(gè)網(wǎng)頁(yè)版，同樣能通過(guò)對(duì)話來(lái)實(shí)現(xiàn)各種功能。

對(duì)話能力上，不僅英文總結(jié)不錯(cuò)，中文對(duì)話也來(lái)得，直接hold住“疾病畫(huà)像”這樣的專業(yè)黑（術(shù)）話（語(yǔ)）：

如果有看不懂的分子，可以直接一鍵上傳相關(guān)文件，讓它來(lái)負(fù)責(zé)解讀這種分子的作用：

試試更復(fù)雜一點(diǎn)的任務(wù)，例如計(jì)算親和力問(wèn)題，大模型竟然直接“推薦”了一個(gè)工具，并快速計(jì)算出結(jié)果：

此外，也不用擔(dān)心問(wèn)答內(nèi)容超出ChatDD訓(xùn)練數(shù)據(jù)截止日期，畢竟它還學(xué)會(huì)了自己聯(lián)網(wǎng)、或是從數(shù)據(jù)庫(kù)中查找答案。

總結(jié)來(lái)看，ChatDD雖然用法上像ChatGPT，但在生物醫(yī)藥這塊是“專業(yè)的”。

無(wú)論是掌握的多模態(tài)（小分子+大分子+文本）醫(yī)藥專業(yè)知識(shí)量，還是對(duì)行業(yè)的理解程度、完成任務(wù)的能力，ChatDD都要比ChatGPT“更像個(gè)學(xué)醫(yī)藥的人”。

與同行AI不同的是，ChatDD的“業(yè)務(wù)范圍”，涵蓋了制藥的前、中、后期三個(gè)階段。

此前的醫(yī)藥行業(yè)AI，即使是大模型，往往也只能用于制藥的部分階段，例如前期的藥物發(fā)現(xiàn)，或是中期的臨床前研究。占研發(fā)成本大部頭的后期臨床試驗(yàn)，幾乎無(wú)人問(wèn)津。

而ChatDD不僅能參與藥物發(fā)現(xiàn)、立項(xiàng)、商業(yè)智能（BI，Business Inteligence）、臨床試驗(yàn)各環(huán)節(jié)，還能幫助提升成功率。

聶再清介紹表示，ChatDD用于后期臨床試驗(yàn)設(shè)計(jì)，也是大伙兒最期待的功能。

首先，藥物在臨床試驗(yàn)階段的通過(guò)率，往往并不高。

尤其二期到三期臨床，通過(guò)率只有34%，三期到四期通過(guò)率也不高。但臨床試驗(yàn)加上前中期的費(fèi)用往往又極高，一旦不通過(guò)，就是幾億美元成本“打水漂”。

其次，藥物通過(guò)率不高的原因，（除非藥物本身不行）很大程度上是因?yàn)闆](méi)找到適合“對(duì)癥下藥”的患者。

藥廠通常會(huì)從臨床信息數(shù)據(jù)庫(kù)中，篩選適合用藥的病人。

假設(shè)這個(gè)藥物對(duì)數(shù)據(jù)庫(kù)中5%的患者有效，那么從這5%的患者中挑選進(jìn)行臨床試驗(yàn)，肯定比剩下95%的患者有效率高。

在綜合各方面信息做判斷這件事上，ChatDD往往比人類更適合篩選出“對(duì)癥下藥”的患者。

聶再清特意舉了一個(gè)例子，來(lái)表明ChatDD的能力：

注意這里未來(lái)會(huì)是“私有化部署的合作伙伴的單細(xì)胞RNA測(cè)序數(shù)據(jù)”，現(xiàn)在因?yàn)闆](méi)有，所以我們用了水木分子收集到的公開(kāi)數(shù)據(jù)計(jì)算出來(lái)的。

這樣的ChatDD，背后功能究竟是怎么實(shí)現(xiàn)的？

醫(yī)學(xué)院博士后負(fù)責(zé)數(shù)據(jù)構(gòu)建

ChatDD背后的底座，取名ChatDDFM，參數(shù)量達(dá)到千億級(jí)別。

這次推出的ChatDDFM100B，是全球首個(gè)千億參數(shù)多模態(tài)生物醫(yī)藥對(duì)話大模型，其在C Eval評(píng)測(cè)中達(dá)到全部醫(yī)學(xué)4項(xiàng)專業(yè)第一、也是唯一平均分超過(guò)90分的模型。

聯(lián)想到團(tuán)隊(duì)前不久發(fā)的BioMedGPT10B，其自然語(yǔ)言模態(tài)的大模型同樣基于LLaMA 2架構(gòu)，這二者是否有什么聯(lián)系？

聶再清表示，ChatDDFM和BioMedGPT，在受眾和用途上都不太一樣，“有點(diǎn)像ChatGPT和GPT3.5的區(qū)別，前者在對(duì)話和意圖對(duì)齊能力上有更大提升”。

BioMedGPT主要用于科研領(lǐng)域，更擅長(zhǎng)英文生物醫(yī)藥科研任務(wù)，適合直接拿來(lái)作為生物醫(yī)藥領(lǐng)域的相關(guān)科研任務(wù)的基礎(chǔ)模型。

ChatDDFM主要給國(guó)內(nèi)醫(yī)藥行業(yè)“打輔助”，側(cè)重中文對(duì)話能力，融入了更多專家的對(duì)話模式和經(jīng)驗(yàn)。

技術(shù)上，ChatDDFM相比BioMedGPT，主要增強(qiáng)了三大方面，模態(tài)、訓(xùn)練數(shù)據(jù)和參數(shù)量級(jí)——

模態(tài)上，增加了蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)；訓(xùn)練上，增加了用于中文、專家對(duì)話和調(diào)用工具能力的數(shù)據(jù)；參數(shù)量級(jí)上，從百億增加到千億。

讓ChatDDFM提升“專業(yè)度”、說(shuō)話像“行內(nèi)人”的秘訣，依舊在于高質(zhì)量數(shù)據(jù)上。

這些數(shù)據(jù)主要分為兩部分。

第一部分，是預(yù)訓(xùn)練用的醫(yī)藥知識(shí)數(shù)據(jù)，主要目的是讓ChatDDFM提升專業(yè)素養(yǎng)，幾個(gè)月內(nèi)掌握行業(yè)知識(shí)。

由于之前業(yè)內(nèi)缺少相關(guān)（大小分子等多個(gè)模態(tài)和自然語(yǔ)言對(duì)齊）數(shù)據(jù)集、尤其是中文數(shù)據(jù)，所以團(tuán)隊(duì)又自己收集整理了一系列訓(xùn)練數(shù)據(jù)集。

首先，和廠商合作翻譯專業(yè)英文期刊、整理中文期刊，收集帶有中文專業(yè)名詞的大量數(shù)據(jù)，降低大模型沒(méi)見(jiàn)過(guò)的專業(yè)詞匯比率；

然后，找來(lái)一批醫(yī)學(xué)院博士和博士后，設(shè)計(jì)一套系統(tǒng)對(duì)這些數(shù)據(jù)進(jìn)行整理，直到它們可以被喂給大模型使用。

聶再清強(qiáng)調(diào)，這些博士不是在做數(shù)據(jù)標(biāo)注，畢竟相比有監(jiān)督學(xué)習(xí)，自監(jiān)督學(xué)習(xí)更重要的是清洗、查找數(shù)據(jù)的工作：

這些期刊數(shù)據(jù)當(dāng)然不是一個(gè)人一篇一篇地看，那絕對(duì)不行，也不是一個(gè)字一個(gè)字敲進(jìn)去，也肯定不行。
畢竟大模型最主要的能力還是來(lái)源于自監(jiān)督學(xué)習(xí)，所以更多是讓他們進(jìn)行數(shù)據(jù)清洗和查找的工作。

當(dāng)然，醫(yī)藥界期刊總是在更新，因此這部分的工作也會(huì)持續(xù)進(jìn)行。

第二部分，是“專家數(shù)據(jù)集”，專門(mén)用于提升ChatDDFM的對(duì)話能力。

ChatDD的用戶，會(huì)有不少醫(yī)藥領(lǐng)域的專業(yè)用戶，為了讓它能無(wú)縫讀懂業(yè)內(nèi)人的“專言專語(yǔ)”，就必須要先了解專家們平時(shí)都會(huì)怎么說(shuō)話。

團(tuán)隊(duì)為此找了一些專家，“觀察”他們平時(shí)是怎么提問(wèn)的，根據(jù)這些問(wèn)題整理了一套數(shù)據(jù)集，專門(mén)喂給ChatDD。

這樣醫(yī)藥專業(yè)的用戶在使用時(shí)，不僅能像和同事聊天一樣直接提問(wèn)，也能選擇“提示詞模板”直接換詞填充。

此外，為了進(jìn)一步增強(qiáng)模型解決實(shí)際醫(yī)藥任務(wù)的能力，團(tuán)隊(duì)也接入了不少實(shí)用工具和開(kāi)源算法，解決用戶遇到的問(wèn)題，主要分為查詢和計(jì)算兩大類，如知識(shí)庫(kù)查詢工具、或靶點(diǎn)親和力計(jì)算工具。

但，ChatDDFM作為大模型，總歸繞不過(guò)幻覺(jué)這個(gè)問(wèn)題。

此前發(fā)布BioMedGPT時(shí)，聶再清就曾表示過(guò)不用害怕科研、藥物發(fā)現(xiàn)等階段的“幻覺(jué)”。現(xiàn)在發(fā)布商業(yè)版ChatDDFM，是否還這么想？

聶再清表示，現(xiàn)階段ChatDDFM可以根據(jù)不同的需求，調(diào)整大模型出現(xiàn)幻覺(jué)的情況。

例如在做商業(yè)智能的時(shí)候，就盡可能降低大模型的幻覺(jué)，做到每一句話都有來(lái)源可追溯；

但在做藥物發(fā)現(xiàn)的時(shí)候，只要有實(shí)驗(yàn)人員把關(guān)，都可以去適當(dāng)提升幻覺(jué)，增加一部分模型想象力來(lái)“換換思路”，或許能試出有意思的結(jié)果。

后期，ChatDDFM理論上甚至能做到“一鍵更改回答出現(xiàn)幻覺(jué)的比率”。

“對(duì)制藥行業(yè)有劃時(shí)代意義”

ChatDD背后的公司水木分子，目前已完成千萬(wàn)級(jí)種子輪融資。

水木分子自定義為“大模型時(shí)代的CRO公司”，即利用大模型或AI技術(shù)，幫助別人更好更快地制藥。

公司的盈利方式目前有三種，包括ToB付費(fèi)會(huì)員（按使用次數(shù)收費(fèi)）、私有化部署和制藥分成。

已經(jīng)有制藥廠商找來(lái)合作了——復(fù)星醫(yī)藥計(jì)劃對(duì)ChatDD進(jìn)行私有化部署，用于輔助藥物立項(xiàng)等階段。

藥物立項(xiàng)，涉及大量資料查找和判斷，包括查找有無(wú)藥物相關(guān)（官能團(tuán)、分子結(jié)構(gòu)保護(hù)等）專利，還要根據(jù)大量文獻(xiàn)和實(shí)時(shí)市場(chǎng)信息等資料判斷是否值得立項(xiàng)。ChatDD能通過(guò)整合文獻(xiàn)和相關(guān)專利，生成一個(gè)完整的參考報(bào)告。

ChatDD的出現(xiàn)，聶再清認(rèn)為對(duì)于行業(yè)而言有跨時(shí)代意義：

它真正將專家的經(jīng)驗(yàn)和直覺(jué)、以及大模型的“智力涌現(xiàn)”能力融會(huì)貫通了起來(lái)。

此前，制藥行業(yè)經(jīng)歷了三個(gè)階段，分別是TMDD（Traditional Manual Drug Design）、CADD（ComputerAided Drug Design）和AIDD（AI Drug Design）。

但無(wú)論是人工試驗(yàn)，還是計(jì)算或AI輔助藥物研發(fā)設(shè)計(jì)，都需要大量人力去“學(xué)會(huì)如何使用”模型，尚未出現(xiàn)一個(gè)能和科研人員直接對(duì)話的系統(tǒng)。

現(xiàn)在，ChatDD的出現(xiàn)真正改變了這一現(xiàn)狀。

它不僅能將制藥的知識(shí)經(jīng)驗(yàn)集成到大模型中，通過(guò)提示詞就能激發(fā)調(diào)用出來(lái)，還能通過(guò)學(xué)習(xí)專家對(duì)話方法掌握專業(yè)溝通能力，“相當(dāng)于把人和機(jī)器最powerful的地方做了個(gè)融合。”

不過(guò)，要完全實(shí)現(xiàn)ChatDD的全部潛能，真正進(jìn)入比較成熟的階段，聶再清認(rèn)為至少還有10年的黃金時(shí)代。

一方面，對(duì)于生物醫(yī)藥行業(yè)來(lái)說(shuō)，人類對(duì)于蛋白質(zhì)、細(xì)胞、小分子之類的理解也還遠(yuǎn)遠(yuǎn)不夠，在這個(gè)學(xué)科方面仍然可以做出很多成績(jī)和進(jìn)展；

另一方面，對(duì)AI行業(yè)來(lái)說(shuō)，無(wú)論是數(shù)據(jù)還是算法，也都還沒(méi)發(fā)展到足夠成熟的階段。

數(shù)據(jù)上，目前生物醫(yī)藥領(lǐng)域內(nèi)各模態(tài)和自然語(yǔ)言對(duì)齊的數(shù)據(jù)還很少。

（就像圖文一樣，雖然文字和圖像各自的數(shù)據(jù)很多，但圖文對(duì)齊如VQA的數(shù)據(jù)卻相對(duì)要少很多）

對(duì)此依舊需要不斷收集整理出PQA（蛋白質(zhì)問(wèn)答）、MQA（小分子問(wèn)答）等模態(tài)的數(shù)據(jù)，來(lái)讓多模態(tài)大模型的效果變得更好。

模型上，大模型目前的效果還不是最好的，無(wú)論是單模態(tài)還是多模態(tài)，都值得繼續(xù)去探索。

所以，公司的下一步計(jì)劃，就是繼續(xù)優(yōu)化模型、增加更多模態(tài)，并找到更多的場(chǎng)景落地需求。

對(duì)于ChatDD最終形態(tài)的設(shè)想，聶再清表示：

它會(huì)成為一個(gè)各模態(tài)（大小分子、蛋白質(zhì)結(jié)構(gòu)、DNA、單細(xì)胞等）和自然語(yǔ)言全部對(duì)齊的生物醫(yī)藥基礎(chǔ)大模型產(chǎn)品。

他也在發(fā)布會(huì)上預(yù)言，這個(gè)產(chǎn)品會(huì)成為生物醫(yī)藥行業(yè)的大模型“Killer APP”。

到那時(shí)候，才會(huì)真正打破醫(yī)藥界的“雙十定律”，高性價(jià)比的實(shí)現(xiàn)人機(jī)協(xié)作新藥研發(fā)。

— 完 —

量子位 QbitAI · 頭條號(hào)簽約

關(guān)注我們，第一時(shí)間獲知前沿科技動(dòng)態(tài)

上一篇：佛山藍(lán)星空調(diào)中心-藍(lán)星空調(diào)客服中心-藍(lán)星空調(diào)客服電話

下一篇：京瓷復(fù)印機(jī)故障代碼(常見(jiàn)故障代碼及解決方法)

首個(gè)千億生物醫(yī)藥ChatGPT！清華AIR聶再清：行業(yè)未來(lái)的超級(jí)應(yīng)用

相關(guān)推薦

熱門(mén)排行

最新發(fā)布

降雨來(lái)臨！兩項(xiàng)藍(lán)色預(yù)警齊發(fā)布！故宮再現(xiàn)“千龍吐水”奇觀

臺(tái)風(fēng)“蝴蝶”二次登陸，交通運(yùn)輸部加強(qiáng)陸上強(qiáng)降雨防范應(yīng)對(duì)

天津的雨，馬上到！明日暴雨+大風(fēng)！此時(shí)結(jié)束→

停課！停業(yè)！停運(yùn)！臺(tái)風(fēng)“蝴蝶”路徑有變！登陸地點(diǎn)預(yù)測(cè)→

大暴雨，特大暴雨！臺(tái)風(fēng)“蝴蝶”逼近！中央氣象臺(tái)發(fā)布“臺(tái)風(fēng)+暴雨”雙預(yù)警

隨便看看

24小時(shí)家電維修熱線： 400—1558638