123,123,123

　一鍵部署OpenClaw

以前,醫(yī)療行業(yè)研究人員需要手動(dòng)收集和分析大量的數(shù)據(jù)以進(jìn)行疾病的預(yù)測(cè)和治療,面對(duì)龐雜的數(shù)據(jù)信息,相關(guān)的數(shù)據(jù)分析工作挑戰(zhàn)十分巨大。隨著人工智能領(lǐng)域的發(fā)展,醫(yī)生在見(jiàn)到患者的同時(shí)獲得基于實(shí)驗(yàn)室檢查結(jié)果,家族病史,臨床試驗(yàn)數(shù)據(jù)等生命統(tǒng)計(jì)數(shù)據(jù)的實(shí)時(shí)分析報(bào)告將成為現(xiàn)實(shí)。本文將以重癥監(jiān)護(hù)醫(yī)學(xué)領(lǐng)域的人工智能應(yīng)用為例,講述如何使用DarwinML來(lái)輔助醫(yī)療行業(yè)數(shù)據(jù)科學(xué)家進(jìn)行自動(dòng)建模。

DarwinMLDataFusion數(shù)據(jù)抽取平臺(tái)

該平臺(tái)幫助醫(yī)療行業(yè)數(shù)據(jù)科學(xué)家將原始數(shù)據(jù)自動(dòng)轉(zhuǎn)換為可以被模型使用的特征數(shù)據(jù),功能通過(guò)數(shù)據(jù)流形式實(shí)現(xiàn),研究者可以通過(guò)修改參數(shù)和拖拽節(jié)點(diǎn)靈活改變特征抽取過(guò)程。下圖是一個(gè)數(shù)據(jù)流示意圖。

DarwinMLStudio自動(dòng)建模平臺(tái)

從數(shù)據(jù)導(dǎo)入和清洗為起點(diǎn),DarwinML可自動(dòng)建模并給出模型多方位評(píng)估結(jié)果,數(shù)據(jù)科學(xué)家只需要重點(diǎn)關(guān)注模型評(píng)估結(jié)果。研究者根據(jù)研究目標(biāo),自行返回去調(diào)整最初的數(shù)據(jù)清洗方案和模型設(shè)置,多次建模,選擇符合研究需要的最終模型。

DarwinML自動(dòng)建模平臺(tái)全流程如下:

1)數(shù)據(jù)清洗:均衡樣本分布,填補(bǔ)缺失值,消除特征異常值,文本特征數(shù)值化等。

2)模型設(shè)計(jì):根據(jù)數(shù)據(jù)自身特性,以及研究者的參數(shù)設(shè)定,自動(dòng)構(gòu)建搜索空間內(nèi)的最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)。網(wǎng)絡(luò)結(jié)構(gòu)會(huì)在平臺(tái)中顯示如下。

超參調(diào)優(yōu):對(duì)最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合數(shù)據(jù)特性,給出相匹配的最優(yōu)超參組合,比如下圖所示的“超參數(shù)”列中XGBClassifiler的learningRate和nEstimators等。

4)模型訓(xùn)練:使用最優(yōu)網(wǎng)絡(luò)及超參組合,實(shí)際訓(xùn)練模型。

5)模型評(píng)估:給出查全率,查準(zhǔn)率,AUC等基礎(chǔ)指標(biāo)值,并且從模型角度,給出重要列分析結(jié)果,從樣本角度,給出單個(gè)樣本的重要特征分析。

同時(shí)可以根據(jù)需要,DarwinML自動(dòng)建模平臺(tái)也支持只使用部分功能。比如可以導(dǎo)入一組新患者的檢查數(shù)據(jù),使用上次訓(xùn)練好的模型,只做模型評(píng)估,來(lái)對(duì)這一組新患者的患病幾率做預(yù)判。

案例:重癥感染綜合征(又名敗血癥,Sepsis)預(yù)后研究

根據(jù)其較早期的檢查指標(biāo),我們使用DarwinML為重癥監(jiān)護(hù)室(ICU)患者預(yù)警感染重癥感染綜合征(又名敗血癥,Sepsis)的可能性,以及是哪些指標(biāo)以何種方式導(dǎo)向這一結(jié)果。從而讓醫(yī)療領(lǐng)域數(shù)據(jù)科學(xué)家可以盡早地根據(jù)患者的各項(xiàng)檢查指標(biāo)來(lái)判斷Sepsis病癥的預(yù)后。研究者通過(guò)模型預(yù)警提前介入,用藥治療挽救生命。

步驟一:數(shù)據(jù)抽取

根據(jù)研究需要,我們的特征抽取目標(biāo)是,從620萬(wàn)條檢查記錄中,涉及約20,000名患者的70項(xiàng)檢查,抽取出進(jìn)入ICU之后符合一定條件的記錄,生成特征值用于模型。

DarwinML數(shù)據(jù)抽取平臺(tái)在這一過(guò)程中,可以幫助研究者完成三件事情:

1.數(shù)值化指標(biāo)值:由于醫(yī)療設(shè)備各有差異,同一項(xiàng)指標(biāo)的結(jié)果記錄不一致。比如:白蛋白(Albumin)指標(biāo),在部分檢查結(jié)果中記錄為數(shù)值0.5,1.9,2.9等,但有些檢查結(jié)果使用分段記錄“LESSTHAN0.3”,“LESSTHAN1.0”等,需要統(tǒng)一化處理為數(shù)值,用于模型訓(xùn)練;

2.截取數(shù)據(jù):研究者可以通過(guò)色設(shè)置參數(shù),來(lái)對(duì)關(guān)注的部分進(jìn)行數(shù)據(jù)截取。比如在本次案例中,研究者希望探究是否有可能在患者進(jìn)入ICU72小時(shí)內(nèi)給出感染Sepsis的預(yù)判,則研究者設(shè)定如下參數(shù)值來(lái)實(shí)現(xiàn)。

3.生成模型特征:由于患者的各項(xiàng)檢查時(shí)間不連續(xù),檢查間隔不穩(wěn)定,導(dǎo)致70項(xiàng)指標(biāo)的缺失值平均高達(dá)86.88%,具有高稀疏性特點(diǎn)。平臺(tái)可以對(duì)620萬(wàn)條檢查記錄進(jìn)行特征生成,轉(zhuǎn)換為被模型直接使用的20,000條患者記錄,也就是每位患者一條特征數(shù)據(jù)。

上述步驟將在DarwinMLDataFusion,以數(shù)據(jù)流形式在1小時(shí)內(nèi)處理結(jié)束。數(shù)據(jù)流的運(yùn)行進(jìn)展可以通過(guò)頁(yè)面日志實(shí)時(shí)查看,也可以在數(shù)據(jù)流實(shí)時(shí)顯示。

步驟二:數(shù)據(jù)清洗

DarwinML自動(dòng)建模平臺(tái)會(huì)在數(shù)據(jù)導(dǎo)入后給出當(dāng)前數(shù)據(jù)每一列的具體清洗建議。比如:是否需要填充缺失值,填充值取多少合適;這一列的數(shù)據(jù)是否有嚴(yán)重偏移,是否需要消除異常值;這一列是否是字符串列,模型無(wú)法直接使用,如何做數(shù)值化處理,是映射為0,1,2...,還是做ICA編碼提取語(yǔ)義等。當(dāng)然,研究者可以選擇信任推薦的清洗方案,也可以自定義清洗方案。

下圖給出了DarwinML對(duì)不平衡數(shù)據(jù)分布自動(dòng)做均衡化之后的結(jié)果,原本7:1的嚴(yán)重偏移分布(左圖),轉(zhuǎn)換為可以更好被模型擬合的2:1分布比例(右圖)。

“Hours0-72_Alkalinephosphate_min”數(shù)據(jù)由于含有異常值,數(shù)據(jù)分布呈現(xiàn)嚴(yán)重正偏態(tài),如下左圖,DarwinML自動(dòng)推薦等距分箱,清洗后,如下右圖,消除了偏態(tài)分布。

在數(shù)據(jù)清洗完成后,DarwinML自動(dòng)建模平臺(tái)會(huì)給出最終的數(shù)據(jù)寬表(如下圖)供反查。如果有不符合預(yù)期的處理,可以選擇“再次清洗”實(shí)現(xiàn)。

步驟三:模型設(shè)計(jì)、超參調(diào)優(yōu)、模型訓(xùn)練

DarwinML自動(dòng)完成。

步驟四:模型評(píng)估

在DarwinML完成自動(dòng)建模后,研究者可以查看模型評(píng)估結(jié)果來(lái)進(jìn)行分析。比如:當(dāng)我們完成了一個(gè)模型,看到ROC曲線如下,AUC約等于0.9249,模型整體準(zhǔn)確率較高。

但當(dāng)我們進(jìn)一步查看模型重要列分析,發(fā)現(xiàn)模型給出重要性較高的指標(biāo)是Diastolicbloodpressure(舒張壓)等體征指標(biāo),而研究者更為關(guān)注的是各項(xiàng)病理檢查指標(biāo)。

為了排除影響,我們選擇再次清洗數(shù)據(jù),把體征指標(biāo)從數(shù)據(jù)中剔除掉,再次自動(dòng)建模。

剔除體征指標(biāo)后,得到一個(gè)新的模型,AUC約等于0.9094,略有降低,但模型的實(shí)際功能更符合研究需要。

接下來(lái),我們可以查看評(píng)分卡結(jié)果,并對(duì)來(lái)患病幾率選擇一個(gè)門限,比如0.3,這時(shí)查準(zhǔn)率大約為0.94。在實(shí)際使用中,當(dāng)模型給出的患病幾率超過(guò)門限0.3,我們就可以初步判斷這位患者易感,需要重點(diǎn)關(guān)注。

結(jié)語(yǔ)

本文主要以重癥感染綜合征(又名敗血癥,Sepsis)的一次預(yù)后研究為例,對(duì)DarwinML自動(dòng)建模平臺(tái)展開介紹。DarwinML同時(shí)支持時(shí)間序列、圖像分類、圖像目標(biāo)識(shí)別、OCR等任務(wù),兼容研究者自定義的模型應(yīng)用。在輔助醫(yī)療行業(yè)數(shù)據(jù)科學(xué)家進(jìn)行自動(dòng)建模過(guò)程中實(shí)現(xiàn)了自動(dòng)化、人性化、專業(yè)化等極具應(yīng)用價(jià)值的目標(biāo)。

本?為探智立?與廣州市婦女兒童醫(yī)療中心李麗娟博?合作研究案例

申請(qǐng)創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

相關(guān)文章

獨(dú)辟蹊徑，平安健康的戰(zhàn)略深化成果浮出水面

兩會(huì)剛剛落幕，但重點(diǎn)議題依然余音繞梁。其中，大健康、互聯(lián)網(wǎng)醫(yī)療等行業(yè)依然是重中之重。政府工作報(bào)告中更特別提出“推動(dòng)優(yōu)質(zhì)醫(yī)療資源擴(kuò)容下沉和區(qū)域均衡布局”、“提升醫(yī)療衛(wèi)生服務(wù)能力”等議題。推動(dòng)大健康產(chǎn)業(yè)發(fā)展、提升滿足人民醫(yī)療健康需求的能力，需要多方協(xié)作。政府、社會(huì)、企業(yè)三方均應(yīng)把握合適站位。其中，企業(yè)端

標(biāo)簽：

互聯(lián)網(wǎng)醫(yī)療
引入?yún)R豐完成C+輪融資，鎂信健康有何資本“魅力”？

近日，上海鎂信健康科技股份有限公司（下稱“鎂信健康”）宣布完成C+輪融資，引入?yún)R豐集團(tuán)作為戰(zhàn)略投資者。鎂信健康近兩年是資本市場(chǎng)貨真價(jià)實(shí)的“香餑餑”，2021年，完成B輪和C輪兩輪融資，融資金額合計(jì)超30億。鎂信健康的融資除了融資規(guī)模大、融資速度快外，還有一個(gè)顯著特點(diǎn)，便是投資方均為博裕資本、上海生物

標(biāo)簽：

互聯(lián)網(wǎng)醫(yī)療
糖吉醫(yī)療榮獲“中國(guó)最受歡迎健康醫(yī)療產(chǎn)業(yè)/平臺(tái)”

引入：近日，由全球新經(jīng)濟(jì)產(chǎn)業(yè)第三方數(shù)據(jù)挖掘和分析機(jī)構(gòu)iiMediaResearch（艾媒咨詢）主辦的“2023年新經(jīng)濟(jì)趨勢(shì)分析大會(huì)”圓滿落幕。會(huì)上重磅揭曉了“2022年（第7屆）中國(guó)新經(jīng)濟(jì)行業(yè)年度巔峰榜”獲獎(jiǎng)名單，挖掘新經(jīng)濟(jì)行業(yè)優(yōu)秀企業(yè)，旨在通過(guò)榜樣的力量，進(jìn)一步推動(dòng)中國(guó)經(jīng)濟(jì)的創(chuàng)新與發(fā)展。眾所周知，

標(biāo)簽：

互聯(lián)網(wǎng)醫(yī)療
阿里、京東、百度“激戰(zhàn)”互聯(lián)網(wǎng)醫(yī)療

與衣食住行一樣，醫(yī)療需求同樣對(duì)人們的生存具有重要意義。醫(yī)療行業(yè)經(jīng)過(guò)多年的發(fā)展，也已經(jīng)發(fā)生了翻天覆地的變化。除了線下醫(yī)療日益完善之外，互聯(lián)網(wǎng)醫(yī)療也隨著互聯(lián)網(wǎng)的飛速發(fā)展而實(shí)現(xiàn)了快速起飛?，F(xiàn)如今，互聯(lián)網(wǎng)醫(yī)療已經(jīng)逐步成為了線下醫(yī)療的重要補(bǔ)充，為人們的醫(yī)療需求提供了諸多助益。而快速發(fā)展的互聯(lián)網(wǎng)醫(yī)療領(lǐng)域，也迎來(lái)

標(biāo)簽：

互聯(lián)網(wǎng)醫(yī)療
東方啟音技術(shù)中心副總裁Dr. Sally受邀出席海外名師項(xiàng)目論壇

為共同推進(jìn)國(guó)內(nèi)言語(yǔ)治療發(fā)展，廣東省科學(xué)技術(shù)廳2021年度海外名師項(xiàng)目——“中國(guó)言語(yǔ)語(yǔ)言病理學(xué)專業(yè)發(fā)展探索”主題論壇將于11月27日召開。海內(nèi)外言語(yǔ)領(lǐng)域多名知名專家學(xué)者將出席此次論壇項(xiàng)目

標(biāo)簽：

互聯(lián)網(wǎng)醫(yī)療

當(dāng)前位置：首頁(yè) > 科技 > IT業(yè)界 > 正文

DarwinML人工智能解決方案:面向醫(yī)療行業(yè)數(shù)據(jù)科學(xué)家的自動(dòng)建模平臺(tái)

相關(guān)文章

獨(dú)辟蹊徑，平安健康的戰(zhàn)略深化成果浮出水面

引入?yún)R豐完成C+輪融資，鎂信健康有何資本“魅力”？

糖吉醫(yī)療榮獲“中國(guó)最受歡迎健康醫(yī)療產(chǎn)業(yè)/平臺(tái)”

阿里、京東、百度“激戰(zhàn)”互聯(lián)網(wǎng)醫(yī)療

東方啟音技術(shù)中心副總裁Dr. Sally受邀出席海外名師項(xiàng)目論壇

熱門排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網(wǎng)廣告的存在意義何在？

熱門標(biāo)簽

當(dāng)前位置：首頁(yè) > 科技 > IT業(yè)界 > 正文

DarwinML人工智能解決方案:面向醫(yī)療行業(yè)數(shù)據(jù)科學(xué)家的自動(dòng)建模平臺(tái)

相關(guān)文章

獨(dú)辟蹊徑，平安健康的戰(zhàn)略深化成果浮出水面

引入?yún)R豐完成C+輪融資，鎂信健康有何資本“魅力”？

糖吉醫(yī)療榮獲“中國(guó)最受歡迎健康醫(yī)療產(chǎn)業(yè)/平臺(tái)”

阿里、京東、百度“激戰(zhàn)”互聯(lián)網(wǎng)醫(yī)療

東方啟音技術(shù)中心副總裁Dr. Sally受邀出席海外名師項(xiàng)目論壇

熱門排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網(wǎng)廣告的存在意義何在？

熱門標(biāo)簽

引入?yún)R豐完成C+輪融資，鎂信健康有何資本“魅力”？

阿里、京東、百度“激戰(zhàn)”互聯(lián)網(wǎng)醫(yī)療

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網(wǎng)廣告的存在意義何在？