新冠肺炎升溫如何應用人工智慧技術超前部署(上)

by omnixri

2020-04-17 11:21:452322 瀏覽次數


2019年底中國大陸武漢地區爆出大量不明肺炎患者後,旋即擴散到全世界。國際病毒分類委員會(ICTV)依病毒特徵類似造成2003年「嚴重急性呼吸道症候群(SARS)」,於是在今(2020)年2/11正式命名為「SARS-CoV-2」。而世界衛生組織(WHO)為了避免疾病名稱冠上地名造成歧視,亦於2/12將此疾病由俗稱的「武漢肺炎」正式命名為「新冠肺炎(COVID-19)」。

這項疾病僅僅三、四個月就造成全世界一百八十多個國家,一百三十多萬人確診感染,八萬多人不幸因病離世,而且這個數字還在不斷爆增中[1][2],猶如第三次世界大戰,因此各國及各大城市紛紛開始進行封城或降低社交活動以減緩疫情擴散。

回想2003年SARS造成亞洲地區嚴重傷害,雖然當時也沒有精確有效的醫療方法及藥物,但幸運地是不到半年疫情就莫名消失,經濟也在疫情結束後得到報復式成長,一掃先前不景氣造成的困境。不過這一次新冠肺炎(COVID -19)的疫情看起來不像當年那樣樂觀,因此世界各國無不繃緊神經,集結各領域產官學研專家、民間富豪、慈善機構及各路高手一起來腦力激盪,以期望除了能快速控制疫情外更能穩定經濟及失業率。

在此危難時刻有些人就把希望寄托在這兩年當紅的「人工智慧(Artificial Intelligence, AI)」上,而到底有那些AI技術是馬上能幫上忙的,有那些共享的AI資源可以使用的,接下來就為大家快速盤點一下,方便有心想投入AI防疫的朋友可以找到發揮的空間來超前部署。


Fig. 1 COVID -19各國確診人數變化圖(2020/1/21~2020/4/8)。(資料來源:[2])


AI技術、應用領域及處理情境


話說AI發展至今已五十多個年頭,歷經感知器技術(Perceptron)、專家系統(Expert System)、機器學習(Machine Learning)、數據採礦(Data Mining)等階段,中間大起大落經歷數次寒冬,直至2012年因深度學習(Deep Learning)(或說類神經網路(Neural Network))技術獲得重大突破,才又有這一波AI的新浪潮。這中間除了演算法的不斷精進外,若沒有巨量資料集共享、算力的突飛猛進及領域知識的加持,是不會有今日百家爭鳴、遍地開花的局面。

目前AI較常見應用領域大至可分為「數據分析」、「電腦視覺」及「自然語言」等三大類。而面對這一波的疫情AI主要適合處理的情境包括「疫情物資預測」、「防疫藥物開發」、「檢疫智慧管理」及「臨床診斷輔助」。接下來就分別針對各項防疫情境會面對的問題、所需用到的AI技術及有待努力的瓶頸作更進一步說明。


Fig. 2 人工智慧發展及AI防疫應用情境。(OmniXRI整理繪製 2020/4/9)


【疫情物資預測】


目前直接防疫物資從人員(如醫護、加工製造、運輸等)、材料(不織布、醫檢試劑等)、設備(口罩機、紅外線熱像儀、額溫槍等)到成品(如口罩、酒精、呼吸器等)大都已由政府單位緊急列管,所以可由較簡單的數學公式得出單位時間可獲得的數量,進而得知需要投入多少資源(人、錢、時間等)才能滿足整體需求,較不須太多AI投入。但其它間接防疫物資如食物、民生用品、非疫情用藥、工業零件、加工原物料等是否會受進出口影響變相造成另類重災區,就必須透過更多如政府資料開放平台[3]、各類公協會長、短期統計和同期對比資料及民間商業(國內外趨勢)分析數據加以協助,才能進行精準預測並提醒及早準備。

在傳統「數據分析」及「資料採礦」領域中視資料維度多寡多半可利用統計學(如線性迴歸、邏輯迴歸等)或部份機器學習理論(如向量支持機SVM、決策樹DT、隨機森林RF、聚類、降維等)加以建立預測模型,相當於利用過去曾發生的內容及時序變化來推估未來可能發生的結果。

目前對於疫情預測多半會參考送檢、排除、確診、死亡、解除(回復健康)等案例數量來進行疫情變化預測,但這些數字會受大量外界因素(如人員移動、接觸史、傳播數等)干擾所以很難正確估測。就像單純只看當地過去兩、三天的氣溫、濕度變化,而不參考衛星雲圖、地形及其它週邊因素就要預測明、後天的天氣一樣不可靠。

換句話說,這樣的預測很容易落入數據不足、模擬超準、實際預測落差太大的過擬合(Overfitting)現象產生。若再加上人為干預因素(如飛機停飛、居家隔離、降低社交、保持距離、配帶口罩等)則要建立預測模型就更不容易。因此如果想要更精準地預測疫情就必須加入更多變數(如交通運輸量、民生用藥變化、行動通訊量、其它影響傳播數量因素等)及鄰近區域變化(如地區、國家等)。

如以前Google Flu Trends服務[4] (2008~2015)利用搜尋關鍵字的頻度統計來輔助預測流感發生地區。或者像BlueDot利用新聞媒體報導、社群網站討論、各國動植物疾病狀態及機票數據變化等各項資訊來分析下一個可能爆發疫情地點,再交由專業流行病研究人員判定真偽及可能性 [5]。


【防疫藥物開發】


目前新冠肺炎(COVID-19)並無有效疫苗及可靠治療藥物及方法,同時也很缺乏快速篩檢確診患者的工具及試劑,因此各國研究人員只能先從過往類似疾病(如SARS, 流感等)的治療方式進行測試,但效果都不顯著。在這種疫情快速蔓延的情況下,若只靠研究人員以猜想及試錯的方式找尋新藥那就太曠日費時、緩不濟急。

傳統上雖然已有許多藥物開發工具或基因比對工具可進行模擬測試用以找到候選新藥,主要依賴超高運算能力電腦進行大量匹配計算,但如果沒有一些特定方向縮小搜索範圍,那就如同海底撈針一樣困難。若此時藉助AI的「自然語言處理(Natural Language Processing, NLP)」分析方式協助搜索大量相關研究報告及論文,那將大幅降低科研人員的負擔及提高開發新藥、疫苗及試劑的時效。

今年二月初行政院便邀請台灣人工智慧實驗室(AI Labs.tw)共同協助以AI技術來進行疫情預測、藥物篩選、X光影像診斷及文獻分析。期間推出AI抗疫平台網站 [6],並推出世界第一份「老藥新用」建議清單 [7],同時共享了很多數據以利全世界共同研發。其它國家及開源社群也不約而同的開放相關資源供大家使用,以下就簡單列舉幾個適合以NLP技術的文獻資料集。

* 台灣人工智慧實驗室 variant2literature [8],收錄八百萬篇論文全文和三千萬篇論文摘要。

* Kaggle - COVID-19 Open Research Dataset Challenge [9],提供十項挑戰,收錄三萬六千多篇SARS, COVID-19相關論文全文。

* Semantic Scholar - COVID-19 Open Research Dataset [10],收錄四萬七千多篇全文,三萬六千多篇COVID-19相關論文全文。

* Google Scholar – COVID-19 [11],約有二萬四千多筆搜尋結果。

另外台灣旅美大數據分析專家Graphen創辦人林清詠亦整理了世界各國COVID-19病毒基因序列並建立首個基因演化路徑分析網站 [12]並將其關係可視化,期望更多科研人員及廠商能透過這些病毒的演化歷程來開發相關新藥、試劑及設備。


Fig. 3 Graphen COVID-19基因演化路徑分析(資料來源:[12],OmniXRI整理繪製 2020/4/9)


本文下接:新冠肺炎升溫如何應用人工智慧技術超前部署(下)


*本文同步發行於歐尼克斯實境互動工作室部落格(https://omnixri.blogspot.com)及AI HUB,歡迎連結至AI HUB網站(https://aihub.org.tw)瀏覽更多精采文章* 

參考文獻

[1] 衛服部COVID-19(武漢肺炎)統計網頁 https://sites.google.com/cdc.gov.tw/2019ncov/global

[2] Our World in Data, Coronavirus Disease (COVID-19) – Statistics and Research https://ourworldindata.org/grapher/covid-confirmed-cases-since-100th-case

[3] 政府資料開放平台 https://data.gov.tw/

[4] Wiki – Google Flu Trends https://en.wikipedia.org/wiki/Google_Flu_Trends

[5] An AI Epidemiologist Sent the First Warnings of the Wuhan Virus https://www.wired.com/story/ai-epidemiologist-wuhan-public-health-warnings/

[6] 台灣人工智慧實驗室(AI Labs.tw)抗疫平台 https://covirus.cc/

[7] 台灣人工智慧實驗室(AI Labs.tw) 新藥篩選結果 https://github.com/ailabstw/COVID19-taiwan

[8] 台灣人工智慧實驗室(AI Labs.tw) variant2literature https://v2l.taigenomics.com/

[9] Kaggle - COVID-19 Open Research Dataset Challenge https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge

[10] Semantic Scholar - COVID-19 Open Research Dataset https://pages.semanticscholar.org/coronavirus-research?fbclid=IwAR03UQxYLm3KcHAbu4Ph4DYUDupiAEouClSQgB_7n204D3KFypjUqjMNnPw

[11] Google Scholar – COVID-19 (2020) https://scholar.google.com/scholar?as_vis=1&q=covid-19&hl=zh-TW&as_sdt=1,5&as_ylo=2020

[12] Graphen - Monitoring COVID-19 http://www.graphen.ai/covid.html