如何應用人工智慧技術精準預測疫情發展

by omnixri

2020-04-29 07:42:141015 瀏覽次數


圖/文 歐尼克斯實境互動工作室 許哲豪 2020/4/23


自上次發文「新冠肺炎升溫如何應用人工智慧技術超前部署」[1]至今,短短兩週(2020/4/8~2020/4/21)依世界衛生組織(WHO)統計[2]又爆增104.5萬確診案例、8.3萬死亡案例,相當於這兩週產生的數量接近目前已知總數量(確診240.2萬,死亡16.3萬)的一半。而其中又以美國最為嚴重,確診總案例佔世界32.3%,死亡案例也達23.1%。由於疫情發展如此迅速,故世界各國無一不想得知疫情的可能發展趨勢,以利超前佈署並有效干預,使得疫情能快速降溫恢復正常日常活動。


天氣預測 vs. 疫情預測


俗話說「天有不測風雲」用來表示預測天氣的困難,為了滿足精準預測所需的「資料集」、「算法(模型)」、「算力」及「領域知識」四大要素,各國通常會大量建立氣象資訊收集站並長期記錄及分享,同時依不同地域特性建立天氣預測模型,最後再利用超級電腦輔助運算以得到合理的天氣預報。雖然目前預測結果還不是百分百令人滿意,但已有一定的準確度,方便我們提早做災害預防及安排日常作息。


但不幸地是若想利用類似預測天氣的概念來進行「疫情預測」就沒有這麼可行。這可不是大量參考各國或局部地區收集到的送檢、確診、死亡及康復案例數量就能準確推估疫情增減及下一個受影響的區域及規模大小。主要差別在於人會透過交通工具任意、快速地移動並與他人接觸,而天氣狀態只會依特定規律移動、變化。加上目前收集到的數據有限,不像一般天氣或流行性感冒有長期統計可看出傳播途徑、力道及週期規律,所以就更難以建立預測模型。


若再加上戴口罩、封城隔離、減少社交活動、保持社交距離等人為高壓干預,那從預測角度來看,本應依一定規律發生的未來事件就會變得更難以推估,這和天氣難以用人為方式影響有明顯的差別。


史丹佛COVID-19 and AI研討會


雖然此次新冠肺炎(COVID-19)疫情預測是一項比天氣或一般流感預測還困難的事,但各國仍集結產官學研運用各種技術來進行分析預測。不久前(2020/4/1)由美國史丹佛大學知名人工智慧專家李飛飛教授領軍的「以人為本人工智慧研究院(Stanford Institute for Human-Centered Artificial Intelligence, 簡稱HAI)」用不到一個月的時間召集了27位專家召開了一場線上研討會「COVID-19 and AI: A Virtual Conference」[3],分別就「現況及框架」、「社會影響與生物安全」、「流行病追蹤」及「治療和疫苗」等四大領域進行討論,並釋出了所有會議影片及相關簡報,供更多產官學研及有心投入的人一些參考。


Fig. 1 Stanford COVID-19 and AI: A Virtual Conference與會專家(圖片來源:[3])


其中在第三節「流行病追蹤」部份,請到卡內基梅隆大學統計系和機器學習系Ryan Tibshirani教授分享「COVID-19的流行病學預測挑戰」[4]。他所在的DELPHI研究中心連續多年獲得美國疾病管中心(CDC)季節性流感預測比賽冠軍,並已將其成果納入州級公衛體預報及決策系統,可提早示警發生的時機、趨勢的變化及醫院的負荷能力等。而其最主要的手段是透過統計學方式的機器學習算法(模型)來進行智能人群流感預測,而非公共衛生體系流行病學中常用的SIR或SEIR模型(易感染(Susceptible)、已曝露(Exposed)、被感染(Infectious)、康復(Recovered))[5],所以非常仰賴大量的過去歷史資料。


Fig. 2 卡內基美隆Ryan Tibshirani教授說明美國一般流行性感冒預測及新冠肺炎預測之挑戰。(OmniXRI整理製作 2020/4/23,資料來源:[4])

YOUTUBE影片:https://youtu.be/G9AhSWu5uRU?t=1403 (Ryan教授簡報於影片23:21~32:00處[6])


Ryan教授提到在季節性流感預測中,通常包含四週後類流感比例(% ILI = influenza-like illness)的「短期預測」,最高峰出現的時間及維持長度的「長期預測」及每週更新或新增資料後的「重複性預測」。2019年底至2020年初就已發現原先預測流感的系統出現異常,類流感比例出現奇怪的振盪,導致預測模型失準,直到疫情大暴發才發覺是因COVID-19疫情造成。為因應此次疫情,在CDC的號召下,目前已有超過20個團隊正嘗試建立新的預測模型,而Ryan教授的DELPHI研究中心也在加強各種疫調資訊收集,期望藉此修正預測模型來面對此次的挑戰。


時序預測型疫情預測


「時序預測」經常用在環境變化、股匯市盤價、市場銷售分析等情境,常然也可用在流行感冒的分析預測上。此類技術主要是希望藉由大量歷史資料找出「長期趨勢」、「迴圈或週期變動」、「季節變動」及「不規則變化」等主要特徵藉以用預測未來趨勢。主要概念是建構在過去發生過的類似時序也可能發生在未來。常見傳統作法有自迴歸模型 (Autoregressive Models, AR)、移動平均模型 (Moving Average Models, MA)、ARMA模型 (AR, MA 兩者的混合)、ARIMA模型 (Autoregressive Integrated Moving Average model, ARIMA)、向量自迴歸模型(Vector Autoregression model, VAR)等。


近年來開始有越來越多人將人工智慧中的「深度學習」相關技術導入「時序預測」且獲得不錯的成果,像是深度回歸模型(Deep Regression, DR)、卷積神經網路(Convolutional Neural Networks, CNN)、循環神經網路(Recurrent Neural Network, RNN)及長短期記憶網路(Long Short Term Memory, LSTM)等。從Fig. 3中大致可以看出差異。


Fig. 3 各種時序預測模型效果比較(OmniXRI 2020/4/23整理製作,資料來源:[7])


不過以上這些方式不管是傳統迴歸擬合或是以人工智慧方式預測,都需要大量歷史資訊作為訓練資料集,且只能同時預測一項指標,難以複合多項指標及加入指標間的交互影響,所以常會受外部事件干擾。像此次COVID-19的疫情就無法像一般流行性感冒那麼容易預測。


流行病學型疫情預測


既然傳統時序分析暫時難以發揮,是否回到流行病學的SEIR模型[5]就能較正確推估此次COVID-19的疫情呢?其實也沒有這麼容易,因為有多項參數在沒有大量統計前不容易取得接近現況的數值,如潛伏期、世代間隔及基礎再生數R0等,暫時只能以過往類似疾病(如SARS)來粗略估算。其中R0值=接觸頻率*感染機率*病程長短,是決定疫情傳播速度的重要參數。當大於1時會持續擴散,傳染速度會以指數成長。而小於1時疫情就會開始減緩直到完全消失。而接觸頻率及感染機率這兩項可以透過人為干預方式使R0降低。這種預測模型較不需依賴大量歷史數據就能推估,但不幸地是這些參數短時間內難以找到合理區間,導致疫情預估會產生極大變化,變得危言聳聽或者太過輕忽。


Fig. 4 流行病學SEIR預測模型。(資料來源:[5])


人工智慧型疫情預測


眾所皆知,統計式的AI算法適合大量格式化資訊的探勘,而深度學習型的AI算法則適合非格式化及多型態資料的混合分析,進而協助預測及決策。在前面提到的史丹佛研討會第三節「流行病追蹤」部份,也有一些專家指出,可透過搜尋引擎查詢關鍵字頻度、社群媒體討論內容、類流感相關產品(如體溫計等)銷售狀況、類流感症狀(如體溫、咳嗽、流鼻水、呼吸困難、失去味覺嗅覺等)監控、地區行動通訊流量等複合性資訊進行預測下一個可能爆發疫情的地區。


此次加拿大新創公司BlueDot [8]也於CDC及WHO正式公告COVID-19前一週就已經利用AI分析出此次疫情將由中國爆發及可能傳播路徑,並警告其客戶提早準備,充份發揮AI的長處。BlueDot成立於2014年,其創辦人Khan就是受2003年SARS啟發,開始對各種病原體(如SARS,依波拉、茲卡等150多種)可能造成的疫情進行監控。其主要偵測方式是每天以65種語言掃描100,000多種官方和大眾媒體報導並進行自然語言處理(Natural Language Processing, NLP),找出可能傳播病原的訊息。另外利用大量的飛行路線和匿名移動通信裝置來分析擴散的可能路徑。同時參考各國即時氣候條件、衛生系統能力及各種動物和昆蟲種群的疾病資訊,以得到更可靠的預測結果。


另外目前各國也都積極提出疫情相關數據集,方便大家建立有效的預測算法(模型)。其中以Kaggle [9]規模最大,不僅讓各路好手同台競技,更分享源碼讓大家相互觀摩切磋。台灣也不遑多讓,AIdea也推出COVID-19確診案例數預測比賽 [10],有興趣的朋友可以多多關注這些平台。


小結


利用更多的人工智慧技術來精準預測疫情,並不是為了危言聳聽,也不是為了將科研成果轉換成商機,而只是希望「決勝於千里之外」,讓尚未擴大的疫情能「超前部署」及早壓制,避免星火燎原,一發不可收拾。希望不久的將來在全球通力合作下能儘速回復往日健康的日常生活。


*本文同步發行於歐尼克斯實境互動工作室部落格(https://omnixri.blogspot.com)及AI HUB(https://aihub.org.tw),歡迎連結至AI HUB網站【社群互動】下【AI技術交流區】瀏覽更多精采文章*

參考文獻:


[1] 許哲豪,新冠肺炎升溫如何應用人工智慧技術超前部署 https://platform.aihub.com.tw/specialist/article/908a7490-805a-11ea-8d91-0242ac120002

[2] WHO COVID-19疫情統計 https://covid19.who.int/

[3] Stanford Institute for Human-Centered Artificial Intelligence (HAI) - COVID-19 and AI: A Virtual Conference https://hai.stanford.edu/events/covid-19-and-ai-virtual-conference/overview

[4] Ryan Tibshirani, Epidemiological Forecasting Tools for COVID-19 https://hai.stanford.edu/sites/g/files/sbiybj10986/f/12-ryan_tibshirani.pdf

[5] 台灣公共衛生學會─第三堂課_新冠肺炎之傳播分析 http://www.publichealth.org.tw/upload/files/第三堂課_新冠肺炎之傳播分析(1).pdf

[6] Stanford HAI - COVID-19 and AI: A Virtual Conference - Session Three https://youtu.be/G9AhSWu5uRU?t=1403

[7] Sonam Srivastava, Deep Learning in Finance https://towardsdatascience.com/deep-learning-in-finance-9e088cb17c03

[8] BlueDot https://bluedot.global/

[9] Kaggle COVID19 Global Forecasting https://www.kaggle.com/c/covid19-global-forecasting-week-4

[10] AIdea台灣COVID-19確診案例數預測 https://aidea-web.tw/covid-19