顧友陽的美國新冠感染地圖。covid19-projections
顧友陽的美國新冠感染地圖。covid19-projections
顧友陽預測矽谷所在地聖他克拉縣到今年11月的新冠死亡人數為418。covid19-projections
顧友陽預測矽谷所在地聖他克拉縣到今年11月的新冠死亡人數為418。covid19-projections
華裔科學家顧友陽預測新冠疫情的模型準確度獲佳評。美聯社
華裔科學家顧友陽預測新冠疫情的模型準確度獲佳評。美聯社

當2020年3月和4月人們試圖預測新冠病毒可能有多大影響時,兩種預測系統被頻頻提及。一種由倫敦帝國學院建立,另一種由位於西雅圖的衛生計量與評估研究所(IHME)建立。

但是這些模型給出了截然不同的預測。帝國學院警告說,到夏天美國可能會有200萬例新冠死亡,而IHME則更為保守地預測8月將有6萬例死亡。事實證明,兩者都沒有很接近。到8月初,美國的新冠死亡者約16萬人。

春季的預測數據存在巨大差異,引起了當時26歲的數據科學家Youyang Gu(音譯:顧友陽)的注意。這位年輕人擁有麻省理工學院(MIT)電子工程和計算機科學碩士學位以及另一個數學學位,但是沒有接受過與疫情相關的領域(例如醫學或流行病學)的正式訓練。不過,他認為數據模型在疫情期間可能會有用。

4月中旬,顧友陽在矽谷與父母住在一起時,花了一周建立一個新冠死亡預測因子和網站(https://covid19-projections.com/)。不久之後,他的模型產生的結果開始比由擁有數億元資金和數十年經驗的機構的結果更為準確。

「他的模型是唯一看起來理智的模型。」三藩市大學(USF)著名數據專家和研究科學家霍華德(Jeremy Howard)說。「其他模型被證明是一遍又一遍的瞎話,但是發布者和記者並沒有自省。人們的生活取決於這些事情,而顧是真正查看和正確處理數據的人。」

顧友陽首先考慮查看新冠檢測、住院和其他因素之間的關係,但發現州和聯邦政府對此類數據的報告不一致。最可靠的數字似乎是每日死亡人數。

顧的模型之所以新穎而有複雜變化,源於他運用機器學習算法來磨他的數據。離開麻省理工學院後,顧在金融業工作了兩年,為高頻交易系統編寫算法。當談到新冠時,顧一直在將他的預測與最終報告的死亡總數進行比較,並不斷調整機器學習軟件,使其預測更加準確。即使這些工作需要的時間等同於一份全職工作,顧還是自願花了時間並靠積蓄生活。他希望這些數據不存在任何利益衝突或政治偏見。

儘管不完美,但顧的模型從一開始就表現出色。他在4月下旬預測,到5月9日美國將有8萬人死亡。實際死亡人數為7萬9926人。IHME在4月下旬做的類似預測則稱2020年全年美國新冠死亡人數不會超過8萬。顧還預測5月18日的死亡人數為9萬,5月27日實際死亡人數為10萬,再次預測正確。IHME預計由於社交疏離等政策,該病毒將消退;但顧預測,隨著許多州放鬆防疫重新開放,將引起第二次大規模的感染和死亡。