加州大學(xué)河濱分校的計算機科學(xué)家正在開發(fā)工具來幫助跟蹤和監(jiān)控新冠肺炎癥狀,并篩選社交媒體上有關(guān)該疾病的錯誤信息。
使用谷歌趨勢數(shù)據(jù),由馬蘭和羅斯瑪麗伯恩斯工程學(xué)院副教授開發(fā)了一種算法,該算法確定了新冠肺炎獨有的三種癥狀:舌頭味覺功能喪失,呼吸急促,嗅覺喪失。
使用谷歌流感趨勢的大部分工作都集中在預(yù)測流感季節(jié),另一方面,我們用它來看看我們是否能在大海撈針中找到一根針:在人們尋找的所有流感樣癥狀中,新冠肺炎獨有的癥狀。
研究人員在2019年和2020年的Google趨勢中定位了癥狀,并使用一種DNA的技術(shù)來提取數(shù)據(jù)集。
假設(shè)2019年的癥狀搜索會導(dǎo)致流感或其他呼吸系統(tǒng)疾病,而2020年搜索相同癥狀的可能兩者皆有,使用DNA,我們能夠找到兩個數(shù)據(jù)集之間的差異。這恰好是臨床醫(yī)生已經(jīng)確定為新冠肺炎獨有的術(shù)語,表明我們的方法有效。
Papalexakis和Chen預(yù)計他們的工作,將幫助流行病學(xué)家和其他公共衛(wèi)生專家,使用谷歌趨勢作為醫(yī)院數(shù)據(jù)的代理來跟蹤和監(jiān)控新冠肺炎。
谷歌趨勢數(shù)據(jù)非常嘈雜,但醫(yī)院數(shù)據(jù)不公開。人們搜索癥狀可能是因為他們正在經(jīng)歷這些癥狀,或者因為他們聽說過這些癥狀并想了解更多,搜索比積極體驗癥狀的人更能反映對癥狀的興趣,但鑒于缺乏其他數(shù)據(jù),該工具可以幫助研究人員更好地了解癥狀。
該算法簡單易行,作為一種潛在工具的一部分,可以幫助研究其他疾病的科學(xué)家了解潛在癥狀。
從Google趨勢數(shù)據(jù)中發(fā)現(xiàn)新冠肺炎癥狀的判別性知識發(fā)現(xiàn),發(fā)表在2021年的EpiDAMIK研討會上,該研討會是一個關(guān)于推進流行病學(xué)知識的數(shù)據(jù)挖掘研討會。該研討會是作為最大的年度數(shù)據(jù)科學(xué)會議、計算機協(xié)會或ACM的一部分組織的。
Papalexakis和加州大學(xué)河濱分校的博士生William Shiao也在開發(fā)一種工具,該工具不僅可以識別新冠肺炎的錯誤信息,還可以說明為什么這些與有關(guān)冠狀病毒相關(guān)聯(lián)的數(shù)據(jù)被標記為虛假信息。
Papalexakis和Shiao使用了白宮和一個研究小組聯(lián)盟準備的新冠肺炎開放研究數(shù)據(jù)集挑戰(zhàn)新冠肺炎中的90,000篇文章,并收集了20,000篇關(guān)于新型冠狀病毒的錯誤信息的“野外”文章。使用他們稱為KI2TE的基于相似性矩陣的嵌入方法,將文章鏈接到一組參考文檔并進行解釋。用于參考的文件是新冠肺炎數(shù)據(jù)集中包含的一組有關(guān)冠狀病毒研究的學(xué)術(shù)論文。
當(dāng)對被人類標記為虛假或被Google Fact Check識別為虛假的文章進行測試時,他們的方法不僅正確識別了虛假故事,而且還指出了證實系統(tǒng)決策的科學(xué)來源。
盡管Papalexakis和Shiao開發(fā)的工具是一個正在積極研究開發(fā)的原型,但它最終可能會被整合到智能手機應(yīng)用程序或Facebook等社交媒體平臺中。
來源:賢集網(wǎng)