6月末,借助最新大數(shù)據(jù)技術(shù),繼城市預(yù)測(cè)、景點(diǎn)預(yù)測(cè)、高考預(yù)測(cè)和世界杯預(yù)測(cè)之后,百度推出疾病預(yù)測(cè),將大數(shù)據(jù)的“觸角”向醫(yī)療領(lǐng)域延伸。對(duì)此,記者采訪了百度的相關(guān)負(fù)責(zé)人,并獲得百度的獨(dú)家回復(fù)。
百度預(yù)測(cè)的新功能“疾病預(yù)測(cè)”,基于大數(shù)據(jù)積累和智能分析,能夠?yàn)橛脩籼峁┝鞲?、肝炎、肺結(jié)核和性病這四種傳染病的趨勢(shì)預(yù)測(cè),幫助用戶提早進(jìn)行預(yù)防。
據(jù)了解,中國(guó)疾病預(yù)防控制中心也為該產(chǎn)品提供了相關(guān)疾病監(jiān)測(cè)數(shù)據(jù)。
此外,百度疾病預(yù)測(cè)的預(yù)測(cè)范圍也不僅僅局限于大城市,而是覆蓋到了區(qū)縣和商圈。在數(shù)據(jù)模型方面,其針對(duì)每個(gè)城市分別建模,擴(kuò)大數(shù)據(jù)基礎(chǔ)和精準(zhǔn)性來保證預(yù)測(cè)的準(zhǔn)確性。
目前,不少業(yè)內(nèi)人士對(duì)這樣的大數(shù)據(jù)預(yù)測(cè)疾病心里也沒有底,“我覺得這個(gè)可信度大概可以打70分吧”東軟望??萍加邢薰究偛媒雇┤缡菍?duì)記者說。在他看來,目前大數(shù)據(jù)監(jiān)測(cè)及分析尚未完全成熟,在分析建模上還有一定的發(fā)展空間。但是他也毫不掩飾大數(shù)據(jù)預(yù)測(cè)疾病的前景,“這應(yīng)該是一個(gè)必然的趨勢(shì)”。
衛(wèi)生經(jīng)濟(jì)學(xué)家陳茁對(duì)媒體說,他對(duì)大數(shù)據(jù)預(yù)測(cè)疾病持樂觀態(tài)度,“如果方法得當(dāng),大數(shù)據(jù)對(duì)疾病預(yù)測(cè)依舊有巨大的潛能,還可以在疾病監(jiān)測(cè)防控之外發(fā)揮難以比擬的作用。”
而大數(shù)據(jù)時(shí)代下的今天,大數(shù)據(jù)對(duì)疾病監(jiān)測(cè)的準(zhǔn)確性到底如何,目前誰也不清楚。還是需要百度“疾病預(yù)測(cè)”的親身檢驗(yàn)。
什么是百度疾病預(yù)測(cè)?
“流行病的發(fā)生和傳播有一定的規(guī)律性,與氣溫變化、環(huán)境指數(shù)、人口流動(dòng)等因素密切相關(guān)。每天網(wǎng)民在百度搜索大量流行病相關(guān)信息,匯聚起來就有了統(tǒng)計(jì)規(guī)律,經(jīng)過一段時(shí)間的積累,可以形成一個(gè)個(gè)預(yù)測(cè)模型,預(yù)測(cè)未來疾病的活躍指數(shù)。”對(duì)于預(yù)測(cè)原理,百度相關(guān)負(fù)責(zé)人如此闡釋道。
目前,百度疾病預(yù)測(cè)可提供流感、肝炎、肺結(jié)核和性病四種疾病的預(yù)測(cè),并可對(duì)過去30天及未來七天的疾病變化作出預(yù)判。“活躍度”用來反映所選地域該疾病的活躍程度,同時(shí)也可通過1~99999的活躍指數(shù)反映。用戶可以看到全國(guó)或者省某疾病指數(shù)排名前十的城市、區(qū)縣,以及該疾病相關(guān)醫(yī)院的搜索排行。
“對(duì)于百度疾病預(yù)測(cè)這樣針對(duì)全國(guó)范圍的產(chǎn)品來說,可靠性、準(zhǔn)確性是我們非常重視的。因此,我們會(huì)從統(tǒng)計(jì)的角度來驗(yàn)證數(shù)據(jù)的正確性,以機(jī)器提供的數(shù)據(jù)為基礎(chǔ),加入對(duì)異常數(shù)據(jù)的監(jiān)控和分析,以確保數(shù)據(jù)的可靠性。”
根據(jù)北京大學(xué)市場(chǎng)與媒介研究中心發(fā)布的2014年4月《搜索市場(chǎng)研究報(bào)告》中的數(shù)據(jù),百度以市場(chǎng)份額82.7%在桌面端保持強(qiáng)勢(shì)領(lǐng)先地位。
Google流感預(yù)測(cè)的“升級(jí)版”?
因?yàn)楣δ芟嘟?,百度疾病預(yù)測(cè)一經(jīng)推出,便令人聯(lián)想到早在2008年推出的Google流感趨勢(shì)預(yù)測(cè)(GoogleFlu Trends,簡(jiǎn)稱“GFT”)。
當(dāng)年在H1N1爆發(fā)幾周前,Google的工程師們?cè)凇禢ature》上發(fā)表論文介紹GFT,并成功預(yù)測(cè)了H1N1在全美范圍的傳播,令世界為之一振。然而,在此之后,有研究發(fā)現(xiàn),GFT會(huì)高估與流感相關(guān)的就醫(yī)量,在這類數(shù)據(jù)最有用的流感季節(jié)高峰期尤其預(yù)測(cè)不準(zhǔn)確,被《Scientists》雜志認(rèn)為被大數(shù)據(jù)浮夸(Big Data Hubris)的算法所誤導(dǎo)。也就是說,Google的流感疾病預(yù)測(cè)不再那么精準(zhǔn)。
相較于GFT,百度疾病預(yù)測(cè)已經(jīng)覆蓋提供全國(guó)331個(gè)地級(jí)市,2870個(gè)區(qū)縣,某些城市甚至已經(jīng)細(xì)化到具體的商圈,“未來甚至可以更加細(xì)化到個(gè)人粒度”,百度相關(guān)負(fù)責(zé)人表示。此外,GFT目前提供了流感和登革熱的預(yù)測(cè),而百度的疾病預(yù)測(cè)系統(tǒng)涵蓋流感、肝炎、肺結(jié)核和性病四種疾病。而據(jù)其網(wǎng)站說明,未來還會(huì)增加更多的常見傳染病和慢性病。
談及百度疾病預(yù)測(cè)的產(chǎn)品形態(tài)和Google的差異。百度相關(guān)負(fù)責(zé)人補(bǔ)充,Google主要使用query數(shù)據(jù),在此基礎(chǔ)上,百度增加了微博、天氣、人群遷徙等數(shù)據(jù)一并加入預(yù)測(cè)因素。“此外,Google用的query數(shù)據(jù)依賴于Google Correlation產(chǎn)品,而百度則是直接從原始日志中進(jìn)行清洗、消岐、擴(kuò)展和分析,在數(shù)據(jù)上做得更細(xì)致些,也由此可以提供更加有效的判斷。”
不只是“一堆數(shù)據(jù)”
在百度疾病預(yù)測(cè)的介紹版塊中,特別向中國(guó)疾病預(yù)防控制中心(以下簡(jiǎn)稱CDC)表示了感謝。“在構(gòu)建流感預(yù)測(cè)模型的過程中,中國(guó)疾病預(yù)防控制中心的流感監(jiān)測(cè)結(jié)果提供了一定的參考作用。”
實(shí)際上,百度疾病預(yù)測(cè)參考了CDC2006年1月至2014年6月的流感監(jiān)測(cè)周報(bào)數(shù)據(jù),并且會(huì)根據(jù)CDC公布的數(shù)據(jù)定期來更新。
“百度的結(jié)果算法在模型搭建上是綜合參考多維度數(shù)據(jù)結(jié)構(gòu),其中我們?cè)谂cCDC數(shù)據(jù)合作上,不僅是數(shù)據(jù)互通,同時(shí)也會(huì)與他們的專家進(jìn)行產(chǎn)品交流,最終的預(yù)測(cè)結(jié)果主要還是依靠我們所建立的疾病預(yù)測(cè)模型來完成。”百度相關(guān)負(fù)責(zé)人表示,疾病預(yù)測(cè)的模型數(shù)據(jù)搭建于疾病人數(shù)自身的統(tǒng)計(jì)規(guī)律性以及疾病人數(shù)與其它相關(guān)數(shù)據(jù)的相關(guān)性。
一方面,通過歷史數(shù)據(jù)挖掘規(guī)律來預(yù)測(cè)未來的趨勢(shì),譬如流感或者手足口等疾病具有季節(jié)性周期規(guī)律,或者近年來艾滋病整體上具有一個(gè)上升趨勢(shì)等;另一方面,數(shù)據(jù)之間存在相關(guān)關(guān)系,這也會(huì)對(duì)未來疾病趨勢(shì)有所影響。“比如搜‘感冒藥’、‘三九感冒靈’詞的次數(shù)與感冒人數(shù)之間就具有較強(qiáng)的相關(guān)性,在微博上提到手足口病的次數(shù)與手足口病蔓延程度有一定的相關(guān)性,異常的天氣變化與感冒人數(shù)也有一定的相關(guān)性等。”百度相關(guān)負(fù)責(zé)人解釋,“我們會(huì)通過分析百度的搜索query、微博內(nèi)容、天氣變化、人群遷徙等數(shù)據(jù)與疾病人數(shù)的相關(guān)性,建立機(jī)器學(xué)習(xí)模型,利用這些數(shù)據(jù)來預(yù)測(cè)疾病的人數(shù)。
大數(shù)據(jù)如何落地?
事實(shí)上,百度的“野心”遠(yuǎn)不止簡(jiǎn)單的疾病預(yù)測(cè),讓“大數(shù)據(jù)落地”是如今互聯(lián)網(wǎng)公司不得不做出的改進(jìn),而百度也將在醫(yī)療領(lǐng)域深化定制化的健康信息服務(wù)。
為了讓疾病預(yù)測(cè)不只是一堆數(shù)據(jù)的堆積,而成為“中國(guó)人的健康圖譜,老百姓實(shí)用的生活助手”,百度正在對(duì)此產(chǎn)品進(jìn)行優(yōu)化,希望繼續(xù)增加病種,以覆蓋常見傳染病和慢性病。
此外,“除了時(shí)空數(shù)據(jù),我們還會(huì)增加天氣、環(huán)境污染、用戶屬性數(shù)據(jù),希望能夠針對(duì)不同用戶,提供個(gè)性化的防病、健康信息推送。”百度相關(guān)負(fù)責(zé)人透漏,百度疾病預(yù)測(cè)還將提供每日疾病指數(shù)等細(xì)化數(shù)據(jù),日后有望增加個(gè)人健康顧問、預(yù)防治療措施、求醫(yī)用藥指導(dǎo)等功能。