數(shù)據(jù)的征服：讀《大數(shù)據(jù)時(shí)代》

來(lái)源：發(fā)布時(shí)間：2015年05月19日

摘要:

　　谷歌有一個(gè)名為“谷歌流感趨勢(shì)”的工具，它通過(guò)跟蹤搜索詞相關(guān)數(shù)據(jù)來(lái)判斷全美地區(qū)的流感情況（比如患者會(huì)搜索流感兩個(gè)字）。近日，這個(gè)工具發(fā)出警告，全美的流感已經(jīng)進(jìn)入“緊張”級(jí)別。它對(duì)于健康服務(wù)產(chǎn)業(yè)和流行病專(zhuān)家來(lái)說(shuō)是非常有用的，因?yàn)?它的時(shí)效性極強(qiáng)，能夠很好地幫助到疾病暴發(fā)的跟蹤和處理。事實(shí)也證明，通過(guò)海量搜索詞的跟蹤獲得的趨勢(shì)報(bào)告是很有說(shuō)服力的，僅波士頓地區(qū)，就有700例流感得到確認(rèn)，該地區(qū)目前已宣布進(jìn)入公共健康緊急狀態(tài)。

　　這個(gè)工具工作的原理大致是這樣的：設(shè)計(jì)人員置入了一些關(guān)鍵詞（比如溫度計(jì)、流感癥狀、肌肉疼痛、胸悶等），只要用戶輸入這些關(guān)鍵詞，系統(tǒng)就會(huì)展開(kāi)跟蹤分析，創(chuàng)建地區(qū)流感圖表和流感地圖。谷歌多次把測(cè)試結(jié)果（藍(lán)線）與美國(guó)疾病控制和預(yù)防中心的報(bào)告（黃線）做比對(duì)，從下圖可知，兩者結(jié)論存在很大相關(guān)性：

　　但它比線下收集的報(bào)告強(qiáng)在“時(shí)效性”上，因?yàn)榛颊咧灰坏┳杂X(jué)有流感癥狀，在搜索和去醫(yī)院就診這兩件事上，前者通常是他首先會(huì)去做的。就醫(yī)很麻煩而且價(jià)格不菲，如果能自己通過(guò)搜索來(lái)尋找到一些自我救助的方案，人們就會(huì)第一時(shí)間使用搜索引擎。故而，還存在一種可能是，醫(yī)院或官方收集到的病例只能說(shuō)明一小部分重病患者，輕度患者是不會(huì)去醫(yī)院而成為它們的樣本的。

　　這就是一個(gè)典型的“大數(shù)據(jù)”的應(yīng)用例子，舍恩伯格的這本《大數(shù)據(jù)時(shí)代》受到了廣泛的贊譽(yù)，他本人也因此書(shū)被視為大數(shù)據(jù)領(lǐng)域中的領(lǐng)軍人物。大數(shù)據(jù)起源于數(shù)據(jù)的充裕，舍恩伯格在他的另外一本書(shū)《刪除》中，提到了這些源頭。

　　1、信息的數(shù)字化，使得所有信息都可以得到一個(gè)完美的副本；2、存儲(chǔ)器越來(lái)越廉價(jià)，大規(guī)模存儲(chǔ)這些數(shù)字信息成本極低；3、易于提?。簲?shù)據(jù)庫(kù)技術(shù)的完善使得這些存儲(chǔ)的信息能夠被輕易按照一定的條件搜索出來(lái)；4、全球性覆蓋，網(wǎng)絡(luò)是無(wú)國(guó)界的，a地的數(shù)字信息可以讓遠(yuǎn)在天邊的b地調(diào)用。

　　當(dāng)我們掌握有大量的數(shù)據(jù)后，便可以開(kāi)始進(jìn)行所謂“大數(shù)據(jù)”的操作。大數(shù)據(jù)在舍恩伯格看來(lái)，一共具有三個(gè)特征：全樣而非抽樣，效率而非精確，相關(guān)而非因果。

　　第一個(gè)特征非常好理解。在過(guò)去，由于缺乏獲取全體樣本的手段，人們發(fā)明了“隨機(jī)調(diào)研數(shù)據(jù)”的方法。理論上，抽取樣本越隨機(jī)，就越能代表整體樣本。但問(wèn)題是獲取一個(gè)隨機(jī)樣本代價(jià)極高，而且很費(fèi)時(shí)。人口調(diào)查就是典型一例，一個(gè)稍大一點(diǎn)的國(guó)家甚至做不到每年都發(fā)布一次人口調(diào)查，因?yàn)殡S機(jī)調(diào)研實(shí)在是太耗時(shí)耗力了。

　　但有了云計(jì)算和數(shù)據(jù)庫(kù)以后，獲取足夠大的樣本數(shù)據(jù)乃至全體數(shù)據(jù)，就變得非常容易了。谷歌可以提供谷歌流感趨勢(shì)的原因就在于它幾乎覆蓋了7 成以上的北美搜索市場(chǎng)，而在這些數(shù)據(jù)中，已經(jīng)完全沒(méi)有必要去抽樣調(diào)查這些數(shù)據(jù)：數(shù)據(jù)倉(cāng)庫(kù)，所有的記錄都在那里躺著等待人們的挖掘和分析。

　　第二點(diǎn)其實(shí)建立在第一點(diǎn)的基礎(chǔ)上。過(guò)去使用抽樣的方法，就需要在具體運(yùn)算上非常精確，因?yàn)樗^“差之毫厘便失之千里”。設(shè)想一下，在一個(gè)總樣本為1億人口隨機(jī) 抽取1000人，如果在1000人上的運(yùn)算出現(xiàn)錯(cuò)誤的話，那么放大到1億中會(huì)有多大的偏差。但全樣本時(shí)，有多少偏差就是多少偏差而不會(huì)被放大。諾維格，谷歌人工智能專(zhuān)家，在他的論文中寫(xiě)道：大數(shù)據(jù)基礎(chǔ)上的簡(jiǎn)單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效。

　　數(shù)據(jù)分析并非目的就是數(shù)據(jù)分析，而是有其它用途，故而時(shí)效性也非常重要。精確的計(jì)算是以時(shí)間消耗為代價(jià)的，但在小數(shù)據(jù)時(shí)代，追求精確是為了避免放大的偏差而不得已為之。但在樣本=總體的大數(shù)據(jù)時(shí)代， “快速獲得一個(gè)大概的輪廓和發(fā)展脈絡(luò)，就要比嚴(yán)格的精確性要重要得多”。

　　第三個(gè)特征則非常有趣。相關(guān)性表明變量A和變量B有關(guān)，或者說(shuō)A變量的變化和B變量的變化之間存在一定的正比（或反比）關(guān)系。但相關(guān)性并不一定是因果關(guān)系（A未必是B的因）。

　　亞馬遜的推薦算法非常有名，它能夠根據(jù)消費(fèi)記錄來(lái)告訴用戶你可能會(huì)喜歡什么，這些消費(fèi)記錄有可能是別人的，也有可能是該用戶歷史上的。但它不能說(shuō)出你為什么會(huì)喜歡的原因。難道大家都喜歡購(gòu)買(mǎi)A和B，就一定等于你買(mǎi)了A之后的果就是買(mǎi)B嗎？未必，但的確需要承認(rèn)，相關(guān)性很高——或者說(shuō)，概率很大。

　　舍恩伯格認(rèn)為，大數(shù)據(jù)時(shí)代只需要知道是什么，而無(wú)需知道為什么，就像亞馬遜推薦算法一樣，知道喜歡A的人很可能喜歡B但卻不知道其中的原因。這本書(shū)的譯者天才教授周濤則有不同的看法，他認(rèn)為，“放棄對(duì)因果性的追求，就是放棄了人類(lèi)凌駕于計(jì)算機(jī)之上的智力優(yōu)勢(shì)，是人類(lèi)自身的放縱和墮落”。

　　這個(gè)爭(zhēng)議在我看來(lái)，雙方討論的可能不是一回事。舍恩伯格在這本書(shū)中完全不像他在《刪除》一書(shū)中表現(xiàn)得那么有人文關(guān)懷，這是一本純商業(yè)的書(shū)籍，商業(yè)本來(lái)就是以結(jié)果為導(dǎo)向的。但周濤談?wù)摰膮s和“人工智能”有關(guān)。

　　吳軍在他的《數(shù)學(xué)之美》中曾經(jīng)提到，人工智能領(lǐng)域曾經(jīng)走過(guò)一個(gè)很大的彎路，即人們總是試圖讓計(jì)算機(jī)理解人類(lèi)的指令——注意，是理解，不是知道。但折騰了很多年，發(fā)現(xiàn)計(jì)算機(jī)的理解力實(shí)在白癡得比三歲小孩還要弱。最終人工智能放棄了這條途徑，而改為數(shù)據(jù)傳輸和匹配。舉個(gè)例子說(shuō)，你在進(jìn)行語(yǔ)音輸入的時(shí)候，事實(shí) 上計(jì)算機(jī)完全不知道你在說(shuō)什么（或者說(shuō)，完全不理解你的意思），但不妨礙它能夠準(zhǔn)確地把你說(shuō)的話盡可能地用字符表達(dá)出來(lái)。蘋(píng)果的Siri是很神奇，但它其實(shí)并不懂你的意思，而只是你的語(yǔ)音數(shù)據(jù)和它的后臺(tái)數(shù)據(jù)一次匹配而已。

　　因果關(guān)系涉及到“理解”這個(gè)范疇，而不是簡(jiǎn)單的知道或匹配。舍恩伯格所謂放棄因果而尋求相關(guān)，是因?yàn)樗緛?lái)就是寫(xiě)本商業(yè)書(shū)，要具體指導(dǎo)商業(yè)運(yùn)作的，周濤所謂不可放棄因果，因?yàn)樗且幻麑W(xué)者，并不完全站在賺錢(qián)這個(gè)角度上。換而言之，周濤看的是長(zhǎng)遠(yuǎn)的未來(lái)，舍恩伯格討論的是眼下。

　　在可以看到的未來(lái)中，可能計(jì)算機(jī)掌握不了三歲小孩的理解力，計(jì)算機(jī)和人類(lèi)之間的象棋比賽，一個(gè)在思考，一個(gè)在做數(shù)據(jù)匹配，兩者雖然都在下棋，路徑卻全然不同。人類(lèi)可以暫時(shí)不用過(guò)于擔(dān)心計(jì)算機(jī)來(lái)統(tǒng)治人類(lèi)，因果關(guān)系這種理解，還是掌握在人類(lèi)手中的。

　　大數(shù)據(jù)時(shí)代是信息社會(huì)運(yùn)作的必然結(jié)果，而借由它，人類(lèi)的信息社會(huì)更上一個(gè)臺(tái)階。農(nóng)業(yè)社會(huì)人們以土地為核心資源，工業(yè)時(shí)代轉(zhuǎn)為能源，信息社會(huì)則將變更為數(shù)據(jù)。誰(shuí)掌握數(shù)據(jù)，以及數(shù)據(jù)分析方法，誰(shuí)就將在這個(gè)大數(shù)據(jù)時(shí)代勝出，無(wú)論是商業(yè)組織，還是國(guó)家文明。

責(zé)任編輯:系統(tǒng)管理員

分享文章到：

瀏覽次數(shù):

【大中小】【打印本頁(yè)】【關(guān)閉窗口】