大數(shù)據(jù)概念和特點 |
|||
來源: | 發(fā)布時間:2015年05月19日|||
摘要:
|
|||
大數(shù)據(jù)(big data),指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資 訊。在維克托?邁爾-舍恩伯格及肯尼斯?庫克耶編寫的《大數(shù)據(jù)時代》中,大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法。 “大數(shù)據(jù)”這個術(shù)語最早期的引用可追溯到apache org的開源項目Nutch。當(dāng)時,大數(shù)據(jù)用來描述為更新網(wǎng)絡(luò)搜索索引需要同時進行批量處理或分析的大量數(shù)據(jù)集。隨著Google Map&Reduce和Google File System (GFS)的發(fā)布,大數(shù)據(jù)不再僅用來描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度。 美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指 人們在互聯(lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設(shè)備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時測量和傳遞著有關(guān)位置、運動、震動、溫度、濕度乃至空氣中化學(xué)物質(zhì) 的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。 “大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術(shù)。 大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。 從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘,但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。 大 數(shù)據(jù)的特點有四個層面:第一,數(shù)據(jù)體量巨大,從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多,包含網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等;第三,處理 速度快,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同;第四,只要合理利用數(shù)據(jù)并對其進行正確、準確的分 析,將會帶來很高的價值回報。業(yè)界將其歸納為4個 “V” ——Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。 |
|||
|