大數(shù)據(jù)(Big Data)在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通信等行業(yè)存在已有時(shí)日,隨著近年來互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們的關(guān)注。大數(shù)據(jù)已經(jīng)成為云計(jì)算、物聯(lián)網(wǎng)之后IT行業(yè)又一大顛覆性的技術(shù)革命。
云計(jì)算主要為數(shù)據(jù)資產(chǎn)提供了保管、訪問的場所和渠道,而數(shù)據(jù)才是真正有價(jià)值的資產(chǎn)。企業(yè)內(nèi)部的經(jīng)營信息、物聯(lián)網(wǎng)世界中的商品物流信息、互聯(lián)網(wǎng)世界中的人與人交互信息、位置信息等,其數(shù)量將遠(yuǎn)遠(yuǎn)超越現(xiàn)有企業(yè)IT架構(gòu)和基礎(chǔ)設(shè)施的承載能力,實(shí)時(shí)性要求也將大大超越現(xiàn)有的計(jì)算能力。如何應(yīng)用這些數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)決策乃至個(gè)人生活服務(wù),是大數(shù)據(jù)的核心議題,也是云計(jì)算內(nèi)在的靈魂和必然的發(fā)展方向。
1、什么是大數(shù)據(jù)
最早提出大數(shù)據(jù)時(shí)代到來的是全球知名咨詢公司麥肯錫。進(jìn)入2012年之后,“大數(shù)據(jù)”一詞越來越多地被提及,人們用它來描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。人們也越來越強(qiáng)烈地意識到數(shù)據(jù)對于各行各業(yè)發(fā)展的重要性。正如《紐約時(shí)報(bào)》2012年2月的一篇專欄中所稱,“大數(shù)據(jù)”時(shí)代已經(jīng)降臨,在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,決策將日益基于數(shù)據(jù)和分析而做出,而并非基于經(jīng)驗(yàn)和直覺。
“大數(shù)據(jù)”在互聯(lián)網(wǎng)行業(yè)中指的是這樣一種現(xiàn)象:互聯(lián)網(wǎng)公司在日常運(yùn)營中生成、積累的用戶網(wǎng)絡(luò)行為的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)的規(guī)模如此龐大,以至于不能用G或T來衡量。例如,一天當(dāng)中,互聯(lián)網(wǎng)產(chǎn)生的全部數(shù)據(jù)可以刻滿1.68億張DVD,發(fā)出的郵件有2900多億封,發(fā)出的社區(qū)帖子達(dá)200多萬個(gè),賣出的手機(jī)為37.8萬臺……
目前,數(shù)據(jù)量的衡量單位已經(jīng)從 TB(1TB=1024 GB)級別躍升到了 PB(1PB=1024 TB)、EB (1EB=1024 PB)乃至ZB(1ZB=1024 EB)級別。國際數(shù)據(jù)公司(International Data Corporation,IDC)的研究結(jié)果表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49 ZB,2009年數(shù)據(jù)量為0.8 ZB,2010年增長為1.2 ZB,2011年的數(shù)據(jù)量更是高達(dá)1.82 ZB,相當(dāng)于全球每人產(chǎn)生200 GB以上的數(shù)據(jù)。而到2012年為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200 PB。IBM的研究稱,整個(gè)人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍。
2、大數(shù)據(jù)的基本特征
大數(shù)據(jù)主要具有以下四大基本特征。
數(shù)據(jù)量大。目前,我們對大數(shù)據(jù)的起始計(jì)量單位至少是 P(210T=1024 T≈1000 T)、E (220T=1048576 T≈100萬T)或Z(230=1073741824≈10億T)。
種類繁多。數(shù)據(jù)種類包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,多種類型的數(shù)據(jù)對數(shù)據(jù)處理能力提出了更高的要求。
價(jià)值密度低。隨著今后物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價(jià)值密度較低。如何通過強(qiáng)大的算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”,是大數(shù)據(jù)時(shí)代亟待解決的難題。
速度快、實(shí)效性強(qiáng)。處理速度快、實(shí)效性要求高,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。
由此可見,大數(shù)據(jù)時(shí)代對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間和機(jī)遇。
3、大數(shù)據(jù)的影響
大數(shù)據(jù)是信息通信技術(shù)發(fā)展積累至今,按照自身技術(shù)發(fā)展邏輯,從提高生產(chǎn)效率向更高級智能階段的自然生長。無處不在的信息感知和采集終端為人們采集了海量的數(shù)據(jù),而以云計(jì)算為代表的計(jì)算技術(shù)的不斷發(fā)展,為人們提供了強(qiáng)大的計(jì)算能力,這就圍繞個(gè)人以及組織的行為構(gòu)建起了一個(gè)與物質(zhì)世界平行的數(shù)字世界。
大數(shù)據(jù)雖然孕育于信息通信技術(shù)的日漸普遍和成熟,但它對社會經(jīng)濟(jì)生活產(chǎn)生的影響絕不限于技術(shù)層面,更本質(zhì)上,它是為看待世界提供了一種全新的方法,即決策行為將日益基于數(shù)據(jù)分析而做出,而不像過去更多地憑借經(jīng)驗(yàn)和直覺做出。
大數(shù)據(jù)可能帶來的巨大價(jià)值正漸漸被人們所認(rèn)可。它通過技術(shù)的創(chuàng)新與發(fā)展,以及數(shù)據(jù)的全面感知、收集、分析、共享,為人們提供了一種全新的看待世界的方法。更多地基于事實(shí)與數(shù)據(jù)做出決策,可以預(yù)見,這樣的思維方式將推動一些習(xí)慣于“差不多”運(yùn)行的社會發(fā)生巨大變革。