比如互聯網的產品經理要求技術人員,必須在用戶到達網站的時候就算出他今天的心情指數,而且要實現動態監測,這時候只能用Storm或者Spark來處理了;比如電信運營商要求做到實時營銷,用戶進入營業廳的時候,必須馬上推送短信給用戶,提示他本營業廳有一個特別適合他的相親對象(呈現身高、三圍、體重等指標),但是見面前要先購買4G手機;再比如病人來到銀行開戶,銀行了解到用戶最近1周曾經去醫院門診過兩次,出國旅游過3次,帶孩子游泳兩次,馬上客戶經理就給客戶推薦相關的銀行保險+理財產品。這些業務人員,往往是驅動技術進步的核心原因。
2)架構師。
架構師有多么重要,當一個業務人員和一個工程師,一個說著業務語言,一個說著技術術語在那里討論問題的時候,工程師往往想著用什么樣的代碼能馬上讓他閉嘴,而架構師往往會跳出來說“不,不能那樣,你這樣寫只能解決一個問題并且會制造后續的若干問題,按照我這個方案來,可以解決后續的若干問題!”一個非技術企業的IT系統水平,往往有70%以上的標準掌握在架構設計人員手里,盡快很多優秀的架構師都是從工程師慢慢發展學習而來的,IT架構的重要性,很多企業都意識到了,這就是很多企業有CTO和CIO兩個職位,同樣重要!架構之美,當IT系統平穩運行的時候沒人能感受到,但是在一個煙囪林立、架構混亂的環境中走過的人眼中,IT開發一定要架構現行,開發在后!
3)投資人。
老板,不用說了,老板給你吃穿,你給老板賣命,天生的基礎資料提供者,老板說要有山便有了山,老板說要做實時數據處理分析,便有了Storm,老板說要做開源,便有了Hadoop,老板還說要做迭代挖掘,便有了Spark……
4)科學家。
他們是別人眼中的Geek,他們是別人眼中的高大上,他們是類似于霍金一樣的神秘的早出晚歸晝伏夜出的眼睛男女,他們是驅動世界技術進步的核心力量。除了世界頂級的IT公司(往往世界技術方向掌握在他們手中),其他公司一般需要1-2個科學家足以,他們是真正投身于科學的人,不要讓他們去考慮業務場景,不要讓他們去考慮業務流程,不要讓他們去計算成本,不要讓他們去考慮項目進度,他們唯一需要考慮的就是如何在某個指標上擊敗對手,在某個指標上提高0.1%已經讓他們可以連續奮戰,不眠不休,讓我們都為這些科學家喝彩和歡呼吧。在中國,我認為真正的大數據科學家不超過百人……
5)工程師。
工程師是這樣一群可愛的人,他們年輕,沖動,有理想,又被人尊稱為“屌絲”“鍵盤黨”,他們孜孜不倦的為自己的理想而拼搏,每次自己取得一點點進步的時候,都在考慮是不是地鐵口的雞蛋灌餅又漲了五毛錢。他們敏感,自負,從來不屑于和業務人員去爭論。工程師和科學家的不同點在于,工程師需要頻繁改動代碼,頻繁測試程序,頻繁上線,但是最后的系統是由若干工程師的代碼組合起來的。每個自負的工程師看到系統的歷史代碼都會鄙視的發出一聲“哼,這垃圾代碼”,之后便投入到被后人繼續鄙視的代碼編寫工作中去。
6)跟風者。
他們中有些是培訓師,有些是殺馬特洗剪吹,有些是煤老板有些是失足少女。他們的特點就是炒,和炒房者唯一不同的就是,他們不用付出金錢,他們認為只要和數據沾邊就叫大數據,他們有些人甚至從來沒碰過IT系統,他們是渾水摸魚、濫竽充數的高手,他們是被前幾種人鄙視的隱形人。不過我想說,歡迎來炒,一個行業炒的越兇,真正有價值的人就更能發揮自己的作用。
誤區二:只有大數據才能拯救世界
大數據目前的技術和應用都是在數據分析、數據倉庫等方面,主要針對OLAP(OnlineAnalyticalSystem),從技術角度來說,包含我總結的兩條腿:一條腿是批量數據處理(包括MR、MPP等),另一條腿實時數據流處理(Storm、內存數據庫等)。
在此基礎上,部分場景又發現MR框架或實時框架不能很好的滿足近線、迭代的挖掘需要,故又產生了目前非常火的基于內存數據處理Spark框架。很多企業目前的大數據框架是,一方面以Hadoop2.0之上的Hive、Pig框架處理底層的數據加工和處理,把按照業務邏輯處理完的數據直接送入到應用數據庫中;另一方面以Storm流處理引擎處理實時的數據,根據業務營銷的規則觸發相應的營銷場景。同時,用基于Spark處理技術集群滿足對于實時數據加工、挖掘的需求。
以上描述可以看出,大數據說白了就是還沒有進入真正的交易系統,沒有在OLTP(OnlineTransactionsystem)方面做出太大的貢獻。至于很多文章把大數據和物聯網、泛在網、智慧城市都聯系在一起,我認為大數據不過是條件之一,其余的OLTP系統是否具備,物理網絡甚至組織架構都是重要因素。
最后還想說,大數據處理技術,再炫如Google的Dataflow或成熟如Hadoop2.0、數據倉庫、Storm等,本質上都是數據加工工具,對于很多工程師來說,只需要把數據處理流程搞清楚就可以了,在這個平臺上可以用固定的模版和腳本進行數據加工已經足夠。畢竟數據的價值70%以上是對業務應用而言的,一個炫詞對于業務如果沒有幫助,終將只是屠龍之術。任何技術、IT架構都要符合業務規劃、符合業務發展的要求,否則技術只會妨礙業務和生產力的發展。
隨著時代變遷,大浪淘沙,作為數據行業的一員,我們每個人都在不同的角色之間轉換,今天你可能是科學家,明天就會變成架構師,今天的工程師也會變成幾年后的科學家,部分人還終將步入跟風者的行列。
三、我國大數據發展的機遇和困境
1、大數據迎來大發展的機遇
大數據的快速發展,使它成為IT領域的又一大新興產業。據中央財經大學中國經濟管理研究院博士張永力估算,國外大數據行業約有1000億美元的市場,而且每年都以10%的速度在增長,增速是軟件行業的兩倍。我國2012年大數據市場規模大約4.7億元,2013年增速將達到138%,達到11.2億元,產業發展潛力非常巨大。
1)政府積極介入推動
2009年,聯合國啟動“全球脈動計劃”,借大數據推動落后地區發展。2012年1月,世界經濟論壇年會把“大數據、大影響”作為重要議題。美國從開放政府數據、開展關鍵技術研究和推動大數據應用三方面布局大數據產業。美國在開放政府上非常積極,通過Data.gov開放37萬個數據集,并開放網站的API和源代碼,提供上千個數據應用。除了推動本國政府數據開放,美國倡導發起全球開放政府數據運動,已有41個國家響應。美國政府還投資兩億美元促進大數據核心技術研究和應用,把大數據放在與集成電路、互聯網同等重要的位臵,從國家層面推進。
2)資本市場也對大數據鐘愛有加
2012年4月,大數據分析公司Splunk高調宣傳大數據,引發投資者關注。12月初,為企業市場提供Hadoop解決方案的創業公司Cloudera獲得6500萬美元融資,估值約為7億美元。近期,高盛聯席主席斯科特。斯坦福說:“投資大數據及其運用回報率最高”。大數據領域的企業并購熱度也在上升,單筆平均并購金額方面,大數據超過云計算位居IT領域榜首,在總并購額上也位居第二。
3)人才需求巨大
據一家國際咨詢公司,蓋特納咨詢公司預測大數據將為全球帶來440萬個IT新崗位和上千萬個非IT崗位。麥肯錫公司預測美國到2018年需要深度數據分析人才44萬—49萬,缺口14萬—19萬人;需要既熟悉本單位需求又了解大數據技術與應用的管理者150萬,這方面的人才缺口更大。中國是人才大國,但能理解與應用大數據的創新人才更是稀缺資源。
4)各方積極參與
大數據的火爆,也帶動了國內學術界、產業界和政府對大數據的熱情。2011年以來,中國計算機學會、中國通信學會先后成立了大數據委員會,研究大數據中的科學與工程問題,科技部的《中國云科技發展“十二五”專項規劃》和工信部的《物聯網“十二五”發展規劃》等都把大數據技術作為一項重點予以支持。
其中工信部發布的物聯網“十二五”規劃上,把信息處理技術作為4項關鍵技術創新工程之一被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析,這都是大數據的重要組成部分。而另外3項關鍵技術創新工程,包括信息感知技術、信息傳輸技術、信息安全技術,也都與“大數據”密切相關。
應用方面,中國三大通信運營商都在結合自身業務情況,積極推進大數據應用工作,并取得了較好的進展。電子商務企業阿里巴巴提出要做中國數據分析第一平臺,通過掌握的企業交易數據,借助大數據技術自動分析判定是否給予企業貸款,全程不會出現人工干預。據透露,截至目前阿里巴巴已經放貸300多億元,壞賬率約0.3%左右,大大低于商業銀行。
研發企業方面,我國能夠處理大數據的企業并不是很多。北京永洪科技在這方面做的不錯。永洪科技在大數據、分布式計算、數據分析等領域具備核心競爭力、自主創新并擁有多項發明專利。推出的Z系列產品在大數據的應用分析中在國際上也是領先的。
大數據的熱潮觸發了一場思想啟蒙運動,使得“大數據是資產,不是包袱”、“要拿數據說話”等觀念逐步深入人心,改變了以往不重視數據積累,不相信數據分析等認識。有了這種思維模式的改變,大數據的應用就有了希望。
2、大數據落地面臨的困難
應該說,全球來看,對大數據認識、研究和應用還都處于初期階段。特別是對我國來說,大數據真正落地,還需要邁過三道坎。
1)數據是否足夠豐富和開放
豐富的數據源是大數據產業發展的前提。而我國數字化的數據資源總量遠遠低于美歐,每年新增數據量僅為美國的7%,歐洲的12%,其中政府和制造業的數據資源積累遠遠落后于國外。就已有有限的數據資源來說,還存在標準化、準確性、完整性低,利用價值不高的情況,這大大降低了數據的價值。
同時,我國政府、企業和行業信息化系統建設往往缺少統一規劃和科學論證,系統之間缺乏統一的標準,形成了眾多“信息孤島”,而且受行政壟斷和商業利益所限,數據開放程度較低,以鄰為壑、共享難,這給數據利用造成極大障礙。制約我國數據資源開放和共享的一個重要因素是政策法規不完善,大數據挖掘缺乏相應的立法,無法既保證共享又防止濫用,一方面欠缺推動政府和公共數據的政策,另一方面數據保護和隱私保護方面的制度不完善抑制了開放的積極性。因此,建立一個良性發展的數據共享生態系統,是我國大數據發展需要邁過去的第一道砍。
2)是否掌握強大的數據分析工具
要以低成本和可擴展的方式處理大數據,這就需要對整個IT架構進行重構,開發先進的軟件平臺和算法。這方面,國外又一次走在我們前面。特別是近年來以開源模式發展起來的Hadoop等大數據處理軟件平臺,及其相關產業已經在美國初步形成。
而我國數據處理技術基礎薄弱,總體上以跟隨為主,難以滿足大數據大規模應用的需求。如果把大數據比作石油,那數據分析工具就是勘探、鉆井、提煉、加工的技術。我國必須掌握大數據關鍵技術,才能將資源轉化為價值。應該說,要邁過這道坎,開源技術為我們提供了很好的基礎。
3)管理理念和運作方式能否適配數據化決策
大數據開發的根本目的是以數據分析為基礎,幫助人們做出更明智的決策,優化企業和社會運轉。哈佛商業評論說,大數據本質上是“一場管理革命”。大數據時代的決策不能僅憑經驗,而真正要“拿數據說話”。因此,大數據能夠真正發揮作用,深層次看,還要改善我們的管理模式,需要管理方式和架構的與大數據技術工具相適配。這或許是我們最難邁過的一道坎了。
四、對我國發展大數據產業的建議
大數據有巨大的社會和商業價值,就看會不會挖掘,是否善于運用數據分析的結果。同時,它又是一個應用驅動性很強的服務,要做好大數據產業,為經濟發展提供更大的動力,需要從以下幾人方面入手。
1、建立一套運行機制。
大數據建設是一項有序的、動態的、可持續發展的系統工程,必須建立良好的運行機制,以促進建設過程中各個環節的正規有序,實現統合,搞好頂層設計。
2、規范一套建設標準。
沒有標準就沒有系統。應建立面向不同主題、覆蓋各個領域、不斷動態更新的大數據建設標準,為實現各級各類信息系統的網絡互連、信息互通、資源共享奠定基礎。
3、搭建一個共享平臺。
數據只有不斷流動和充分共享,才有生命力。應在各專用數據庫建設的基礎上,通過數據集成,實現各級各類指揮信息系統的數據交換和數據共享。
4、培養一支專業隊伍。
大數據建設的每個環節都需要依靠專業人員完成,因此,必須培養和造就一支懂指揮、懂技術、懂管理的大數據建設專業隊伍。
五、結論
目前,大數據在電信、智慧城市、電子商務及社交娛樂等行業已經出現規;瘧,中國大數據市場將進入高速發展時期。大數據真正的價值體現在從海量且多樣的內容中提取用戶行為、用戶數據、特征并轉化為數據資源,對數據資源進一步加以挖掘和分析,增強用戶信息獲取的便利性,實現從產品價值導向到以客戶體驗價值為中心導向的轉換,客戶體驗的提升也正是激發信息消費的根本原因。
中國信息消費市場規模量級巨大,增長迅速。在網絡能力的提升、居民消費升級和四化加快融合發展的背景下,新技術、新產品、新內容、新服務、新業態不斷激發新的消費需求,而作為提升信息消費體驗的重要手段,大數據將在行業領域獲得廣泛應用。
大數據已經滲透到各個行業和業務職能領域,成為重要的生產因素,大數據的演進與生產力的提高有著直接的關系。隨著網速的大幅提升,數據也將迎來爆發式增長,快速獲取、處理、分析海量、多樣化的交易數據、交互數據與傳感數據,從而實現信息再價值化,對大數據的利用將成為企業提高核心競爭力和搶占市場先機的關鍵。大數據因其巨大的商業價值正在成為推動信息產業變革的新引擎。
中國發展大數據,具有得天獨厚的優勢,主要體現在我國的特殊的國情,擁有獨特的位勢和經濟社會高速穩定發展,給大數據及其應用帶來了巨大的發展空間。大數據在我國各領域和不同行業的應用潛力巨大、機遇重大。大數據的核心技術進展和大數據應用有可能帶來我國新興戰略性產業發展的新機遇。




