智汇工业-智慧工业、智能制造及工业智能、工业互联门户网站,专业的工业“互联网+”传媒

【深度剖析】什么是大數(shù)據(jù)?

來(lái)源:網(wǎng)絡(luò)

點(diǎn)擊:845

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞: 大數(shù)據(jù)

      大數(shù)據(jù)(Big Data)

      大數(shù)據(jù),官方定義是指那些數(shù)據(jù)量特別大、數(shù)據(jù)類別特別復(fù)雜的數(shù)據(jù)集,這種數(shù)據(jù)集無(wú)法用傳統(tǒng)的數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),管理和處理。大數(shù)據(jù)的主要特點(diǎn)為數(shù)據(jù)量大(Volume),數(shù)據(jù)類別復(fù)雜(Variety),數(shù)據(jù)處理速度快(Velocity)和數(shù)據(jù)真實(shí)性高(Veracity),合起來(lái)被稱為4V。

      大數(shù)據(jù)中的數(shù)據(jù)量非常巨大,達(dá)到了PB級(jí)別。而且這龐大的數(shù)據(jù)之中,不僅僅包括結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字、符號(hào)等數(shù)據(jù)),還包括非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像、聲音、視頻等數(shù)據(jù))。這使得大數(shù)據(jù)的存儲(chǔ),管理和處理很難利用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)去完成。在大數(shù)據(jù)之中,有價(jià)值的信息往往深藏其中。這就需要對(duì)大數(shù)據(jù)的處理速度要非常快,才能短時(shí)間之內(nèi)就能從大量的復(fù)雜數(shù)據(jù)之中獲取到有價(jià)值的信息。在大數(shù)據(jù)的大量復(fù)雜的數(shù)據(jù)之中,通常不僅僅包含真實(shí)的數(shù)據(jù),一些虛假的數(shù)據(jù)也混雜其中。這就需要在大數(shù)據(jù)的處理中將虛假的數(shù)據(jù)剔除,利用真實(shí)的數(shù)據(jù)來(lái)分析得出真實(shí)的結(jié)果。

      大數(shù)據(jù)分析(Big Data Analysis)

      大數(shù)據(jù),表面上看就是大量復(fù)雜的數(shù)據(jù),這些數(shù)據(jù)本身的價(jià)值并不高,但是對(duì)這些大量復(fù)雜的數(shù)據(jù)進(jìn)行分析處理后,卻能從中提煉出很有價(jià)值的信息。對(duì)大數(shù)據(jù)的分析,主要分為五個(gè)方面:可視化分析(Analytic Visualization)、數(shù)據(jù)挖掘算法(Date Mining Algorithms)、預(yù)測(cè)性分析能力(Predictive Analytic Capabilities)、語(yǔ)義引擎(Semantic Engines)和數(shù)據(jù)質(zhì)量管理(Data Quality Management)。

      可視化分析是普通消費(fèi)者常常可以見(jiàn)到的一種大數(shù)據(jù)分析結(jié)果的表現(xiàn)形式,比如說(shuō)百度制作的“百度地圖春節(jié)人口遷徙大數(shù)據(jù)”就是典型的案例之一。可視化分析將大量復(fù)雜的數(shù)據(jù)自動(dòng)轉(zhuǎn)化成直觀形象的圖表,使其能夠更加容易的被普通消費(fèi)者所接受和理解。

      數(shù)據(jù)挖掘算法是大數(shù)據(jù)分析的理論核心,其本質(zhì)是一組根據(jù)算法事先定義好的數(shù)學(xué)公式,將收集到的數(shù)據(jù)作為參數(shù)變量帶入其中,從而能夠從大量復(fù)雜的數(shù)據(jù)中提取到有價(jià)值的信息。著名的“啤酒和尿布”的故事就是數(shù)據(jù)挖掘算法的經(jīng)典案例。沃爾瑪通過(guò)對(duì)啤酒和尿布購(gòu)買(mǎi)數(shù)據(jù)的分析,挖掘出以前未知的兩者間的聯(lián)系,并利用這種聯(lián)系,提升了商品的銷量。亞馬遜的推薦引擎和谷歌的廣告系統(tǒng)都大量使用了數(shù)據(jù)挖掘算法。

      預(yù)測(cè)性分析能力是大數(shù)據(jù)分析最重要的應(yīng)用領(lǐng)域。從大量復(fù)雜的數(shù)據(jù)中挖掘出規(guī)律,建立起科學(xué)的事件模型,通過(guò)將新的數(shù)據(jù)帶入模型,就可以預(yù)測(cè)未來(lái)的事件走向。預(yù)測(cè)性分析能力常常被應(yīng)用在金融分析和科學(xué)研究領(lǐng)域,用于股票預(yù)測(cè)或氣象預(yù)測(cè)等。

      語(yǔ)義引擎是機(jī)器學(xué)習(xí)的成果之一。過(guò)去,計(jì)算機(jī)對(duì)用戶輸入內(nèi)容的理解僅僅停留在字符階段,不能很好的理解輸入內(nèi)容的意思,因此常常不能準(zhǔn)確的了解用戶的需求。通過(guò)對(duì)大量復(fù)雜的數(shù)據(jù)進(jìn)行分析,讓計(jì)算機(jī)從中自我學(xué)習(xí),可以使計(jì)算機(jī)能夠盡量精確的了解用戶輸入內(nèi)容的意思,從而把握住用戶的需求,提供更好的用戶體驗(yàn)。蘋(píng)果的Siri和谷歌的Google Now都采用了語(yǔ)義引擎。

      數(shù)據(jù)質(zhì)量管理是大數(shù)據(jù)在企業(yè)領(lǐng)域的重要應(yīng)用。為了保證大數(shù)據(jù)分析結(jié)果的準(zhǔn)確性,需要將大數(shù)據(jù)中不真實(shí)的數(shù)據(jù)剔除掉,保留最準(zhǔn)確的數(shù)據(jù)。這就需要建立有效的數(shù)據(jù)質(zhì)量管理系統(tǒng),分析收集到的大量復(fù)雜的數(shù)據(jù),挑選出真實(shí)有效的數(shù)據(jù)。

      分布式計(jì)算(Distributed Computing)

      對(duì)于如何處理大數(shù)據(jù),計(jì)算機(jī)科學(xué)界有兩大方向:第一個(gè)方向是集中式計(jì)算,就是通過(guò)不斷增加處理器的數(shù)量來(lái)增強(qiáng)單個(gè)計(jì)算機(jī)的計(jì)算能力,從而提高處理數(shù)據(jù)的速度。第二個(gè)方向是分布式計(jì)算,就是把一組計(jì)算機(jī)通過(guò)網(wǎng)絡(luò)相互連接組成分散系統(tǒng),然后將需要處理的大量數(shù)據(jù)分散成多個(gè)部分,交由分散系統(tǒng)內(nèi)的計(jì)算機(jī)組同時(shí)計(jì)算,最后將這些計(jì)算結(jié)果合并得到最終的結(jié)果。盡管分散系統(tǒng)內(nèi)的單個(gè)計(jì)算機(jī)的計(jì)算能力不強(qiáng),但是由于每個(gè)計(jì)算機(jī)只計(jì)算一部分?jǐn)?shù)據(jù),而且是多臺(tái)計(jì)算機(jī)同時(shí)計(jì)算,所以就分散系統(tǒng)而言,處理數(shù)據(jù)的速度會(huì)遠(yuǎn)高于單個(gè)計(jì)算機(jī)。

      過(guò)去,分布式計(jì)算理論比較復(fù)雜,技術(shù)實(shí)現(xiàn)比較困難,因此在處理大數(shù)據(jù)方面,集中式計(jì)算一直是主流解決方案。IBM的大型機(jī)就是集中式計(jì)算的典型硬件,很多銀行和政府機(jī)構(gòu)都用它處理大數(shù)據(jù)。不過(guò),對(duì)于當(dāng)時(shí)的互聯(lián)網(wǎng)公司來(lái)說(shuō),IBM的大型機(jī)的價(jià)格過(guò)于昂貴。因此,互聯(lián)網(wǎng)公司的把研究方向放在了可以使用在廉價(jià)計(jì)算機(jī)上的分布式計(jì)算上。

      服務(wù)器集群(Server Cluster)

      服務(wù)器集群是一種提升服務(wù)器整體計(jì)算能力的解決方案。它是由互相連接在一起的服務(wù)器群所組成的一個(gè)并行式或分布式系統(tǒng)。服務(wù)器集群中的服務(wù)器運(yùn)行同一個(gè)計(jì)算任務(wù)。因此,從外部看,這群服務(wù)器表現(xiàn)為一臺(tái)虛擬的服務(wù)器,對(duì)外提供統(tǒng)一的服務(wù)。

      盡管單臺(tái)服務(wù)器的運(yùn)算能力有限,但是將成百上千的服務(wù)器組成服務(wù)器集群后,整個(gè)系統(tǒng)就具備了強(qiáng)大的運(yùn)算能力,可以支持大數(shù)據(jù)分析的運(yùn)算負(fù)荷。Google,Amazon,阿里巴巴的計(jì)算中心里的服務(wù)器集群都達(dá)到了5000臺(tái)服務(wù)器的規(guī)模。

      大數(shù)據(jù)的技術(shù)基礎(chǔ):MapReduce、Google File System和BigTable

      2003年到2004年間,Google發(fā)表了MapReduce、GFS(Google File System)和BigTable三篇技術(shù)論文,提出了一套全新的分布式計(jì)算理論。

      MapReduce是分布式計(jì)算框架,GFS(Google File System)是分布式文件系統(tǒng),BigTable是基于Google File System的數(shù)據(jù)存儲(chǔ)系統(tǒng),這三大組件組成了Google的分布式計(jì)算模型。

      Google的分布式計(jì)算模型相比于傳統(tǒng)的分布式計(jì)算模型有三大優(yōu)勢(shì):首先,它簡(jiǎn)化了傳統(tǒng)的分布式計(jì)算理論,降低了技術(shù)實(shí)現(xiàn)的難度,可以進(jìn)行實(shí)際的應(yīng)用。其次,它可以應(yīng)用在廉價(jià)的計(jì)算設(shè)備上,只需增加計(jì)算設(shè)備的數(shù)量就可以提升整體的計(jì)算能力,應(yīng)用成本十分低廉。最后,它被Google應(yīng)用在Google的計(jì)算中心,取得了很好的效果,有了實(shí)際應(yīng)用的證明。

      后來(lái),各家互聯(lián)網(wǎng)公司開(kāi)始利用Google的分布式計(jì)算模型搭建自己的分布式計(jì)算系統(tǒng),Google的這三篇論文也就成為了大數(shù)據(jù)時(shí)代的技術(shù)核心。

      主流的三大分布式計(jì)算系統(tǒng):Hadoop,Spark和Storm

      由于Google沒(méi)有開(kāi)源Google分布式計(jì)算模型的技術(shù)實(shí)現(xiàn),所以其他互聯(lián)網(wǎng)公司只能根據(jù)Google三篇技術(shù)論文中的相關(guān)原理,搭建自己的分布式計(jì)算系統(tǒng)。

      Yahoo的工程師Doug Cutting和Mike Cafarella在2005年合作開(kāi)發(fā)了分布式計(jì)算系統(tǒng)Hadoop。后來(lái),Hadoop被貢獻(xiàn)給了Apache基金會(huì),成為了Apache基金會(huì)的開(kāi)源項(xiàng)目。Doug Cutting也成為Apache基金會(huì)的主席,主持Hadoop的開(kāi)發(fā)工作。

      Hadoop采用MapReduce分布式計(jì)算框架,并根據(jù)GFS開(kāi)發(fā)了HDFS分布式文件系統(tǒng),根據(jù)BigTable開(kāi)發(fā)了HBase數(shù)據(jù)存儲(chǔ)系統(tǒng)。盡管和Google內(nèi)部使用的分布式計(jì)算系統(tǒng)原理相同,但是Hadoop在運(yùn)算速度上依然達(dá)不到Google論文中的標(biāo)準(zhǔn)。

      不過(guò),Hadoop的開(kāi)源特性使其成為分布式計(jì)算系統(tǒng)的事實(shí)上的國(guó)際標(biāo)準(zhǔn)。Yahoo,F(xiàn)acebook,Amazon以及國(guó)內(nèi)的百度,阿里巴巴等眾多互聯(lián)網(wǎng)公司都以Hadoop為基礎(chǔ)搭建自己的分布式計(jì)算系統(tǒng)。

      Spark也是Apache基金會(huì)的開(kāi)源項(xiàng)目,它由加州大學(xué)伯克利分校的實(shí)驗(yàn)室開(kāi)發(fā),是另外一種重要的分布式計(jì)算系統(tǒng)。它在Hadoop的基礎(chǔ)上進(jìn)行了一些架構(gòu)上的改良。Spark與Hadoop最大的不同點(diǎn)在于,Hadoop使用硬盤(pán)來(lái)存儲(chǔ)數(shù)據(jù),而Spark使用內(nèi)存來(lái)存儲(chǔ)數(shù)據(jù),因此Spark可以提供超過(guò)Hadoop100倍的運(yùn)算速度。但是,由于內(nèi)存斷電后會(huì)丟失數(shù)據(jù),Spark不能用于處理需要長(zhǎng)期保存的數(shù)據(jù)。

      Storm是Twitter主推的分布式計(jì)算系統(tǒng),它由BackType團(tuán)隊(duì)開(kāi)發(fā),是Apache基金會(huì)的孵化項(xiàng)目。它在Hadoop的基礎(chǔ)上提供了實(shí)時(shí)運(yùn)算的特性,可以實(shí)時(shí)的處理大數(shù)據(jù)流。不同于Hadoop和Spark,Storm不進(jìn)行數(shù)據(jù)的收集和存儲(chǔ)工作,它直接通過(guò)網(wǎng)絡(luò)實(shí)時(shí)的接受數(shù)據(jù)并且實(shí)時(shí)的處理數(shù)據(jù),然后直接通過(guò)網(wǎng)絡(luò)實(shí)時(shí)的傳回結(jié)果。

      Hadoop,Spark和Storm是目前最重要的三大分布式計(jì)算系統(tǒng),Hadoop常用于離線的復(fù)雜的大數(shù)據(jù)處理,Spark常用于離線的快速的大數(shù)據(jù)處理,而Storm常用于在線的實(shí)時(shí)的大數(shù)據(jù)處理。

    (審核編輯: Doris)

    聲明:除特別說(shuō)明之外,新聞內(nèi)容及圖片均來(lái)自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請(qǐng)聯(lián)系我們刪除。

    主站蜘蛛池模板: 江苏德邦化学工业集团有限公司| 恒温干燥箱厂家-烘箱厂家-马弗炉厂家-生化培养箱-上海有丰科学仪器有限公司 | 投影仪配件,苏州投影仪维修,B60数显表维修-苏州市加野仪器有限公司 | 微米环境-餐厨/厨余/果蔬垃圾处理设备厂家-大型成套设备解决方案 | 乌鲁木齐万疆通管道设备有限公司 销售热线;13565955557-新疆 乌鲁木齐 万疆通 管道设备 波纹补偿器 膨胀节 金属软管 伸缩器 管件 阀门 维修 | 河南电梯公司_郑州电梯公司_河南家用别墅电梯厂家-郑州嘉祥机电设备公司 | 履带式移动破碎站-移动筛分站-移动碎石机-破碎机_山东奥凯诺矿机 | 太原铁艺围栏-山西泓宸辉铁艺工程有限公司 | 破碎机设备-锤式颚式反击式圆锥移动冲击式破碎机厂家-成都大宏立机器公司 | 景德镇古窑民俗博览区-国家AAAAA级旅游景区_全国旅游标准化示范景区_国家文化产业示范基地_国家级非物质文化遗产生产性保护示范基地--官方网站 | 同兴科技-安徽同兴科技发展有限责任公司| 景德镇芳然装饰有限公司| 亿企商贸-亿万企业的商务贸易平台-B2B企业产品发布供求信息平台,一带一路中国企业及产品展示平台,免费企业智能自助建站网络营销推广平台,打造B2B企业黄页产品信息发布推广专业综合电子商务平台! | 阻垢剂|缓蚀剂|杀菌剂|分散剂|水处理剂|印染助剂|水处理药剂|造纸助剂|膜阻垢剂|缓蚀剂|HEDP|ATMP|螯合剂-山东凯瑞化学有限公司 水处理药剂生产厂家 | 万向轴承_福来轮_全向轮_双向转轮_万向球_算盘轮_塑料卷轴-宁津县正彤机械塑料有限公司 | 无锡防火门-防火窗-防火卷帘门-福臣门业科技有限公司 | 伸缩机厂家-现货快递物流伸缩皮带机|装车输送机-乐清市华森自动化设备有限公司 | 山东凯达起重机械有限公司-单梁行车,龙门吊,提梁机,门式起重机,悬臂起重机 | 学汽修,汽修培训,西安汽车维修培训学校,西安万通汽车学校[官网] 削片机|木材破碎机|木材粉碎机|模板破碎机|双轴撕碎机_郑州木工机械制造厂 | 上海浩斌信息科技有限公司RFID读写器,IC卡读卡器,手持机,数据采集终端,电力仓库管理软件开发,固定资产软件,纱管标签,试剂管理,RFID试剂柜,档案管理,档案柜,智能货架 | 通信系统-通信人在线 | 纠偏系统厂家-迈欣机械| 远东齿轮泵|高粘度齿轮泵|三螺杆油泵|沥青保温泵|高粘度稠油泵-远东泵业官网 | 厦门公司注册-提供工商登记记账代理服务和营业执照代办地址与注册流程及费用 | 宁波公司注册_宁波注册公司_宁波代理记账_宁波做内账|安隆会计专业服务机构 | 深圳喜运达物流官网_东南亚物流|海运|专线|海外仓_泰国菲律宾马来西亚海运|物流专线|海外仓 | 上海画册设计-上海宣传册设计-产品手册设计-企业画册设计公司 | 网架厂_网架加工厂家_徐州网架公司报价--三华网架制造商 | 深圳浪琴维修服务中心_浪琴售后保养服务网点_地址 | 真空清洗炉_真空煅烧炉_铸铝加热器-盐城市钰凯电器有限公司 | 膜结构车棚厂家-张拉膜景观棚-汽车充电桩停车棚-嘉兴铭邦膜结构公司 | 景德镇晶达新材料有限公司 | 烟台废旧物资回收,烟台废品回收,烟台物资回收-烟台金泰再生资源有限公司 | 河北撒旺肥业有限公司 | 起名字典|宝宝新生儿男孩女孩起名免费网-诗经周易生辰八字取名字大全 | 湖南长沙癫痫病医院_湖南癫痫病专科医院_湖南治疗癫痫病专业医院_长沙和谐医院有限公司 | 桥梁养护|桥梁维修加固|隧道裂缝修补|支座更换|管道堵水气囊|衡水众拓路桥养护有限公司 | 洒水车_水车_洒水车价格_喷水车_绿化喷洒车_绿化洒水车- 程力专用汽车股份有限公司 | 硬度计,里氏硬度计,布氏硬度计,高强螺栓检测仪,平板导热仪,专业无损检测仪器商-北京时代新天测控技术有限公司-北京时代新天测控技术有限公司 | 全自动贴标机厂家-深圳市优斯迪自动贴标机官网| 贴片磁胶电感_一体成型电感_贴片共模电感_广东精密龙电子科技有限公司 |