智汇工业-智慧工业、智能制造及工业智能、工业互联门户网站,专业的工业“互联网+”传媒

每個(gè)人都應(yīng)該知道的25個(gè)大數(shù)據(jù)術(shù)語(yǔ)

來(lái)源:網(wǎng)絡(luò)

點(diǎn)擊:1253

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞: 大數(shù)據(jù)

    如果你初來(lái)乍到,大數(shù)據(jù)看起來(lái)很?chē)樔?!根?jù)你掌握的基本理論,讓我們專(zhuān)注于一些關(guān)鍵術(shù)語(yǔ)以此給你的約會(huì)對(duì)象、老板、家人或者任何一個(gè)人帶來(lái)深刻的印象。

    每個(gè)人都應(yīng)該知道的25個(gè)大數(shù)據(jù)術(shù)語(yǔ)

    讓我們開(kāi)始吧:

    1.算法。“算法”如何與大數(shù)據(jù)相關(guān)?即使算法是一個(gè)通用術(shù)語(yǔ),但大數(shù)據(jù)分析使其在當(dāng)代更受青睞和流行。

    2.分析。年末你可能會(huì)收到一份來(lái)自信用卡公司寄來(lái)的包含了全年所有交易記錄的年終報(bào)表。如果你有興趣進(jìn)一步分析自己在食物、衣服、娛樂(lè)等方面具體花費(fèi)占比呢?那你便是在做“分析”了。你正從一堆原始數(shù)據(jù)中來(lái)吸取經(jīng)驗(yàn),以幫助自己為來(lái)年的消費(fèi)做出決策。如果你正在針對(duì)整個(gè)城市人群對(duì)Twitter或Facebook的帖子做同樣的練習(xí)呢?那我們便是在討論大數(shù)據(jù)分析了。大數(shù)據(jù)分析的實(shí)質(zhì)是利用大量數(shù)據(jù)來(lái)進(jìn)行推斷和講故事。大數(shù)據(jù)分析有3種不同到的類(lèi)型,接下來(lái)便繼續(xù)本話題進(jìn)行依次討論。

    3.描述性分析。剛剛?cè)绻愀嬖V我,去年你的信用卡消費(fèi)在食物上花費(fèi)了25%、在服裝上花費(fèi)了35%、娛樂(lè)活動(dòng)上花費(fèi)了20%、剩下的就是雜七雜八的事項(xiàng),這種便是描述性分析。當(dāng)然你還可以參考更多的細(xì)節(jié)。

    4.預(yù)測(cè)分析。如果你根據(jù)過(guò)去5年的信用卡歷史記錄來(lái)進(jìn)行分析,并且劃分具有一定的連續(xù)性,則你可以高概率預(yù)測(cè)明年將與過(guò)去幾年相差無(wú)幾。此處需要注意的細(xì)節(jié)是,這并不是“預(yù)測(cè)未來(lái)”,而是未來(lái)可能會(huì)發(fā)生的“概率”。在大數(shù)據(jù)預(yù)測(cè)分析中,數(shù)據(jù)科學(xué)家可能會(huì)使用類(lèi)似機(jī)器學(xué)習(xí)、高級(jí)的統(tǒng)計(jì)過(guò)程(后文將對(duì)這些術(shù)語(yǔ)進(jìn)行介紹)等先進(jìn)的技術(shù)去預(yù)測(cè)天氣、經(jīng)濟(jì)變化等。

    每個(gè)人都應(yīng)該知道的25個(gè)大數(shù)據(jù)術(shù)語(yǔ)

    5.規(guī)范分析。沿用信用卡交易的案例,你可能想要找出哪方面的支出(級(jí)食品、服裝、娛樂(lè)等)對(duì)自己的整體支出產(chǎn)生巨大的影響。規(guī)范分析建立在預(yù)測(cè)分析的基礎(chǔ)之上,包含了“行動(dòng)”記錄(例如減少食品、服裝、娛樂(lè)支出),并分析所得結(jié)果來(lái)“規(guī)定”最佳類(lèi)別以減少總體支出。你可以嘗試將其發(fā)散到大數(shù)據(jù),并設(shè)想高管們?nèi)绾瓮ㄟ^(guò)查看各種行動(dòng)的影響來(lái)做出數(shù)據(jù)驅(qū)動(dòng)的決策。

    6.批處理。雖然批量數(shù)據(jù)處理在大型機(jī)時(shí)代就早已出現(xiàn),但大數(shù)據(jù)交給它更多大數(shù)據(jù)集處理,因此賦予了批處理更多的意義。對(duì)于一段時(shí)間內(nèi)收集到的一組事務(wù),批量數(shù)據(jù)處理為處理大量數(shù)據(jù)提供了一種有效的方法。后文將介紹的Hadoop便是專(zhuān)注于批量數(shù)據(jù)處理。超越批處理的世界:流計(jì)算 使用Spark SQL構(gòu)建批處理程序。

    7. Cassandra是由Apache Software Foundation管理的一款流行的開(kāi)源數(shù)據(jù)庫(kù)管理系統(tǒng)。很多大數(shù)據(jù)技術(shù)都?xì)w功于Apache,其中Cassandra的設(shè)計(jì)初衷便是處理跨分布式服務(wù)器的大量數(shù)據(jù)。

    8. 云計(jì)算。顯而易見(jiàn)云計(jì)算已經(jīng)變得無(wú)所不在,所以本文可能無(wú)須贅述,但為了文章的完整性還是佐以介紹。云計(jì)算的本質(zhì)是在遠(yuǎn)程服務(wù)器上運(yùn)行的軟件和(/或)數(shù)據(jù)托管,并允許從互聯(lián)網(wǎng)上的任何地方進(jìn)行訪問(wèn)。

    9. 集群計(jì)算。它是一種利用多臺(tái)服務(wù)器的匯集資源的“集群”來(lái)進(jìn)行計(jì)算的奇特方式。在了解了更多技術(shù)之后,我們可能還會(huì)討論節(jié)點(diǎn)、集群管理層、負(fù)載平衡和并行處理等。

    10. 黑暗數(shù)據(jù)。依我看來(lái),這個(gè)詞適用于那些嚇得六神無(wú)主的高級(jí)管理層們。從根本上來(lái)說(shuō),黑暗數(shù)據(jù)是指那些被企業(yè)收集和處理但又不用于任何有意義用途的數(shù)據(jù),因此描述它是“黑暗的”,它們可能永遠(yuǎn)被埋沒(méi)。它們可能是社交網(wǎng)絡(luò)信息流、呼叫中心日志、會(huì)議筆記,諸如此類(lèi)。人們做出了諸多估計(jì),在60-90%的所有企業(yè)數(shù)據(jù)都可能是“黑暗數(shù)據(jù)”,但無(wú)人真正知曉。

    11. 數(shù)據(jù)湖。當(dāng)我第一次聽(tīng)到這個(gè)詞的時(shí)候,我真的以為有人在開(kāi)愚人節(jié)的玩笑。但它真的是個(gè)術(shù)語(yǔ)!數(shù)據(jù)湖是一個(gè)原始格式的企業(yè)級(jí)數(shù)據(jù)的大型存儲(chǔ)庫(kù)。雖然此處討論的是數(shù)據(jù)湖,但有必要再一起討論下數(shù)據(jù)倉(cāng)庫(kù),因?yàn)閿?shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)在概念上是極其相似的,都是企業(yè)級(jí)數(shù)據(jù)的存儲(chǔ)庫(kù),但在清理和與其他數(shù)據(jù)源集成之后的結(jié)構(gòu)化格式上有所區(qū)別。數(shù)據(jù)倉(cāng)庫(kù)常用于常規(guī)數(shù)據(jù)(但不完全)。據(jù)說(shuō)數(shù)據(jù)湖能夠讓用戶(hù)輕松訪問(wèn)企業(yè)級(jí)數(shù)據(jù),用戶(hù)真正按需知道自己正在尋找的是什么、如何處理并讓其智能化使用。擁抱開(kāi)源技術(shù)的前提——認(rèn)識(shí)數(shù)據(jù)湖 你知道數(shù)據(jù)湖泊(DATA LAKE)嗎?

    12. 數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是指利用復(fù)雜的模式識(shí)別技術(shù)從大量數(shù)據(jù)中找到有意義的模式、提取見(jiàn)解。這與我們前文討論的使用個(gè)人數(shù)據(jù)做分析的術(shù)語(yǔ)“分析”密切相關(guān)。為了提取出有意義的模式,數(shù)據(jù)挖掘者使用統(tǒng)計(jì)學(xué)(是呀,好老的數(shù)學(xué))、機(jī)器學(xué)習(xí)算法和人工智能。

    13.?dāng)?shù)據(jù)科學(xué)家。我們談?wù)摰氖且粋€(gè)如此熱門(mén)的職業(yè)!數(shù)據(jù)科學(xué)家們可以通過(guò)提取原始數(shù)據(jù)(難道是從前文所說(shuō)的數(shù)據(jù)湖中提取的?),處理數(shù)據(jù),然后提出新見(jiàn)解。數(shù)據(jù)科學(xué)家所需具備的一些技能與超人無(wú)異:分析、統(tǒng)計(jì)、計(jì)算機(jī)科學(xué)、創(chuàng)造力、故事講述和理解業(yè)務(wù)環(huán)境。難怪他們能獲得如此高的薪水報(bào)酬。

    14.分布式文件系統(tǒng)。由于大數(shù)據(jù)太大而無(wú)法在單個(gè)系統(tǒng)上進(jìn)行存儲(chǔ),分布式文件系統(tǒng)提供一種數(shù)據(jù)存儲(chǔ)系統(tǒng),方便跨多個(gè)存儲(chǔ)設(shè)備進(jìn)行大量數(shù)據(jù)的存放,并有助于降低大量數(shù)據(jù)存儲(chǔ)的成本和復(fù)雜度。

    15. ETL。ETL分別是extract,transform,load的首字母縮寫(xiě),代表提取、轉(zhuǎn)化和加載的過(guò)程。 它具體是指“提取”原始數(shù)據(jù),通過(guò)數(shù)據(jù)清洗/修飾的方式進(jìn)行“轉(zhuǎn)化”以獲得 “適合使用”的數(shù)據(jù),進(jìn)而“加載”到合適的存儲(chǔ)庫(kù)中供系統(tǒng)使用的整個(gè)過(guò)程。盡管ETL這一概念源于數(shù)據(jù)倉(cāng)庫(kù),但現(xiàn)在也適用于其它情景下的過(guò)程,例如在大數(shù)據(jù)系統(tǒng)中從外部數(shù)據(jù)源獲取/吸收數(shù)據(jù)。我們需要什么樣的ETL?

    工程師要不要寫(xiě)ETL?——教你構(gòu)建高效的算法/數(shù)據(jù)科學(xué)部門(mén) ETL的經(jīng)驗(yàn)總結(jié)

    16. Hadoop。人們一想起大數(shù)據(jù)就能立即想到Hadoop。 Hadoop(擁有可愛(ài)的大象LOGO)是一個(gè)開(kāi)源軟件框架,主要組成部分是Hadoop分布式文件系統(tǒng)(HDFS),Hadoop部署了分布式硬件以支持大型數(shù)據(jù)集的存儲(chǔ)、檢索和分析。如果你真的想給別人留下深刻的印象,還可以談?wù)刌ARN(Yet Another Resource Schedule,另一個(gè)資源調(diào)度器),正如其名,它也是一個(gè)資源調(diào)度器。我由衷佩服這些為程序命名的人。為Hadoop命名的Apache基金會(huì)還想出了Pig,Hive和Spark(沒(méi)錯(cuò),它們都是各種軟件的名稱(chēng))。這些名字難道不讓你感到印象深刻嗎?

    17. 內(nèi)存計(jì)算。一般來(lái)說(shuō),任何可以在不訪問(wèn)I / O的情況下進(jìn)行的計(jì)算預(yù)計(jì)會(huì)比需要訪問(wèn)I/O的速度更快。內(nèi)存內(nèi)計(jì)算是一種能夠?qū)⒐ぷ鲾?shù)據(jù)集完全轉(zhuǎn)移到集群的集體內(nèi)存中、并避免了將中間計(jì)算寫(xiě)入磁盤(pán)的技術(shù)。Apache Spark便是一種內(nèi)存內(nèi)計(jì)算系統(tǒng),它與I / O相比,在像Hadoop MapReduce這樣的系統(tǒng)上綁定具有巨大的優(yōu)勢(shì)。

    18. IOT。最新的流行語(yǔ)是物聯(lián)網(wǎng)(Internet of things,簡(jiǎn)稱(chēng)IOT)。IOT是通過(guò)互聯(lián)網(wǎng)將嵌入式對(duì)象(傳感器、可穿戴設(shè)備、汽車(chē)、冰箱等)中的計(jì)算設(shè)備互連在一起,并且能夠發(fā)送/接收數(shù)據(jù)。IOT產(chǎn)生了大量的數(shù)據(jù),這為呈現(xiàn)大數(shù)據(jù)分析提供了更多的機(jī)會(huì)。

    19.機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是為了設(shè)計(jì)一種基于提供的數(shù)據(jù)能夠進(jìn)行不斷學(xué)習(xí)、調(diào)整、改進(jìn)的系統(tǒng)的設(shè)計(jì)方法。機(jī)器使用預(yù)測(cè)和統(tǒng)計(jì)的算法進(jìn)行學(xué)習(xí)并專(zhuān)注于實(shí)現(xiàn)“正確的”行為模式和簡(jiǎn)見(jiàn)解,隨著越來(lái)越多的數(shù)據(jù)注入系統(tǒng)它還在不斷進(jìn)行優(yōu)化改進(jìn)。典型的應(yīng)用有欺詐檢測(cè)、在線個(gè)性化推薦等。

    20.MapReduce。MapReduce的概念可能會(huì)有點(diǎn)混亂,但讓我試一試。MapReduce是一個(gè)編程模型,最好的理解方法是將Map和Reduce是看作兩個(gè)獨(dú)立的單元。在這種情況下,編程模型首先將大數(shù)據(jù)的數(shù)據(jù)集分成幾個(gè)部分(技術(shù)術(shù)語(yǔ)上是稱(chēng)作“元組”,但本文并不想太過(guò)技術(shù)性),因此可以部署到不同位置的不同計(jì)算機(jī)上(即前文所述的集群計(jì)算),這些本質(zhì)上是Map的組成部分。接下來(lái)該模型收集到所有結(jié)果并將“減少”到同一份報(bào)告中。 MapReduce的數(shù)據(jù)處理模型與hadoop的分布式文件系統(tǒng)相輔相成。

    21.NoSQL。乍一聽(tīng)這像是針對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)的面向?qū)ο蟮腟QL(Structured Query Language, 結(jié)構(gòu)化查詢(xún)語(yǔ)言)的抗議,其實(shí)NoSQL代表的是NOT ONLY SQL,意即“不僅僅是SQL”。 NoSQL實(shí)際上是指被用來(lái)處理大量非結(jié)構(gòu)化、或技術(shù)上被稱(chēng)作“圖表”(例如關(guān)系型數(shù)據(jù)庫(kù)的表)等數(shù)據(jù)的數(shù)據(jù)庫(kù)管理系統(tǒng)。NoSQL數(shù)據(jù)庫(kù)一般非常適用于大型數(shù)據(jù)系統(tǒng),這得益于它們的靈活性以及大型非結(jié)構(gòu)化數(shù)據(jù)庫(kù)所必備的分布式結(jié)構(gòu)。

    22.R語(yǔ)言。有人能想到比這個(gè)編程語(yǔ)言更糟糕的名字嗎?是的,’R’是一門(mén)在統(tǒng)計(jì)計(jì)算中表現(xiàn)非常優(yōu)異的編程語(yǔ)言。如果你連’R’都不知道,那你就不是數(shù)據(jù)科學(xué)家。(如果你不知道’R’,就請(qǐng)不要把那些糟糕的代碼發(fā)給我了)。這就是在數(shù)據(jù)科學(xué)中最受歡迎的語(yǔ)言之一的R語(yǔ)言。

    23. Spark(Apache Spark)。Apache Spark是一種快速的內(nèi)存內(nèi)數(shù)據(jù)處理引擎,它可以高效執(zhí)行需要快速迭代訪問(wèn)數(shù)據(jù)集的流、機(jī)器學(xué)習(xí)或SQL工作負(fù)載。Spark通常比我們前文討論的MapReduce快很多。

    24.流處理。流處理旨在通過(guò)“連續(xù)”查詢(xún)對(duì)實(shí)時(shí)和流數(shù)據(jù)進(jìn)行操作。結(jié)合流分析(即在流內(nèi)同時(shí)進(jìn)行連續(xù)計(jì)算數(shù)學(xué)或統(tǒng)計(jì)分析的能力),流處理解決方案可以被用來(lái)實(shí)時(shí)處理非常大的數(shù)據(jù)。

    25. 結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。這是大數(shù)據(jù)5V中的“Variety”多樣性。結(jié)構(gòu)化數(shù)據(jù)是能夠放入關(guān)系型數(shù)據(jù)庫(kù)的最基本的數(shù)據(jù)類(lèi)型,通過(guò)表的組織方式可以聯(lián)系到任何其他數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)則是所有不能直接存入關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),例如電子郵件、社交媒體上的帖子、人類(lèi)錄音等。

    (審核編輯: 林靜)

    聲明:除特別說(shuō)明之外,新聞內(nèi)容及圖片均來(lái)自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請(qǐng)聯(lián)系我們刪除。

    主站蜘蛛池模板: 廊坊纳科新材料技术有限公司--纳科新材料技术有限公司|廊坊纳科新材料|纳科新材料技术 | 球形钢支座,粘滞阻尼器,抗震球型钢支座,盆式橡胶支座,调谐质量阻尼器,屈曲约束支撑-衡水路泽科技 | 铁三角话筒-思美音频处理器-艾伦赫赛数字调音台-北京盛世音盟电子科技有限公司 | 升降作业平台_自行-车载-液压升降机_登车桥-强峰升降台 | 气调包装机厂家-真空包装机价格-气调包装机-锁鲜包装机-江苏大江智能装备有限公司 | 校服定做厂家-屹奥校服-无限能量·校园绽放 | 无塔供水设备_无负压供水设备_变频供水设备_净化过滤设备_加油站油罐_S/F双层油罐_开封市东方供水设备有限公司 | 浙江微龙科技-微通道工艺结合设备一站式解决方案-致力于连续流技术开发与产业化应用-助力传统医药化工行业转型升级 | 无轴螺旋输送机_双无轴螺旋输送机_垃圾,污泥无轴螺旋输送机-新乡市大汉振动机械有限公司 | 专注全球电机测试-电机测试系统-AIP艾普【官网】 | 耐磨锤头|合金锤头|高铬耐磨锤头|破碎机锤头|双金属双液复合锤头_巩义东辰实业 合金耐磨锤头铸造厂 | 推荐|广佛一条龙高端茶到底有多香 | 呼吸家官网|肺功能检测仪生产厂家|国产肺功能仪知名品牌|肺功能检测仪|肺功能测试仪|婴幼儿肺功能仪|弥散残气肺功能仪|肺功能测试系统|广州红象医疗科技有限公司|便携式肺功能仪|大肺功能仪|呼吸康复一体机|儿童肺功能仪|肺活量计|医用简易肺功能仪|呼吸康复系统|肺功能仪|弥散肺功能仪(大肺)|便携式肺功能检测仪|肺康复|呼吸肌力测定肺功能仪|肺功能测定仪|呼吸神经肌肉刺激仪|便携式肺功能 | 托普云农-数字农业综合服务商-官方网站 | 妙手官网—商品管理、批量修改、订单处理、营销水印 | 秦皇岛天视影像有限公司,宣传片创意拍摄制作,商业广告拍摄公司,影视影像服务商 - 秦皇岛天视影像有限公司,宣传片创意拍摄制作,商业广告拍摄公司,影视影像服务商 秦皇岛市信恒电子科技有限公司 秦皇岛市华谊彩印有限公司 | 郑州长城冶金设备有限公司| 军用笔记本电脑_三防加固笔记本电脑_平板型全坚固计算机-集海卫通 | 雷达液位计_耐磨热电偶_蒸汽_柴油,汽油_天然气流量计_巴歇尔槽_一体化温度变送器-江苏翔腾仪表有限公司 | 南通搬运公司|吊车租赁|大件吊装|设备搬运|工厂搬迁|起重吊装搬运-顺林搬运 | 微型电磁阀_隔膜泵_活塞泵_微型水泵_微型真空泵_微型气泵【东莞市宗旨电子科技有限公司】 | 永磁耦合_重载永磁软起_能量回馈式调速器_磁力耦合器_江苏磁谷科技股份有限公司官方网站 | 四川川亚电子科技有限公司 | 模具|数控加工-车床加工-精密数控铣床-东莞市方菱精密模具有限公司专注零件及模具加工 | 浙江云野科技有限公司_智慧旅游规划_智慧景区管理系统_全域旅游解决方案-云野科技旅游大数据管理平台 | 济宁山银煤矿机械有限公司,钻采工具,防爆电器,凿岩机械,风动工具,矿山机械,建筑机械,支护设备,通风防尘,铁路设备,仪器仪表,大型设备,矿用泵,钎具类,消防类,矿车类,配件区类 | 气胀轴丨安全夹头丨电磁制动器丨纠偏系统丨磁粉离合器丨张力控制器厂家- 东莞天机通信科技有限公司 | 西安泰富西玛电机有限公司总部-电机-高压电机-西玛电机-西安西玛电机-泰富西玛电机-西安电机厂-西玛电机销售 | 无线|远传|刷卡|光电直读水表_插卡电表[计量准确] | 辽宁正业集团云顶钢结构有限公司_葫芦岛云顶钢结构_葫芦岛轻钢彩板_葫芦岛钢结构工程 | 养殖污水处理设备厂家-废水处理设备-固液分离设备-诸城市赛瑞环保 | 全自动码垛机|码垛机器人|高位码垛机械手|拆垛机|缠绕机|山东腾阳智能装备有限公司 | 土工膜_土工布_复合土工膜_山东土工膜生产厂家_山东路易达新材料有限公司 | 监控工程,安防监控公司,北京监控安装,北京安装监控,安装摄像头,北京监控维保,监控施工,北京监控维修,监控弱电工程,监控器安装,监控维护保养,监控工程设计,北京监控设备维修,监控报警安装,北京北方合力科技有限公司 | 首页-南德电气集团-电能质量产品解决方案|能源数字化系统解决方案|新能源检测评估服务|电力/光伏/储能EPC工程总承包 | 墨子百科-专业有趣的问题小百科 莫非传媒官网-江西知名的网络营销推广服务平台南昌网络公司,专业网络公关,品牌危机处理,网站SEO优化,微信朋友圈广告,网站建设,南昌莫非文化传媒有限公司 | 天津止回阀-止回阀报价/哪家好-天津蝶阀/进口阀门/通风蝶阀批发-闸阀阀门/球阀生产厂家-天津凯维斯阀门制造 | 消字号牙膏代加工|面膜代加工|凝胶贴牌|漱口水贴牌-南京三盾药业有限公司-消字号牙膏代加工|面膜代加工|凝胶贴牌|漱口水贴牌-南京三盾药业有限公司 | 塑料模具公司,塑料包装桶厂家,PET打包带厂家,缠绕膜厂家-新疆福吉亚工贸有限公司 | 天津高压泵-高压清洗机-高压柱塞泵-厂家-价格-天津高压泵格瑞德 天津翻译公司盖章|022-58385822| 翰文博译(天津)商务咨询有限公司 | 昆明护栏网厂家_隔离栅_围栏网_石笼网「13年生产经验」-云南北辛商贸 |