智汇工业-智慧工业、智能制造及工业智能、工业互联门户网站,专业的工业“互联网+”传媒

數據湖 提供分析客戶數據的更好方式

來源:機房360

點擊:841

A+ A-

所屬頻道:新聞中心

關鍵詞:大數據,智能裝備

        借助數據湖工具,可以很容易且成本有效地參與市場競爭,可見數據的可用性要比其以一種特定的格式存儲在某個地方更為重要。

                                              數據湖

      “我們的目標是盡可能快的將數據植入我們的業務,使得我們能夠不斷發掘出新的業務機會。”The Weather Company的執行副總裁首席技術官兼首席信息官布萊森?克勒表示說。在任何一個項目中,花費較長的時間,卻只是為了清理數據是不現實的。鑒于在如此眾多的新的數據來源方面,每天發生的變化都是如此之大,因此單純的執行數據整理方面的工作永遠是都不完整的。”

      克勒想把從任何地方的所有數據來源所收集到的數據都整合起來,這其中包括了個別氣象站點的數據和物聯網傳感器所收集的數據,以便能夠進行大量的數據分析工作。而如果要借助傳統的數據倉庫,這項工作幾乎是不可能的,因為新的數據的屬性大多都是非結構化的、而且其數量龐大,同時其任務的驗證和開發過程往往需要花費漫長的時間。

      “我們從很多初創公司那里獲得了大量的數據,當然我不能要求這些公司專門為我們創建一種專門的數據格式。這將削弱他們的競爭優勢,否則他們就會選擇別的合作伙伴了。”克勒說。

      而為了避免這種潛在的麻煩,兩年前,The Weather Company成為了數據湖的早期采用者。這種方法允許該企業能夠以一種不可知的方式獲取、分析和存儲非結構化、半結構化和結構化的數據,該方法比傳統的數據倉庫提供了更為靈活的存儲。

      今天的許多數據湖都能夠與Apache的Hadoop開源分布式框架進行兼容,以用來存儲和處理數據。EMC、IBM、微軟、惠普企業和Informatica公司均提供運行Hadoop的數據湖平臺。(IBM最近從The Weather Company采購了一些數字資產。)

      The Weather Company為其數據湖使用了AmazonS3,以及Apache的Cassandra數據庫和Apache的Spark,以便進行實時的數據分析處理,克勒說。借助其數據湖戰略,The Weather Company可以接受來自135000個世界各地的愛好者的獨立的個人氣象站的數據。這些數據信息匯集到數據湖,并與其它諸如雷擊和湍流事件的關鍵數據信息整合,得以能夠為該公司的天氣數據科學家和業務專家提供相關的洞察見解。

      自從該數據湖項目啟動以來,The Weather Company已經能夠將其溫度預測的準確性提高了2度。“而在天氣預測領域,2度的意義無疑是相當重大的。”克勒說。

      數據湖在哪些領域奏效,哪些領域不起作用

      普華永道分析實踐的合伙人Oliver Halter表示說,企業所收集的數據量及其速度正在發生變化,而更多數據來源的獲得將引導更多的企業考慮采用數據湖。

      如果一家企業試圖采用數據倉庫來完全整合15個不同數據源的數據,那么,在同一時間,“另外50個可用的數據來源的數據,也是有價值的。”Halter說。

      咨詢公司Hurwitz&Associates的總裁兼首席執行官朱迪斯?赫維茨表示認可這兩個不同的服務目的。“當您想要了解您企業的競爭對手,和您企業的藍色襯衫的銷售情況、以及大家都是如何在網上談論藍色襯衫時,您就可以抓取一切關于藍襯衫的數據信息,并將這些數據信息匯集到您企業的數據湖。”她說。

      當涉及到數據倉庫或數據湖時,“這不是一個成本問題”,她解釋說。如果您真的把數據分析與您企業的商業決策結合起來,并同時希望您所依靠的這些數據信息必須最好是干凈的和完全可靠的,那么您可能不會選擇使用數據湖了。”

      因為如果是基于錯誤的原因、以錯誤的方式實施了數據湖,其是有可能導致項目失敗的。”如果您需要做的是財務報告或一項政府機構的政令文件,那么您所依靠的數據信息必須是盡可能干凈的,此時,數據倉庫或許才是合適的解決方案。”Halter說。

      “因為當您在執行相對原始的數據分析時,采用的是非標準化的數據,就可能會在這過程中產生較多的誤解的機會,或根本是匹配了不完善的數據,可能會導致分析結果不夠準確精密,也就無法生成準確的財務報表或交易報告了。”她解釋說。數據湖中的數據科學更傾向于進行趨勢的分析預測和大方向的正確性,而不是提供精確的結果。

      Halter建議廣大讀者可以采用另一種方式來理解數據湖和數據倉庫間的差異化關系。“如果您需要一組事實數據,將這些數據結合起來,并且需要對其進行嚴格的審查——例如,’我們在3月31日的未付的應收賬款是3567444556元’——那么您所需要的是數據倉庫的方法。”她說。“而如果您所需要的是提供方向性指導——例如,’我們認為,某某市場將增長60%至80%’或’客戶有35%的更高的可能性購買A產品而非B產品’——那么此時,數據湖的方法便是更為適合的方案了。”

      在大多數情況下,一家企業組織將同時擁有數據倉庫和數據湖。“一旦您在數據湖中發現一些對企業組織是有價值的東西,可以您希望重復該情況,那么其就可以被轉移到數據倉庫,實現規范化和統一。”Halter說。

      數據湖的數據并不完美

      Synchrony Financial是一家消費者金融服務公司,與Synchrony銀行共同提供銀行聯名信用卡及其他私人金融信貸業務。該公司目前就同時運行著數據倉庫和數據湖。盡管該公司的數據湖目前還只是在試點模式中,其首席技術官格雷格·辛普森希望在不久的將來能夠讓數據湖項目派上重點用途。

      辛普森表示說,他所在的公司擁有非常良好的數據財富,大部分來自其他金融來源并匯集到該公司數據湖的數據都是干凈且標準規范化的,因為該行業是屬于高度管制的行業。該數據湖將有助于幫助該金融服務公司整合社交媒體的數據,以幫助他們更好的研究客戶的行為和市場趨勢。

      “我傾向于獲得干凈的數據信息,但事實上,我也能夠克服那方面的困難。”他說。“實際情況是,我們需要能夠進行數據分析,以優化我們目前的業務,并找到相鄰的業務。這意味著,我們不會按照正常化的模式創造這個主數據模型和數據集市。”

      例如,在分析客戶的購物習慣,以制定相應的營銷策略的過程中,Synchrony公司并不需要準確地知道顧客在度日差為78的情況下是否要比度日差為79的情況下會購買更多的東西。“我們只需要知道這是一個非常好的一天,消費者有了購物行為就行了。”辛普森說。有了這個信息,Synchrony公司就可以決定客戶會希望在什么時候在他們的智能手機上看到商店彈出的報價促銷了。

      Synchrony公司使用Hadoop作為其框架,并采用SQL進行數據分析,作為其從公司的系統以及外部資源獲得數據的接口。“Hadoop已經成為商業化的工具集,可輕松實現部署。”辛普森說。

      現在,隨著所需數據的增加,數據湖也將隨著項目的增多而進一步擴大。然而,最終,數據湖將會有足夠的數據,而數據科學家們可以將其作為一個整體進行研究,并找到更多的價值。

      例如,項目A的重點是Synchrony公司將如何定位目標客戶,并對消費者實施有針對性的市場營銷;而項目B的重點則是分析呼叫中心的數據,并對其實施優化。“而對于我們甚至沒有想到的項目C,其可能會伴隨著前兩個項目的不斷推進而衍生出來;或者是源于數據湖中有了來自其它數據來源的數據。”他說。

      辛普森是數據湖這一概念的粉絲,因為其可以幫助該公司避免牽扯到數據倉庫的更復雜和長期的任務。“我們的數據倉庫通常用于處理高度重復的,且不太頻繁的事情,如每月的財務報告。這些都是時間點的問題,我們不會再回到過去了。”他說。“如果您需要花費六周時間去做那些工作,那么您將失去您的業務。”

      了解數據湖的環境和元數據

      一個令辛普森困擾的問題是:一旦數據被匯集到數據湖之后,其要如何理解數據湖的環境。比如說,如果他收集了來自Facebook的相關帖子的數據,然后想評估這些帖子中關于他們公司的負面情緒的評論,他會想知道這些帖子中,10個中有一個是負面的;或是1000個中有一個是負面的,以及這些負面的帖子都被發布在哪里了。

      非營利環保國際保護組織的高級技術總監兼對外關系高級主管Eric Fegraus對于元數據也有類似的的擔憂,現在他正打算創建一個數據湖。

      目前被孤立在政府機構、大學和非營利組織機構的數據將在數據湖共享。“在傳統的包括了林業資源、生物多樣性、生態和海洋生態系統的自然資源世界,對于數據存在著巨大的缺乏。”Fegraus表示說。而由于傳感器、攝像頭和其他物聯網設備的廣泛普及,使得數據可以被捕獲收集并遠程傳輸到一個中央存儲庫。上述這一狀況正在開始發生改變。

      Fegraus希望能夠盡快開發和實施數據捕獲的最佳實踐方案,以便使得科學家們所收集的數據信息不會因為他們的資助結束或他們轉移到別的項目就消失。“我們正在積極構建一個系統,將使數據存儲庫能夠共享和集成數據。其功能將像一個湖,但具有許多相互連接的節點。”他說。

      對于其試點項目,Fegraus打算在其數據湖填充一些初始節點,具有圖像、聲音及該組織設置在野外的數千臺相機所收集的元數據。“這些數據使我們能夠理解正在野生動物種群身上發生的事情,為土地管理人員提供了數據驅動的見解,幫助他們了解野生動物的現狀和在陸地上生長的趨勢。”他解釋說。

      “我們也可以開始梳理可以推動我們發現相關趨勢的數據信息。”Fegraus說。例如,在烏干達的一處野生動物園,在設置好了攝像頭之后,工作人員開始注意到金貓的物種的下降。

      他解釋說:“我們也可以說,有一個強烈的信號,預示了人類的活動可能會影響到了這一特殊種類的貓的生存。”由于該處野生動物公園主要游覽主題是大猩猩生態旅游和游客徒步旅行去看大猩猩。他們把金貓數量下降的變化與公園里允許游客徒步參觀的范圍相聯系,從而已經了解了如何更好地管理公園,而不會影響到金貓的生存。

      不僅他的團隊將能夠使用來自他們項目所收集的數據,其他組織也將能夠訪問相同的數據集。

      但是,與辛普森一樣,Fegraus也同樣感覺到元數據的處理是相當棘手的。在參與組織之間規定數據使用的協議最有可能會使用元數據來維護數據的完整性。例如,科學家在收集拍照過程中,是否使用誘餌或相機的閃光燈是否打開是非常必要的信息,其可能會影響結果,但保持原始數據可能是相當具有挑戰性的。

      處理“無底洞”的概念

      這方面的另一個障礙是:需要收集哪些數據信息,同時需要將這些數據信息保存多久。“您可以收集如此眾多的數據信息,其會使您耗盡存儲空間,而且這也是有成本代價的。”Fegraus說。因此,數據湖中所存儲的應該是那些項目驅動的數據,而不是任何可用的數據。

      雖然數據湖似乎是深不見底的,但其實并不是的。據市場調研機構Gartner公司的數據管理策略研究總監Svetlana Sicular介紹說。“人們總是對于可能會失去一些東西感到緊張,所以他們會盡一切可能的收集一切可以獲得的數據信息。然后,他們又會變得非常緊張,因為他們需要展示出迅速增長的數據湖的價值。但價值是通過數據分析而獲得的。”她說。而那些僅僅只是把數據湖視為“只寫”的公司也會失敗;換句話說,人們需要讀取和寫入信息,以便充分利用這些數據信息。

      “有一個普遍存在的概念,即數據倉庫將很快會消失,您企業將會在數據湖中執行所有的一切數據分析處理工作。”Sicular說。“這是一個謬誤。為什么要采用一些并非專門為其設計的技術來執行一些工作任務呢?”她補充說,只有當以正確的方式被使用時,數據湖才是唯一符合成本效益的。

      她提醒企業組織要更仔細地審視自己的數據倉庫,并要在開始部署采用數據湖的路線之前,確保其到底是不是正確的工具。很多人對于數據倉庫的理解還停留在五年前,Sicular說,但是現在的很多數據倉庫均已經具備處理非結構化數據的能力了。此外,她還建議企業必須考慮他們要分析的數據中有多少數據其實是非結構化的。

      保持企業組織的競爭優勢

      那么,企業組織到底應該在何時使用數據湖呢?”如果您企業組織需要分析各種類型的數據、而這些數據存儲在數據倉庫中又不會有多大意義時,便可采用數據湖。”Sicular說。另一種應用案例是:“如果花時間去清洗數據會使您企業失去競爭優勢的話,那么,數據湖將會是一個的完美使用案例。”她補充說。

      而這正是推動國際卡車公司(International Trucks)使用數據湖的基本原因了。Navistar控股的這家卡車制造商的物聯網分析和機器學習負責人Andy Minteer表示說,該公司所收集到的進入其基于Hadoop的數據湖的數據流使得改公司保持了始終對于其競爭對手領先一步。

      國際卡車公司有超過160000輛汽車參加了該公司的On Command連接項目計劃,該項目計劃使用來自安裝在車輛上的傳感器的數據流,包括該公司的卡車和校車,每隔15到20秒來評估一次車隊的運輸健康狀況。

      例如,通過分析數據湖的原始數據,該公司能夠幫助一只校車車隊的經理確定電池的閾值電壓,這樣就使得巴士不回在寒冷的接送孩子的途中出現故障,讓孩子們滯留在外。

      他的團隊還開發了一種算法,通過結合超過40000輛車輛的組合類型和故障代碼(非結構化數據)來梳理數據信息,以協助更小的車隊制定車輛的預防性維護時間表。Minteer研究了這些公路車隊的原始數據,其往往會有較高的行駛里程數,并發現可能出現的問題,這樣他們就可以及時安排車輛的維修,避免出現車輛的停運。

      他說:“這是一場獲取價值和機會的競爭,而借助數據湖工具,我們現在可以很容易且成本有效地參與市場競爭了。”他說。現在,我們知道,數據的可用要比其以一種特定的格式存儲在某個地方更為重要。”


    (審核編輯: 智慧羽毛)

    聲明:除特別說明之外,新聞內容及圖片均來自網絡及各大主流媒體。版權歸原作者所有。如認為內容侵權,請聯系我們刪除。

    主站蜘蛛池模板: 上海便携式液体_日本理音液体_HACH液体颗粒计数器,metone尘埃粒子计数器-上海翰森科学仪器有限公司 | 铁三角话筒-思美音频处理器-艾伦赫赛数字调音台-北京盛世音盟电子科技有限公司 | 上海拓展训练_上海拓展培训_上海团建活动_上海团建策划 | 太原塑料托盘,塑料筐,塑料箱,塑料垃圾桶_太原都程塑料制品有限公司 | 转炉烟道,转炉汽化冷却烟道,转炉汽化烟道,汽化冷却烟道系统生产厂家-宏发制造集团有限公司原河北宏发机械有限公司 | 上海消防器材|水雾喷头|水幕喷头|螺旋喷头|雾化喷头|泡沫喷头 - 上海舜丹消防设备有限公司 | 小程序开发,网站建设,APP开发,商城系统开发,社区团购系统开发,区块链溯源,互联网资质办理-软多信息技术有限公司_河南软多信息技术有限公司 | 重庆化粪池清淘_管道疏通_高压疏通清洗管道_电话:023-68183336,15723234763 | 内蒙古国际门窗幕墙展览会 | 叛逆孩子改造,青少年行为矫正,戒网瘾学校,特训学校,全封闭军事化管理学校 | 直流电源|Chroma直流电源|可程控直流电源-卓定电子Chroma代理 | 自建房外墙砖|地砖|墙砖,农村|别墅瓷砖-佛山燊陶丰 | 心心床垫_睡眠床垫-安徽瑶海心心工贸有限公司 | 上海企业团建|上海团建|上海团建活动|上海拓展培训|上海拓展训练|傲朗企业管理顾问(上海)有限公司 | 铸铁平台,三维柔性焊接平台,划线平台,大理石平台,检验平板,花岗石平台_泊头市恒量机械设备有限公司 | 校园防欺凌|视频一键式报警器|防霸凌报警柱|停车场语音对讲|商铺联网报警|应急广播音柱|居家养老一键通|盾王可视联网运营中心 | 上海层傲传动设备有限公司 - 工业皮带,输送带,传动带 | 新高度,萍乡市场调查研究公司,萍乡市场调研公司,萍乡第三方评估机构,萍乡神秘顾客暗访公司 | 玉米脱皮制糁机-玉米深加工机械价格-玉米糁加工机器设备-玉米渣加工成套设备-河南粮院 | 气动球阀,电动蝶阀,调节阀,衬氟阀门,水利控制阀,大口径阀门生产厂家-上海百钢阀门集团有限公司-官网,上海阀门品牌 | 客服外包_电话调查_电话调研_售前售后在线外包客服公司-北京美宸互联 | 装盒机|全自动封盒机|纸盒子包装机|高速装盒机定制-温州胜泰机械有限公司 | 首页--南京俊全科技有限公司,环保监测无人机,大疆无人机,农用无人机,植保无人机,巡检无人机,无人机环境监测仪,消防,无人机,航拍测绘,固定翼无人机,无人机电力巡检,四旋翼无人机 | 深圳市鼎拓达机电有限公司_ 深圳市鼎拓达机电有限公司 | 膜结构车棚厂家-张拉膜景观棚-汽车充电桩停车棚-嘉兴铭邦膜结构公司 | 输送线-链板输送线-倍速-装配-物流-滚筒输送线-分拣线 | 有用的旅游攻略_格林旅行网 | 塑胶跑道厂家_河北小区健身器材_悬浮地板-河北达创体育器材有限公司 | 商标转让_商标买卖交易平台_商标转让注册网站-世标网 | 世界酒店网|世界酒店论坛|世界酒店联盟大会 | 体育馆木地板厂家_篮球木地板价格_舞台木地板品牌-欧氏地板 | 移动破碎机,欧版颚式破碎机-淄博巨鑫矿山机械有限公司 | 天天生活网_实用的生活常识网站、有趣的生活点滴小妙招分享 | 假肢价格-大腿假肢小腿假肢假手指-河南舒捷假肢厂家 | 无尘车间_洁净车间_净化车间_洁净室工程一站式净化服务商-深圳市美克威尔环境科技有限公司 | 山东货架,山东仓库货架,临沂仓库货架,临沂仓储货架-山东兴博物流设备有限公司 | 烟台通风管道,烟台风机风管,烟台风阀-烟台福莱通风设备有限公司 烟台天昊矿业有限公司、滑石、滑石粉、微细粉、滑石矿-烟台天昊矿业有限公司 | 全开式真空干燥机_全开耙式真空干燥机_全开式动态真空干燥机,江阴千峰机械制造有限公司 | 免费的动态思维导图软件,脑图大师,思维导图制作软件 - 万彩脑图大师官网 | 山东亮化工程_亮化公司_亮化资质-山东星汇照明工程有限公司 | 正大制管-优质钢管制造商和服务商|