智汇工业-智慧工业、智能制造及工业智能、工业互联门户网站,专业的工业“互联网+”传媒

智能芯片市場格局一變再變 TPU將成深度學習的未來?

來源:網絡

點擊:880

A+ A-

所屬頻道:新聞中心

關鍵詞: 智能芯片,谷歌,TPU

    在Google I/O 2016的主題演講進入尾聲時,谷歌的CEO皮采提到了一項他們這段時間在AI和機器學習上取得的成果,一款叫做Tensor Processing Unit(張量處理單元)的處理器,簡稱TPU。在這個月看來,第一代的TPU處理器已經過時。

    在昨天凌晨舉行的谷歌I/O 2017大會上,谷歌除了宣傳了安卓8.0之外,更為重要的是著重談到了人工智能,于是第二代TPU也就應運而生。TPU是谷歌自主研發的一種轉為AI運算服務的高性能處理器,其第一代產品已經在AlphaGo這樣的人工智能當中使用,主攻運算性能。

    第二代TPU相比較于初代主要是加深了人工智能在學習和推理方面的能力,至于性能的話,全新的谷歌TPU可以達到180 TFLOPs的浮點性能,和傳統的GPU相比提升15倍,更是CPU浮點性能的30倍。

    另外谷歌還推出了一款叫做TPU pod的運算陣列,最多可以包含64顆二代TPU,也就是說浮點性能可以達到驚人的11.5 PFLOPS。

    從名字上我們可以看出,TPU的靈感來源于Google開源深度學習框架Tensor Flow,所以目前TPU還是只在Google內部使用的一種芯片。

    TPU 誕生

    2011年,Google 意識到他們遇到了問題。他們開始認真考慮使用深度學習網絡了,這些網絡運算需求高,令他們的計算資源變得緊張。Google 做了一筆計算,如果每位用戶每天使用3分鐘他們提供的基于深度學習語音識別模型的語音搜索服務,他們就必須把現有的數據中心擴大兩倍。他們需要更強大、更高效的處理芯片。

    他們需要什么樣的芯片呢?中央處理器(CPU)能夠非常高效地處理各種計算任務。但 CPU 的局限是一次只能處理相對來說很少量的任務。另一方面,圖像處理單元(GPU)在執行單個任務時效率較低,而且所能處理的任務范圍更小。不過,GPU 的強大之處在于它們能夠同時執行許多任務。例如,如果你需要乘3個浮點數,CPU 會強過 GPU;但如果你需要做100萬次3個浮點數的乘法,那么 GPU 會碾壓 CPU。

    GPU 是理想的深度學習芯片,因為復雜的深度學習網絡需要同時進行數百萬次計算。Google 使用 Nvidia GPU,但這還不夠,他們想要更快的速度。他們需要更高效的芯片。單個 GPU 耗能不會很大,但是如果 Google 的數百萬臺服務器日夜不停地運行,那么耗能會變成一個嚴重問題。

    谷歌決定自己造更高效的芯片。

    2016年5月,谷歌在I/O大會上首次公布了TPU(張量處理單元),并且稱這款芯片已經在谷歌數據中心使用了一年之久,李世石大戰 AlphaGo 時,TPU 也在應用之中,并且谷歌將 TPU 稱之為 AlphaGo 擊敗李世石的“秘密武器”。

    智能芯片市場格局一變再變 TPU將成深度學習的未來?

    第一代TPU內部架構

    該圖顯示了TPU上的內部結構,除了外掛的DDR3內存,左側是主機界面。指令從主機發送到隊列中(沒有循環)。這些激活控制邏輯可以根據指令多次運行相同的指令。

    TPU并非一款復雜的硬件,它看起來像是雷達應用的信號處理引擎,而不是標準的X86衍生架構。Jouppi說,盡管它有眾多的矩陣乘法單元,但是它GPU更精于浮點單元的協處理。另外,需要注意的是,TPU沒有任何存儲的程序,它可以直接從主機發送指令。

    TPU上的DRAM作為一個單元并行運行,因為需要獲取更多的權重以饋送到矩陣乘法單元(算下來,吞吐量達到了64,000)。Jouppi并沒有提到是他們是如何縮放(systolic)數據流的,但他表示,使用主機軟件加速器都將成為瓶頸。

    智能芯片市場格局一變再變 TPU將成深度學習的未來?

    256×256陣列縮放數據流引擎,經過矩陣乘法積累后實現非線性輸出

    從第二張圖片可以看出,TPU有兩個內存單元,以及一個用于模型中參數的外部DDR3 DRAM。參數進來后,可從頂部加載到矩陣乘法單元中。同時,可以從左邊加載激活(或從“神經元”輸出)。那些以收縮的方式進入矩陣單元以產生矩陣乘法,它可以在每個周期中進行64,000次累加。

    毋庸置疑,谷歌可能使用了一些新的技巧和技術來加快TPU的性能和效率。例如,使用高帶寬內存或混合3D內存。然而,谷歌的問題在于保持分布式硬件的一致性。

    能夠進行數據推理的第二代TPU

    第一代的TPU只能用于深度學習的第一階段,而新版則能讓神經網絡對數據做出推論。谷歌大腦研究團隊主管Jeff Dean表示:“我預計我們將更多的使用這些TPU來進行人工智能培訓,讓我們的實驗周期變得更加快速。”

    “在設計第一代TPU產品的時候,我們已經建立了一個相對完善和出色的研發團隊進行芯片的設計研發,這些研發人員也基本上都參與到了第二代TPU的研發工程中去。從研發的角度來看,第二代TPU相對于第一代來說,主要是從整體系統的角度,提升單芯片的性能,這比從無到有的設計第一代TPU芯片來說要簡單許多。所以我們才能有更多的精力去思考如何提升芯片的性能,如何將芯片更好的整合到系統中去,使芯片發揮更大的作用。”Dean在演講中表示。

    未來,我們將繼續跟進谷歌的進度,以進一步了解這一網絡架構。但是在此之前,我們應當了解新一代TPU的架構、性能以及工作方式,明白TPU是如何進行超高性能計算的。在此次發布會上,谷歌并沒有展示新一代TPU的芯片樣片或者是更加詳細的技術規格,但是我們依舊能夠從目前所知的信息中對新一代TPU做出一些推測。

    智能芯片市場格局一變再變 TPU將成深度學習的未來?

    從此次公布的TPU圖片來看,第二代TPU看上去有點像Cray XT或者是XC開發板。從圖片上,我們不難發現,相互連接的幾個芯片被焊接到了開發板上,同時保持了芯片之間以及芯片與外部的連接功能。整個板子上共有四個TPU芯片,正如我們之前所說,每一個單獨的芯片都可以達到180TFLOPs的浮點性能。

    在開發板的左右兩側各有四個對外的接口,但是在板子的左側額外增加了兩個接口,這一形式使得整個板子看上去略顯突兀。如果未來每一個TPU芯片都能夠直接連接到存儲器上,就如同AMD即將推出的“Vega”處理器可以直接連接GPU一樣,這一布局就顯得非常有趣。左側多出的這兩個接口在未來可以允許TPU芯片直接連接存儲器,或者是直接連接到上行的高速網絡上以進行更加復雜的運算。

    以上這些都是我們基于圖片的猜測,除非谷歌能夠透露更多的芯片信息。每一個TPU芯片都有兩個接口可以與外部的設備進行連接,左側有兩個額外的接口對外開發,可以允許開發者在此基礎上設計更多的功能,添加更多的擴展,無論是連接本地存儲設備還是連接網絡,這些功能在理論上都是可行的。(實現這些功能,谷歌只需要在這些接口之間建立相對松散可行的內存共享協議即可。)

    下圖展示了多個TPU板一種可能的連接形式,谷歌表示,這一模型可以實現高達11.5千萬億次的機器學習計算能力。

    智能芯片市場格局一變再變 TPU將成深度學習的未來?

    這一結果是如何得出的呢。上面這種連接方式,從外形上來看,非常像開放的計算機架構,或者是其他的一些東西。縱向上來看,疊加了8個TPU板,橫向上看,并列了4個TPU板。目前我們無法斷定每一個開發板都是完整的TPU板或者是半個開發板,我們只能看到板子的一側有6個接口,另一側有2個接口。

    值得注意的是,板子的中間采用了4個接口,而左右兩側采用了2個接口,并且在左右兩側也沒有見到與TPU開發板類似的外殼。對此,一個比較合理的解釋就是,左右兩側連接的是本地存儲器接口,而不是TPU芯片接口。

    即便如此,我們依舊能看到至少32個TPU二代母板在運行,這也意味著,有128個TPU芯片在同時運行。經過粗略的計算,整套系統的計算能力大概在11.5千萬億次。

    舉個例子來說,如果這一運算能力在未來能夠運用到商業領域,谷歌現在進行的大規模翻譯工作所采用的32個目前最先進的GPU,在未來就可以縮減為4個TPU板,并能夠極大的縮減翻譯所需要的時間。

    值得注意的是,上文所提到的TPU芯片不僅僅適用于浮點運算,也同樣適用于高性能計算。

    TPU的訓練與學習

    與第一代TPU相比,第二代TPU除了提高了計算能力之外,增加的最大的功能就是數據推理能力,不過這一推理模型必須先在GPU上進行訓練才可以。這一訓練模式使得谷歌等開發廠商必須降低實驗的速度,重塑訓練模型,這將耗費更長的時間,才能使機器獲得一定的數據推理能力。

    正是因為如此,在相對簡單和單一的設備上先進行訓練,然后將結果帶入帶更為復雜的環境中去,從而獲得更高層次的數據推理能力,這一迭代工程是必不可少的。未來,英特爾推出的用于人工智能的GPU也將會采用這一迭代模式。英偉達的Volta GPU也是如此。

    擁有“tensor core”的英偉達Volta GPU擁有超高速的機器學習與訓練能力,未來可能達到120萬億次的單設備計算能力,這一運算能力與去年上市的Pascal GPU相比,在計算能力上提升了大約40%。但是像谷歌推出的TPU這種超高速的計算能力所帶來的影響,我們即便很難在生活中切身的體會到,但是GPU越來越快的計算能力依舊令人印象深刻,也離我們更近。

    Dean表示,英偉達Volta所采用的架構是非常有趣的,這一架構使得通過核心矩陣來加速應用的目的成為可能。從一定程度上來說,谷歌推出的第一代TPU也采用了類似的想法,實際上,這些技術現在依然在機器學習的流程中被采用。“能夠加快線性計算能力總是非常有用的。”Dean強調。

    姑且不考慮硬件方面的影響,依然存在著許多能夠吸引用戶的地方。與那些始終保持機密的項目不同,未來,谷歌將會將TPU技術運用到谷歌云平臺。谷歌的高級研究員Jeff Dean表示,他們不希望通過各種手段來限制競爭,希望能夠為TPU提供更多的可能與空間,這樣在未來才能夠與Volta GPU以及Skylake Xeons競爭。

    智能芯片市場格局一變再變 TPU將成深度學習的未來?

    Dean認為,平臺也應當為開發者提供更多能夠建立和執行各自特有模型的機會,而不是限制開發者的思維。未來,谷歌將會在云平臺上為那些對開放的科研項目感興趣并不斷推進機器學習的研究團隊提供超過1000個TPU。

    Dean表示,現在在谷歌內部,在進行機器訓練和學習的時候,也會同時采用GPU和CPU,在同一設備上也是如此,這樣能夠更好的保證平衡。但是對于新一代的TPU芯片,目前來說,訓練和學習時候的功率還不能夠準確的估計,但是值得肯定的是,功能肯定是低于Volta GPU。由于系統在功能上能夠滿足高性能計算和64位高性能計算,這就使得工作負載的計算異常復雜。英偉達的GPU在使用過程中也會遇到類似的問題。未來,想要更好的解決這一問題,需要我們跟工程師繼續努力。

    在這一點上,Dean也承認:“與第一代TPU芯片整數計算的方式不同,第二代芯片能夠進行浮點運算。所以在芯片進行學習訓練的過程中,只需要采用固定的模型即可,不需要變動算法。工程師可以采用相同的浮點運算方式,這在很大程度上降低了工作量。”

    智能芯片市場格局一變再變 TPU將成深度學習的未來?

    除了英偉達和英特爾之外,谷歌將其定制的硬件產品推向市場,對于企業來說未嘗不是一件好事。因為TPU來說對于市場來說還是相當邊緣化的技術。當第二代TPU產品應用到谷歌云平臺之后,谷歌將會向大量的用戶推送培訓,這將會更好的推動這一技術的發展。

    對于哪些對于谷歌為什么不將芯片進行商業化的人來說,以上的內容大概能夠給出一個回答。隨著人工智能和神經學習技術的不斷發展,TPU將能夠在谷歌云上大展拳腳,成為推動技術進步的一大力量。

    TPU對谷歌意味著什么?

    谷歌專門開發的應用于深度神經網絡的軟件引擎。谷歌表示,按照摩爾定律的增長速度,現在的TPU的計算能力相當于未來七年才能達到的計算水平,每瓦能為機器學習提供更高的量級指令,這意味它可以用更少的晶體進行每一個操作,也就是在一秒內進行更多的操作。并且谷歌將其與Deep learning系統平臺TensorFlow進行了深度綁定,可以獲得更好的支持,做更強的生態,包括搜索、無人駕駛汽車、智能語音等100多個需要使用機器學習技術的項目。

    TPU 是深度學習的未來嗎?

    深度學習計算中的芯片部署都不是零和博弈。現實世界的深度學習網絡需要系統的 GPU 與其他 GPU 或諸如 Google TPU 之類的 ASIC 通信。GPU 是理想的工作環境,具有深度學習所需的靈活性。但是,當完全專用于某個軟件庫或平臺時,則 ASIC 是最理想的。

    谷歌的 TPU 顯然符合這樣的要求。TPU 的卓越性能使得 TensorFlow 和 TPU 很可能是一起升級的。雖然谷歌官方已經多次明確表示,他們不會對外銷售 TPU。不過,利用 Google 云服務做機器學習解決方案的第三方可以得益于 TPU 卓越性能的優勢。

    智能芯片市場格局一變再變,谷歌 TPU 的出現讓面向神經網絡/深度學習特定領域加速的芯片趨勢更加明顯。高端 AI 應用需要強大的芯片做支撐。軟硬件缺了哪一塊中國的智能生態也發展不起來。中國處理器學術和工程都在不斷提高,我們期待中國芯早日出現在世界舞臺與國際同行競技。

    (審核編輯: 林靜)

    聲明:除特別說明之外,新聞內容及圖片均來自網絡及各大主流媒體。版權歸原作者所有。如認為內容侵權,請聯系我們刪除。

    主站蜘蛛池模板: 气胀轴丨安全夹头丨电磁制动器丨纠偏系统丨磁粉离合器丨张力控制器厂家- 东莞天机通信科技有限公司 | 四川方法数码科技有限公司| 冷缩电缆附件_热缩电缆附件-乐清安尚电气有限公司 | 盐城市宏展环保材料有限公司-官网-滤袋,过滤袋,液体过滤袋,袋式过滤器,无纺布过滤袋,废液过滤袋 盐城市城镇化建设投资集团有限公司[盐城国资企业、盐城国资集团、盐城文化旅游、盐城基础设施、盐城土地开发、盐城粮食收储] | 康复支具-医用颈托-辅助固定矫形器-骨折固定带生产厂家-安平县康信医疗器械有限公司 | 上海防爆墙厂家_上海上胜安防工程有限公司 | 绿化工程-绿化养护-园林设计-东莞市泉桦园林绿化有限公司 | 新硕考研_新硕寄宿考研-升学路上的规划师【官网】 | 厦门空压机-厦门空压机出租-厦门钻机出租-厦门岩立盛机电设备有限公司 | 无土栽培|无土栽培技术|水肥一体化|无土栽培蔬菜 | 拓普思(常州)智能科技有限公司-青少年无人机教育培训比赛课程加盟拓活力 | 尼德克医疗器械贸易(上海)有限公司 | 智能一体化蒸馏仪_氨氮蒸馏仪_全自动智能蒸馏仪器厂家-那艾 | 山东德曼医疗设备集团有限公司 | 郑州建网站,郑州做网站,郑州网站建设,郑州网站制作,郑州高端定制网站,郑州APP开发 | 宣传片拍摄-宣传片制作-三维动画-企业视频广告报价-北京环宇影音 | 真人外教一对一_在线英语培训_成人英语培训【春喜外语学习官网】 | 家居网链网—家居产业互联网价值平台| 意优教育|意大利留学中介_意大利留学费用_意大利申请条件_北京意大利语培训学校 | 人工气候-智能-低温生化培养箱厂家|价格-上海予卓仪器 | 消字号牙膏代加工|面膜代加工|凝胶贴牌|漱口水贴牌-南京三盾药业有限公司-消字号牙膏代加工|面膜代加工|凝胶贴牌|漱口水贴牌-南京三盾药业有限公司 | 配重铁砂|合金钢丸|山东铁砂|济南嘉日金属制品有限公司 | 制砂机_制沙一体机_青石制沙机-华盛铭设备厂家 | 水环式真空泵-旋片式真空泵-上海飞鲁泵业科技有限公司 | 螺杆式空压机|沈阳螺杆空压机厂家推荐选择沈阳隆瑚机械有限公司 螺带混合机|卧式螺带混合机|双动力混合机-无锡鑫海干燥粉体设备有限公司 | 开关柜无线测温_电缆接头测温系统_六氟化硫sf6气体泄漏报警监测_卫星同步时钟-山东正瑞电子有限公司 | 欣宇航化工-湖北片碱-冰醋酸厂家联系方式-工业氨水价格-工业片碱厂家-武汉宇航化工 | 上海网站建设-上海网站制作-网站设计-上海做网站公司-SEO优化推广-咏熠软件 | 深圳固派克包装机械科技有限公司_封口收缩机_封箱机-捆包机-缠膜机 | 转轮除湿机,转轮除湿机,恒温恒湿机厂家_合肥铂克环境设备有限公司 | 中捷摇臂钻,数控钻床,沈阳中捷设备机床厂官网_沈阳中捷数控摇臂钻床厂 | 苏州注册公司-代理工商注册-苏州及财企业服务有限公司 | 济宁山银煤矿机械有限公司,钻采工具,防爆电器,凿岩机械,风动工具,矿山机械,建筑机械,支护设备,通风防尘,铁路设备,仪器仪表,大型设备,矿用泵,钎具类,消防类,矿车类,配件区类 | 图表秀——免费在线图表制作工具,数据可视化工具 | 医盟网-全国首家医疗信息化行业门户网站 | 沈阳机电一体化电热锅炉_沈阳蓄热式电锅炉_沈阳壁挂式电锅炉【沈阳远鹏电热供水设备工程安装有限公司】 | 长沙变频器维修,变频器维修,ABB变频器维修,西门子变频器维修,施耐德变频器维修,伺服驱动器维修,工业机器人维修,20年专业工控电气维修,长沙文铖电气设备有限公司_长沙文铖电气设备有限公司 | 拓普思(常州)智能科技有限公司-青少年无人机教育培训比赛课程加盟拓活力 | 芯片_IC_半导体品牌一级代理商-深圳市合通泰电子有限公司 | 聚四氟乙烯板,聚乙烯四氟板,防火布,廊坊王氏防火材料有限公司官网 | 玉米加工机械_玉米深加工机械_玉米加工设备--河南工粮机械设备有限公司 |