智汇工业-智慧工业、智能制造及工业智能、工业互联门户网站,专业的工业“互联网+”传媒

不再是睜眼瞎子:圖像識別技術的現狀和未來

來源:網絡

點擊:1155

A+ A-

所屬頻道:新聞中心

關鍵詞: 圖像識別,人工智能

      1、圖像識別技術的背景

    圖像識別

      移動互聯(lián)網、智能手機以及社交網絡的發(fā)展帶來了海量圖片信息,根據BI五月份的文章,Instagram每天圖片上傳量約為6000萬張;今年2月份WhatsApp每天的圖片發(fā)送量為5億張;國內的微信朋友圈也是以圖片分享為驅動。不受地域和語言限制的圖片逐漸取代了繁瑣而微妙的文字,成為了傳詞達意的主要媒介。圖片成為互聯(lián)網信息交流主要媒介的原因主要在于兩點:第一,從用戶讀取信息的習慣來看,相比于文字,圖片能夠為用戶提供更加生動、容易理解、有趣及更具藝術感的信息;第二,從圖片來源來看,智能手機為我們帶來方便的拍攝和截屏手段,幫助我們更快的用圖片來采集和記錄信息。

      但伴隨著圖片成為互聯(lián)網中的主要信息載體,難題隨之出現。當信息由文字記載時,我們可以通過關鍵詞搜索輕易找到所需內容并進行任意編輯,而當信息是由圖片記載時,我們卻無法對圖片中的內容進行檢索,從而影響了我們從圖片中找到關鍵內容的效率。圖片給我們帶來了快捷的信息記錄和分享方式,卻降低了我們的信息檢索效率。在這個環(huán)境下,計算機的圖像識別技術就顯得尤為重要。

      圖像識別是計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術。識別過程包括圖像預處理、圖像分割、特征提取和判斷匹配。簡單來說,圖像識別就是計算機如何像人一樣讀懂圖片的內容。借助圖像識別技術,我們不僅可以通過圖片搜索更快的獲取信息,還可以產生一種新的與外部世界交互的方式,甚至會讓外部世界更加智能的運行。百度李彥宏在2011年提到“全新的讀圖時代已經來臨”,現在隨著圖形識別技術的不斷進步,越來越多的科技公司開始涉及圖形識別領域,這標志著讀圖時代正式到來,并且將引領我們進入更加智能的未來。

      2、圖像識別的初級階段——娛樂化、工具化

    圖像識別

    特征碼圖像識別技術流程圖

      在這個階段,用戶主要是借助圖像識別技術來滿足某些娛樂化需求。例如,百度魔圖的“大咖配”功能可以幫助用戶找到與其長相最匹配的明星,百度的圖片搜索可以找到相似的圖片;Facebook研發(fā)了根據相片進行人臉匹配的DeepFace;雅虎收購的圖像識別公司IQ Engine開發(fā)的Glow可以通過圖像識別自動生成照片的標簽以幫助用戶管理手機上的照片;國內專注于圖像識別的創(chuàng)業(yè)公司曠視科技成立了VisionHacker游戲工作室,借助圖形識別技術研發(fā)移動端的體感游戲。 

      這個階段還有一個非常重要的細分領域——OCR(Optical Character Recognition,光學字符識別),是指光學設備檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程,就是計算機對文字的閱讀。語言和文字是我們獲取信息最基本、最重要的途徑。在比特世界,我們可以借助互聯(lián)網和計算機輕松的獲取和處理文字。但一旦文字以圖片的形式表現出來,就對我們獲取和處理文字平添了很多麻煩。這一方面表現為數字世界中由于特定原因被存儲稱圖片格式的文字;另一方面是我們在現實生活中看到的所有物理形態(tài)的文字。所以我們需要借助OCR技術將這些文字和信息提取出來。在這方面,國內產品包括百度的涂書筆記和百度翻譯等;而谷歌借助經過DistBelief 訓練的大型分布式神經網絡,對于Google 街景圖庫的上千萬門牌號的識別率超過90%,每天可識別百萬門牌號。

      在這個階段,圖像識別技術僅作為我們的輔助工具存在,為我們自身的人類視覺提供了強有力的輔助和增強,帶給了我們一種全新的與外部世界進行交互的方式。我們可以通過搜索找到圖片中的關鍵信息;可以隨手拍下一件陌生物體而迅速找到與之相關的各類信息;可以將潛在搭訕對象拍下提前去她的社交網絡了解一番;也可以將人臉識別作為主要的身份認證方式……這些應用雖然看起來很普通,但當圖像識別技術滲透到我們行為習慣的方方面面時,我們就相當于把一部分視力外包給了機器,就像我們已經把部分記憶外包給了搜索引擎一樣。

      這將極大改善我們與外部世界的交互方式,此前我們利用科技工具探尋外部世界的流程是這樣:人眼捕捉目標信息、大腦將信息進行分析、轉化成機器可以理解的關鍵詞、與機器交互獲得結果。而當圖像識別技術賦予了機器 “眼睛”之后,這個過程就可以簡化為:人眼借助機器捕捉目標信息、機器和互聯(lián)網直接對信息進行分析并返回結果。圖像識別使攝像頭成為解密信息的鑰匙,我們僅需把攝像頭對準某一未知事物,就能得到預想的答案。就像百度科學家余凱所說,攝像頭成為連接人和世界信息的重要入口之一。

      3、圖像識別的高級階段——擁有視覺的機器

      上文提到,目前的圖像識別技術是作為一個工具來幫助我們與外部世界進行交互,只為我們自身的視覺提供了一個輔助作用,所有的行動還需我們自己完成。而當機器真正具有了視覺之后,它們完全有可能代替我們去完成這些行動。目前的圖像識別應用就像是盲人的導盲犬,在盲人行動時為其指引方向;而未來的圖像識別技術將會同其他人工智能技術融合在一起成為盲人的全職管家,不需要盲人進行任何行動,而是由這個管家?guī)椭渫瓿伤惺虑椤Ee個例子,如果圖像識別是一個工具,就如同我們在駕駛汽車時佩戴谷歌眼鏡,它將外部信息進行分析后傳遞給我們,我們再依據這些信息做出行駛決策;而如果將圖像識別利用在機器視覺和人工智能上,這就如同谷歌的無人駕駛汽車,機器不僅可以對外部信息進行獲取和分析,還全權負責所有的行駛活動,讓我們得到完全解放。

    圖像識別

    人臉識別

      《人工智能:一種現代方法》中提到,在人工智能中,感知是通過解釋傳感器的響應而為機器提供它們所處的世界的信息,其中它們與人類共有的感知形態(tài)包括視覺、聽覺和觸覺,而視覺最為重要,因為視覺是一切行動的基礎。在一次論壇上百度IDL的余凱院長問大家,你覺得哪種感覺最重要?沒有人能很快作答,后來余凱院長換了個提問方式,如果要放棄一種感覺,你最不愿意放棄的是那一種?這時大家都回答是視覺。Chris Frith在《心智的構建》中提到,我們對世界的感知不是直接的,而是依賴于“無意識推理”,也就是說在我們能感知物體之前,大腦必須依據到達感官的信息來推斷這個物體可能是什么,這構成了人類最重要的預判和處理突發(fā)時間的能力。而視覺是這個過程中最及時和準確的信息獲取渠道,人類感覺信息中的80%都是視覺信息。機器視覺之于人工智能的意義就是視覺之于人類的意義,而決定著機器視覺的就是圖像識別技術。

      更重要的是,在某些應用場景,機器視覺比人類的生理視覺更具優(yōu)勢,它更加準確、客觀和穩(wěn)定。人類視覺有著天然的局限,我們看起來能立刻且毫無費力的感知世界,而且似乎也能詳細生動的感知整個視覺場景,但這只是一個錯覺,只有投射到眼球中心的視覺場景的中間部分,我們才能詳細而色彩鮮明的看清楚。偏離中間大約10度的位置,神經細胞更加分散并且智能探知光和陰影。也就是說,在我們視覺世界的邊緣是無色、模糊的。因此,我們才會存在“變化盲視”,才會在經歷著多樣事物發(fā)生時,僅僅關注其中一樣,而忽視了其他樣事物的發(fā)生,而且不知道它們的發(fā)生。而機器在這方面就有著更多的優(yōu)勢,它們能夠發(fā)現和記錄視力所及范圍內發(fā)生的所有事情。拿應用最廣的視頻監(jiān)控來說,傳統(tǒng)監(jiān)控需要有人在電視墻前時刻保持高度警惕,然后再通過自己對視頻的判斷來得出結論,但這往往會因為人的疲勞、視覺局限和注意力分散等原因影響監(jiān)控效果。但有了成熟的圖像識別技術之后,再加以人工智能的支持,計算機就可以自行對視頻進行分析和判斷,發(fā)現異常情況直接報警,帶來了更高的效率和準確度;在反恐領域,借助機器的人臉識別技術也要遠遠優(yōu)于人的主觀判斷。

      許多科技巨頭也開始了在圖像識別和人工智能領域的布局,Facebook簽下的人工智能專家Yann LeCun最重大的成就就是在圖像識別領域,其提出的LeNet為代表的卷積神經網絡,在應用到各種不同的圖像識別任務時都取得了不錯效果,被認為是通用圖像識別系統(tǒng)的代表之一;Google 借助模擬神經網絡“DistBelief”通過對數百萬份 YouTube 視頻的學習自行掌握了貓的關鍵特征,這是機器在沒有人幫助的情況下自己讀懂了貓的概念。值得一提的是,負責這個項目的Andrew NG已經轉投百度領導百度研究院,其一個重要的研究方向就是人工智能和圖像識別。這也能看出國內科技公司對圖像識別技術以及人工智能技術的重視程度。

      圖像識別技術,連接著機器和這個一無所知的世界,幫助它越發(fā)了解這個世界,并最終代替我們完成更多的任務。

     

    (審核編輯: 小王子)

    聲明:除特別說明之外,新聞內容及圖片均來自網絡及各大主流媒體。版權歸原作者所有。如認為內容侵權,請聯(lián)系我們刪除。

    主站蜘蛛池模板: 十树品牌策划—品牌战略、品牌策划、品牌定位、品牌设计、包装设计、品牌营销-上海十树品牌管理咨询有限公司官网 | 活性炭吸附设备,UV光氧废气处理设备,破碎机专用除尘器,催化燃烧设备厂家-河北碧清环保设备有限公司 | 惠声电子、广州市惠声电子科技有限公司、VBS、VBS惠声电子、VBS公共广播生产厂家、VBS广播功放生产厂家、VBS会议系统设备批发、VBSIP网络对讲系统厂家、VBS会议系统厂家、VBS智能中控厂家、VBS专业扩声厂家 | 南湖人才网_南湖招聘网_求职找工作平台| 孝感东方妇科医院_孝感妇科医院哪家好_孝感人流多少钱 | 上海网站建设-上海网站制作-网站设计-上海做网站公司-SEO优化推广-咏熠软件 | 小耳朵电源_安防监控电源|小耳朵官网|电源适配器|摄像机电源|开关电源|小耳朵监控电源 | 强德防盗门-防盗门厂家-中国防盗门十大品牌-强德门业 - 浙江臻品工贸有限公司 | 快速卷帘门-电动卷帘门-快速堆积门-快速门厂家-任丘市康速机电设备有限公司 | 长沙广告设计公司|长沙广告制作|湖南户外广告制作|商业美陈就找湖南盛翔文化传媒有限公司老品牌高品质 | 数控落地镗铣床_数控刨台式镗铣床_数控龙门加工中心-青岛辉腾机械设备有限公司 | 企业微信服务商-企业微信crm营销|认证-[朝阳企客通]一款企微管家服务型产品 | 医用空气净化消毒机,医用床单位消毒机,无磁空气消毒机,紫外线空气消毒机厂家-南昌市扬帆环保设备有限公司 | 山东岱新起重机械有限公司,单梁桥式起重机,双梁桥式起重机,通用式门式起重机,欧式起重机系列 | 驾驶洗地机|手推洗地车|天津洗地机|扫地车|仓库工厂扫地机|工业吸尘器|扫雪机|耐洁思 | 星干线艺考_导演艺考培训班_播音主持艺考_表演艺考培训班-助你考上北京电影学院影视表演系 | 西安logo设计公司/西安包装设计公司/西安画册设计公司/西安广告公司/西安品牌设计公司/泰勒广告 雾度计-雾度仪-透光率测试仪-3nh品牌雾度仪生产厂家 | 四氟瓶塞-塑料离心机-双联恒温水浴锅-常州天瑞仪器有限公司 | 郑州试驾场地_双超专业汽车试驾场地_郑州双超文化传播有限公司官方网站 | 泡沫混凝土垫层填充厂家,发泡混凝土垫层填充,轻质混凝土垫层填充厂家,深圳市鸿奥建材发展有限公司 | 长春试验机-长春凯新试验仪器_试验机研发生产 专注试验机_首页 | 无线对讲机系统-中继台-山区隧道信号覆盖-贝亚特| 罗茨鼓风机维修_三叶罗茨风机维修厂家电话_山东长沙章丘鼓风机修理_章鼓高压真空泵「上门服务」 罗茨鼓风机价格_三叶罗茨鼓风机厂家-山东锦工有限公司 | 陕西教师资格网-陕西教师资格考试网 | 土工膜_土工布_复合土工膜_山东土工膜生产厂家_山东路易达新材料有限公司 | 桥梁支座更换_桥梁检测车租赁_高空作业车出租_支座更换_伸缩缝安装_隧道防水_养护加固_维修_出租_衡水庆兴桥梁养护工程有限公司 桥梁养护|桥梁维修加固|隧道裂缝修补|支座更换|管道堵水气囊|衡水众拓路桥养护有限公司 | 铅板-济南鑫玉防辐射材料有限公司 | 生物发酵罐(细菌/植物/液体玻璃实验室发酵罐设备)CIP清洗罐,灭活罐「厂家」-安徽赛德齐瑞发酵罐品牌 | 土石_泥石分离机_无轴滚筒筛_振动筛 - 巩义市鑫利重工机械制造有限公司 | 上海舞台灯光音响租赁搭建线阵_年会演出摇头光束面光灯出租_led电子显示屏出租-上海led大屏幕租赁 | 江西食用油批发_江西食用油厂家_菜籽油厂家-江西省家泰粮油科技有限公司 | 石墨热场|PECVD石墨舟|碳碳框|燃料电池双极板|半导体石墨|光纤用石墨模具|石墨电极加工|石墨制品|上海弘竣新能源材料有限公司 | 文君阁-提供生活百科,日常生活健康小常识,生活小窍门,百科知识大全 | 粮食烘干机|玉米烘干机|稻谷烘干机|小麦烘干机|大型连续烘干塔|500吨连续烘干塔|钢板仓|-郑州新光矿山机械制造有限公司 | 送料机-冲床送料机-伺服送料机 - 常州市佳王精密机械有限公司 | 七评-爱美儿信息科技有限公司〖官网〗? | 银联POS机_银联微信支付宝刷卡POS机_外币POS机_移动POS机办理安装——谷骐科技 | 徐州户外广告,标识标牌,展陈空间,精神堡垒-徐州雅努思文化发展有限公司 | 生物柴油_油酸甲酯厂家_脂肪酸甲酯_植物油燃料-中凯化工 | 湖南长沙智能实验室规划设计、整体建设、净化装修、改造施工公司-福临建设 | 苏州宣传片制作_企业展厅设计_博物馆设计_展馆设计_方行舟设计公司 |