智汇工业-智慧工业、智能制造及工业智能、工业互联门户网站,专业的工业“互联网+”传媒

不再是睜眼瞎子:圖像識別技術(shù)的現(xiàn)狀和未來

來源:網(wǎng)絡(luò)

點(diǎn)擊:1328

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞: 圖像識別,人工智能

     

     

    圖像識別

      移動(dòng)互聯(lián)網(wǎng)、智能手機(jī)以及社交網(wǎng)絡(luò)的發(fā)展帶來了海量圖片信息,根據(jù)BI五月份的文章,Instagram每天圖片上傳量約為6000萬張;今年2月份WhatsApp每天的圖片發(fā)送量為5億張;國內(nèi)的微信朋友圈也是以圖片分享為驅(qū)動(dòng)。不受地域和語言限制的圖片逐漸取代了繁瑣而微妙的文字,成為了傳詞達(dá)意的主要媒介。圖片成為互聯(lián)網(wǎng)信息交流主要媒介的原因主要在于兩點(diǎn):第一,從用戶讀取信息的習(xí)慣來看,相比于文字,圖片能夠?yàn)橛脩籼峁└由鷦?dòng)、容易理解、有趣及更具藝術(shù)感的信息;第二,從圖片來源來看,智能手機(jī)為我們帶來方便的拍攝和截屏手段,幫助我們更快的用圖片來采集和記錄信息。

      但伴隨著圖片成為互聯(lián)網(wǎng)中的主要信息載體,難題隨之出現(xiàn)。當(dāng)信息由文字記載時(shí),我們可以通過關(guān)鍵詞搜索輕易找到所需內(nèi)容并進(jìn)行任意編輯,而當(dāng)信息是由圖片記載時(shí),我們卻無法對圖片中的內(nèi)容進(jìn)行檢索,從而影響了我們從圖片中找到關(guān)鍵內(nèi)容的效率。圖片給我們帶來了快捷的信息記錄和分享方式,卻降低了我們的信息檢索效率。在這個(gè)環(huán)境下,計(jì)算機(jī)的圖像識別技術(shù)就顯得尤為重要。

      圖像識別是計(jì)算機(jī)對圖像進(jìn)行處理、分析和理解,以識別各種不同模式的目標(biāo)和對像的技術(shù)。識別過程包括圖像預(yù)處理、圖像分割、特征提取和判斷匹配。簡單來說,圖像識別就是計(jì)算機(jī)如何像人一樣讀懂圖片的內(nèi)容。借助圖像識別技術(shù),我們不僅可以通過圖片搜索更快的獲取信息,還可以產(chǎn)生一種新的與外部世界交互的方式,甚至?xí)屚獠渴澜绺又悄艿倪\(yùn)行。百度李彥宏在2011年提到“全新的讀圖時(shí)代已經(jīng)來臨”,現(xiàn)在隨著圖形識別技術(shù)的不斷進(jìn)步,越來越多的科技公司開始涉及圖形識別領(lǐng)域,這標(biāo)志著讀圖時(shí)代正式到來,并且將引領(lǐng)我們進(jìn)入更加智能的未來。

      2、圖像識別的初級階段——娛樂化、工具化

     

     

      在這個(gè)階段,用戶主要是借助圖像識別技術(shù)來滿足某些娛樂化需求。例如,百度魔圖的“大咖配”功能可以幫助用戶找到與其長相最匹配的明星,百度的圖片搜索可以找到相似的圖片;Facebook研發(fā)了根據(jù)相片進(jìn)行人臉匹配的DeepFace;雅虎收購的圖像識別公司IQ Engine開發(fā)的Glow可以通過圖像識別自動(dòng)生成照片的標(biāo)簽以幫助用戶管理手機(jī)上的照片;國內(nèi)專注于圖像識別的創(chuàng)業(yè)公司曠視科技成立了VisionHacker游戲工作室,借助圖形識別技術(shù)研發(fā)移動(dòng)端的體感游戲。 

      這個(gè)階段還有一個(gè)非常重要的細(xì)分領(lǐng)域——OCR(Optical Character Recognition,光學(xué)字符識別),是指光學(xué)設(shè)備檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計(jì)算機(jī)文字的過程,就是計(jì)算機(jī)對文字的閱讀。語言和文字是我們獲取信息最基本、最重要的途徑。在比特世界,我們可以借助互聯(lián)網(wǎng)和計(jì)算機(jī)輕松的獲取和處理文字。但一旦文字以圖片的形式表現(xiàn)出來,就對我們獲取和處理文字平添了很多麻煩。這一方面表現(xiàn)為數(shù)字世界中由于特定原因被存儲稱圖片格式的文字;另一方面是我們在現(xiàn)實(shí)生活中看到的所有物理形態(tài)的文字。所以我們需要借助OCR技術(shù)將這些文字和信息提取出來。在這方面,國內(nèi)產(chǎn)品包括百度的涂書筆記和百度翻譯等;而谷歌借助經(jīng)過DistBelief 訓(xùn)練的大型分布式神經(jīng)網(wǎng)絡(luò),對于Google 街景圖庫的上千萬門牌號的識別率超過90%,每天可識別百萬門牌號。

      在這個(gè)階段,圖像識別技術(shù)僅作為我們的輔助工具存在,為我們自身的人類視覺提供了強(qiáng)有力的輔助和增強(qiáng),帶給了我們一種全新的與外部世界進(jìn)行交互的方式。我們可以通過搜索找到圖片中的關(guān)鍵信息;可以隨手拍下一件陌生物體而迅速找到與之相關(guān)的各類信息;可以將潛在搭訕對象拍下提前去她的社交網(wǎng)絡(luò)了解一番;也可以將人臉識別作為主要的身份認(rèn)證方式……這些應(yīng)用雖然看起來很普通,但當(dāng)圖像識別技術(shù)滲透到我們行為習(xí)慣的方方面面時(shí),我們就相當(dāng)于把一部分視力外包給了機(jī)器,就像我們已經(jīng)把部分記憶外包給了搜索引擎一樣。

      這將極大改善我們與外部世界的交互方式,此前我們利用科技工具探尋外部世界的流程是這樣:人眼捕捉目標(biāo)信息、大腦將信息進(jìn)行分析、轉(zhuǎn)化成機(jī)器可以理解的關(guān)鍵詞、與機(jī)器交互獲得結(jié)果。而當(dāng)圖像識別技術(shù)賦予了機(jī)器 “眼睛”之后,這個(gè)過程就可以簡化為:人眼借助機(jī)器捕捉目標(biāo)信息、機(jī)器和互聯(lián)網(wǎng)直接對信息進(jìn)行分析并返回結(jié)果。圖像識別使攝像頭成為解密信息的鑰匙,我們僅需把攝像頭對準(zhǔn)某一未知事物,就能得到預(yù)想的答案。就像百度科學(xué)家余凱所說,攝像頭成為連接人和世界信息的重要入口之一。

      3、圖像識別的高級階段——擁有視覺的機(jī)器

      上文提到,目前的圖像識別技術(shù)是作為一個(gè)工具來幫助我們與外部世界進(jìn)行交互,只為我們自身的視覺提供了一個(gè)輔助作用,所有的行動(dòng)還需我們自己完成。而當(dāng)機(jī)器真正具有了視覺之后,它們完全有可能代替我們?nèi)ネ瓿蛇@些行動(dòng)。目前的圖像識別應(yīng)用就像是盲人的導(dǎo)盲犬,在盲人行動(dòng)時(shí)為其指引方向;而未來的圖像識別技術(shù)將會(huì)同其他人工智能技術(shù)融合在一起成為盲人的全職管家,不需要盲人進(jìn)行任何行動(dòng),而是由這個(gè)管家?guī)椭渫瓿伤惺虑椤Ee個(gè)例子,如果圖像識別是一個(gè)工具,就如同我們在駕駛汽車時(shí)佩戴谷歌眼鏡,它將外部信息進(jìn)行分析后傳遞給我們,我們再依據(jù)這些信息做出行駛決策;而如果將圖像識別利用在機(jī)器視覺和人工智能上,這就如同谷歌的無人駕駛汽車,機(jī)器不僅可以對外部信息進(jìn)行獲取和分析,還全權(quán)負(fù)責(zé)所有的行駛活動(dòng),讓我們得到完全解放。

    圖像識別

    人臉識別

      《人工智能:一種現(xiàn)代方法》中提到,在人工智能中,感知是通過解釋傳感器的響應(yīng)而為機(jī)器提供它們所處的世界的信息,其中它們與人類共有的感知形態(tài)包括視覺、聽覺和觸覺,而視覺最為重要,因?yàn)橐曈X是一切行動(dòng)的基礎(chǔ)。在一次論壇上百度IDL的余凱院長問大家,你覺得哪種感覺最重要?沒有人能很快作答,后來余凱院長換了個(gè)提問方式,如果要放棄一種感覺,你最不愿意放棄的是那一種?這時(shí)大家都回答是視覺。Chris Frith在《心智的構(gòu)建》中提到,我們對世界的感知不是直接的,而是依賴于“無意識推理”,也就是說在我們能感知物體之前,大腦必須依據(jù)到達(dá)感官的信息來推斷這個(gè)物體可能是什么,這構(gòu)成了人類最重要的預(yù)判和處理突發(fā)時(shí)間的能力。而視覺是這個(gè)過程中最及時(shí)和準(zhǔn)確的信息獲取渠道,人類感覺信息中的80%都是視覺信息。機(jī)器視覺之于人工智能的意義就是視覺之于人類的意義,而決定著機(jī)器視覺的就是圖像識別技術(shù)。

      更重要的是,在某些應(yīng)用場景,機(jī)器視覺比人類的生理視覺更具優(yōu)勢,它更加準(zhǔn)確、客觀和穩(wěn)定。人類視覺有著天然的局限,我們看起來能立刻且毫無費(fèi)力的感知世界,而且似乎也能詳細(xì)生動(dòng)的感知整個(gè)視覺場景,但這只是一個(gè)錯(cuò)覺,只有投射到眼球中心的視覺場景的中間部分,我們才能詳細(xì)而色彩鮮明的看清楚。偏離中間大約10度的位置,神經(jīng)細(xì)胞更加分散并且智能探知光和陰影。也就是說,在我們視覺世界的邊緣是無色、模糊的。因此,我們才會(huì)存在“變化盲視”,才會(huì)在經(jīng)歷著多樣事物發(fā)生時(shí),僅僅關(guān)注其中一樣,而忽視了其他樣事物的發(fā)生,而且不知道它們的發(fā)生。而機(jī)器在這方面就有著更多的優(yōu)勢,它們能夠發(fā)現(xiàn)和記錄視力所及范圍內(nèi)發(fā)生的所有事情。拿應(yīng)用最廣的視頻監(jiān)控來說,傳統(tǒng)監(jiān)控需要有人在電視墻前時(shí)刻保持高度警惕,然后再通過自己對視頻的判斷來得出結(jié)論,但這往往會(huì)因?yàn)槿说钠凇⒁曈X局限和注意力分散等原因影響監(jiān)控效果。但有了成熟的圖像識別技術(shù)之后,再加以人工智能的支持,計(jì)算機(jī)就可以自行對視頻進(jìn)行分析和判斷,發(fā)現(xiàn)異常情況直接報(bào)警,帶來了更高的效率和準(zhǔn)確度;在反恐領(lǐng)域,借助機(jī)器的人臉識別技術(shù)也要遠(yuǎn)遠(yuǎn)優(yōu)于人的主觀判斷。

      許多科技巨頭也開始了在圖像識別和人工智能領(lǐng)域的布局,F(xiàn)acebook簽下的人工智能專家Yann LeCun最重大的成就就是在圖像識別領(lǐng)域,其提出的LeNet為代表的卷積神經(jīng)網(wǎng)絡(luò),在應(yīng)用到各種不同的圖像識別任務(wù)時(shí)都取得了不錯(cuò)效果,被認(rèn)為是通用圖像識別系統(tǒng)的代表之一;Google 借助模擬神經(jīng)網(wǎng)絡(luò)“DistBelief”通過對數(shù)百萬份 YouTube 視頻的學(xué)習(xí)自行掌握了貓的關(guān)鍵特征,這是機(jī)器在沒有人幫助的情況下自己讀懂了貓的概念。值得一提的是,負(fù)責(zé)這個(gè)項(xiàng)目的Andrew NG已經(jīng)轉(zhuǎn)投百度領(lǐng)導(dǎo)百度研究院,其一個(gè)重要的研究方向就是人工智能和圖像識別。這也能看出國內(nèi)科技公司對圖像識別技術(shù)以及人工智能技術(shù)的重視程度。

      圖像識別技術(shù),連接著機(jī)器和這個(gè)一無所知的世界,幫助它越發(fā)了解這個(gè)世界,并最終代替我們完成更多的任務(wù)。

     

     

    圖像識別

    特征碼圖像識別技術(shù)流程圖

     

      1、圖像識別技術(shù)的背景

    (審核編輯: 小王子)

    聲明:除特別說明之外,新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請聯(lián)系我們刪除。

    主站蜘蛛池模板: 监控工程,安防监控公司,北京监控安装,北京安装监控,安装摄像头,北京监控维保,监控施工,北京监控维修,监控弱电工程,监控器安装,监控维护保养,监控工程设计,北京监控设备维修,监控报警安装,北京北方合力科技有限公司 | 捷胜通运|超大件双清专线|欧美专线|订舱|订柜|订船|双清包税|纯电池运输|液体粉末专线| | 医用空气净化消毒机,医用床单位消毒机,无磁空气消毒机,紫外线空气消毒机厂家-南昌市扬帆环保设备有限公司 | 无锡艾迅自动化科技ASCO电磁阀-dwyer/topworx代理-上泰仪表代理商 | 全自动滤水器_射水抽气器_气液两相流疏水器-连云港神美电力辅机有限公司 | 上饶环亚电脑会计培训学校--电脑学校|上饶电脑学校|上饶电脑培训|会计培训|上饶会计培训|上饶县会计培训|广丰会计培训|玉山会计培训|横峰会计培训|上饶网店培训 上进电缆(嘉兴)股份有限公司官网 - 光伏电缆|防火电缆|电力电缆|铝合金电缆专业生产厂家 | 浙江云野科技有限公司_智慧旅游规划_智慧景区管理系统_全域旅游解决方案-云野科技旅游大数据管理平台 | 宁波必沃纺织机械有限公司—优质针织电脑横机专业制造商 | 亿企商贸-亿万企业的商务贸易平台-B2B企业产品发布供求信息平台,一带一路中国企业及产品展示平台,免费企业智能自助建站网络营销推广平台,打造B2B企业黄页产品信息发布推广专业综合电子商务平台! | 锯骨机-砍排机-全自动锯骨机-商用砍排机-切丁机 - 广州市九盈机械设备有限公司 | 深圳办公室装修_设计_实景_效果图_哪家好-公装装饰公司 | 正大制管-优质钢管制造商和服务商 | 南通搬运公司|吊车租赁|大件吊装|设备搬运|工厂搬迁|起重吊装搬运-顺林搬运 | 吸污车|吸粪车|冷藏车|消防车|清障车|环卫垃圾车价格|湖北程力汽车集团厂家销售公司 | 无锡大型数控龙门铣加工中心,精密焊接件制造,机械设备加工-无锡嘉迅机械科技有限公司 | 液位变送器_智能压力变送器_3051差压变送器_单双法兰,投入式,电容式,温度变送器-淮安润中仪表科技有限公司 | 输送机_山东输送机厂家-山东中输输送机械有限公司 | 一体式电磁流量计_分体式电磁流量计_卫生级电磁流量计_卫生型电磁流量计_电池供电电磁流量计_卡箍式电磁流量计_废水电磁流量计_德克森仪表(淮安)有限公司官网 | 麦秸映像网络技术有限公司,河南省政府采网入驻对接,新乡网站维护建设,小程序开发,APP定制开发,钉钉开发,新乡软件开发等相关网络业务 | 江苏工业双氧水_工业亚硝酸钠的作用与用途_工业双氧水厂家-江苏连云港嘉一化工厂 | 景县泉兴永塔业有限公司-广播电视塔、通信塔、电力塔、交通设施、监控杆塔、气象塔、森林防火瞭望塔、避雷塔、烟筒塔、训练塔 | 铸铁平台,三维柔性焊接平台,划线平台,大理石平台,检验平板,花岗石平台_泊头市恒量机械设备有限公司 | 水环式真空泵-旋片式真空泵-上海飞鲁泵业科技有限公司 | 江门市东信科技 - 江门小程序开发,江门网站制作,江门软件开发,江门app开发 | 河北撒旺肥业有限公司| 天津代办营业执照_注册公司_代理记账_代办注销_地址变更-谷骐科技 | 览众房车,房车, 房车厂家, 房车价格, 房车图片,, 四驱房车, 皮卡房车, 越野房车, 依维柯房车, 国产房车, 自动挡房车, | 学校直饮水机-反渗透纯水设备-家用净水器厂家-广州颖圣能源设备 学校洗碗机-郑州洗碗机厂家-商用洗碗机-郑州旭申环保科技有限公司 | 南昌今工科技有限公司| 上海互动多媒体公司_上海触摸屏软件开发_上海互动投影开发_上海VR虚拟现实制作_上海全息投影制作_上海互动轨道屏制作—盟邑数字 上海浩斌信息科技有限公司RFID读写器,IC卡读卡器,手持机,数据采集终端,电力仓库管理软件开发,固定资产软件,纱管标签,试剂管理,RFID试剂柜,档案管理,档案柜,智能货架 | 专业儿童感统训练机构-武汉优佳加智能教育[官网] | 菏泽代理公司|菏泽代办公司|菏泽公司注册|公司变更注销 | 日职联直播_日职联免费视频直播_日职联直播在线观看无插件-24直播网 | 威海实木家具-威海定制家具-威海家具-威海至佳百隆家具有限公司 威海木箱,威海木托盘,威海免熏蒸包装箱-威海耀晟木制品有限公司 | 郑州课桌椅|学生课桌椅|升降课桌椅批发|厂家|价格-新科教育用品 郑州井盖雨水篦子厂家-建联建材 | 青浦区摄像头安装/青浦区无线网络覆盖/青浦区网络调试公司/青浦区IT外包公司/金山区网络维护公司/金山区防火墙调试公司 | 卡压式管件_不锈钢卡压式管件_双卡压管件_不锈钢沟槽管件_承插焊管件_温州市中达阀门管件有限公司 | 吸气式感烟火灾探测器|极早期烟雾系统|空气采样报警|拓普兰 | -盐城市精工阀门有限公司 | 食品甲醛测定仪,啤酒甲醛测定仪,食盐碘测定仪,食品细菌检验仪,水质细菌检验仪-厦门欣锐仪器仪表有限公司 | 山东万通液压股份有限公司-自卸车专用油缸,能源采掘设备油缸,机械装备用油缸,油气弹簧,工程机械油缸,液压元件 |