計(jì)算機(jī)視覺如何突破困局？

2019-02-17 13:39:42

近期，計(jì)算機(jī)視覺奠基者之一，霍金的弟子，約翰霍普金斯大學(xué)教授Alan Yuille提出“深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的瓶頸已至?！?/p>

　　從人工智能的發(fā)展過程看，深度學(xué)習(xí)是繼專家系統(tǒng)之后人工智能應(yīng)用的又一重要研究領(lǐng)域，也是人工智能和神經(jīng)計(jì)算的核心研究課題之一。Alan Yuille認(rèn)為，現(xiàn)在做AI不提神經(jīng)網(wǎng)絡(luò)，成果都很難發(fā)表了，這不是一個(gè)好勢頭。如果人們只追求神經(jīng)網(wǎng)絡(luò)的潮流，拋棄所有老方法，也不去想如何應(yīng)對深度網(wǎng)絡(luò)的局限性，那么這個(gè)領(lǐng)域可能很難有更好的發(fā)展。

　　深度學(xué)習(xí)確實(shí)是一個(gè)讓人向往的技術(shù)，這無可辯駁。其實(shí)，神經(jīng)網(wǎng)絡(luò)這個(gè)概念自上個(gè)世紀(jì)60年代就已經(jīng)出現(xiàn)了，只是因?yàn)樽罱诖髷?shù)據(jù)、計(jì)算機(jī)性能上面出現(xiàn)的飛躍，使得它真正變得有用起來，由此也衍生出來一門叫做“深度學(xué)習(xí)”的專業(yè)，當(dāng)前國內(nèi)涉及計(jì)算機(jī)視覺領(lǐng)域中，越來越多的人工智能公司或者研究機(jī)構(gòu)投身到“深度學(xué)習(xí)”的浪潮中了，國內(nèi)誕生了如曠視科技、商湯科技、極鏈科技Video++、依圖科技等優(yōu)秀的初創(chuàng)AI企業(yè)。旨在將復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)應(yīng)用在數(shù)據(jù)建模上，最終帶來前所未有的準(zhǔn)確性。

　　現(xiàn)在的技術(shù)開發(fā)成果也確實(shí)讓人印象深刻。計(jì)算機(jī)現(xiàn)在可以辨識圖片和視頻里的東西都是什么，可以將語音轉(zhuǎn)化成為文字，其效率已經(jīng)超過了人力范疇。Google也將GoogleTranslate服務(wù)中添加了神經(jīng)網(wǎng)絡(luò)，現(xiàn)在的機(jī)器學(xué)習(xí)在翻譯水平上已經(jīng)逐步逼近人工翻譯?，F(xiàn)實(shí)中的一些應(yīng)用也讓人大開眼界，就比如說計(jì)算機(jī)可以預(yù)測農(nóng)田作物產(chǎn)量，其準(zhǔn)確性比美國農(nóng)業(yè)部還高。機(jī)器還能更加精準(zhǔn)的診斷癌癥，其準(zhǔn)確度也比從醫(yī)多年的老醫(yī)師還要高。

　　美國國防部高級研究計(jì)劃局的一名負(fù)責(zé)人John Lauchbury形容如今人工智能領(lǐng)域內(nèi)存在著三股浪潮：

　　第一股浪潮：知識庫，或是類似于IBM所開發(fā)的“深藍(lán)”和Waston專家系統(tǒng)。

　　第二股浪潮：數(shù)據(jù)學(xué)習(xí)，包括了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。

　　第三股浪潮：情境適應(yīng)，其中涉及通過利用少量數(shù)據(jù)，在現(xiàn)實(shí)生活中構(gòu)建出一個(gè)可靠的，解釋型的模型。

　　從這三股浪潮中，可以發(fā)現(xiàn)目前深度學(xué)習(xí)算法的研究工作進(jìn)展不錯(cuò)。

　　但深度學(xué)習(xí)的成果是建立在極其苛刻的前提條件之上。

　　不管是“監(jiān)督學(xué)習(xí)”，亦或者是“強(qiáng)化學(xué)習(xí)”，它們都需要大量的數(shù)據(jù)進(jìn)行支撐，而且在提前計(jì)劃上面表現(xiàn)的非常差，只能做某些最簡單直接的模式辨認(rèn)工作。

　　相比之下，人就能夠從極少數(shù)的例子上學(xué)到有價(jià)值的信息，并且善于在時(shí)間跨度很長的計(jì)劃，在針對某個(gè)情境上有能力自己建造一個(gè)抽象模型，并利用這樣的模型來做站在最高處的歸納總結(jié)。

　　以自動駕駛汽車為例，如果你是采用的“監(jiān)督學(xué)習(xí)路徑”，那么你需要從汽車駕駛的情境中提取海量的數(shù)據(jù)，而且還要以明確標(biāo)示出來的“動作標(biāo)簽”進(jìn)行分類挑揀，比如“停止”“行駛”等。再接下來，你還需要訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)，使得它能夠從眼下的情景和所與之相對應(yīng)的行動之間構(gòu)建因果聯(lián)系。

　　如果你是采用的“強(qiáng)化學(xué)習(xí)路徑”，那么你應(yīng)該給算法一個(gè)目標(biāo)，讓它能夠獨(dú)立地判斷當(dāng)下最優(yōu)解是什么，電腦在不同的情境之下，為了實(shí)現(xiàn)避免撞車的這個(gè)動作，它估計(jì)要宕機(jī)上幾千次。雖然現(xiàn)在已經(jīng)有了比較大的進(jìn)展，一些神經(jīng)網(wǎng)絡(luò)可以從數(shù)據(jù)層面，在相當(dāng)大的樣本數(shù)量上給出一個(gè)驚人的成果，但是它們?nèi)绻麊为?dú)拿出一個(gè)出來，還是不可靠的，所犯的錯(cuò)誤也是人一輩子都不可能犯的。

　　數(shù)據(jù)質(zhì)量的不穩(wěn)定性帶來的是不可靠、不準(zhǔn)確，以及不公平。同樣，輸出的結(jié)果，還得取決于輸入的數(shù)據(jù)質(zhì)量如何。神經(jīng)網(wǎng)絡(luò)中如果輸入的數(shù)據(jù)是不準(zhǔn)確的，不完整的，那么結(jié)果也會錯(cuò)的離譜，有些時(shí)候會造成巨大的損失。不要小看這樣的風(fēng)險(xiǎn)，錯(cuò)誤的輸出可能會造成極大的危害，以GAN為例，有一些不軌之徒可以以一種人類肉眼無法識別的方式篡改圖片，讓機(jī)器錯(cuò)誤的辨識圖片。篡改的圖片和最初的圖片在我們看來可能是一致的，但是無人駕駛汽車中，汽車就會受到威脅。

　　深度學(xué)習(xí)依然存在瓶頸，但目前它要發(fā)揮的作用所需要的前置條件太過苛刻，輸入數(shù)據(jù)對其最終的結(jié)果有著決定性的影響。如果要真正達(dá)到理想中的人工智能，這些瓶頸還有待于人們的進(jìn)一步突破。

新聞動態(tài)

計(jì)算機(jī)視覺如何突破困局？

關(guān)于

產(chǎn)品

場景方案

智能算法

FAQ

平臺管理入口

新聞動態(tài)

計(jì)算機(jī)視覺如何突破困局？

關(guān)于

產(chǎn)品

場景方案

智能算法

FAQ

平臺管理入口

計(jì)算機(jī)視覺如何突破困局？