觀點計算機視覺到底是個什麼鬼？

翻譯 | ai科技大本營（rgznai100）

參與 | joe

房間的那一邊，乙個人衝你扔了乙個球，你接住了。看上去特別簡單，對吧？

事實上，嘗試去全面理解的話，這是我們所見過的最為複雜的過程之一，先不說如何再現它。發明乙個能像我們一樣去觀察周圍的機器是極其困難的，不只是因為計算機模仿起來很難，還是因為我們自己都沒有完全弄懂人類是如何做到這事的。

剛剛那個過程大致是這樣發生的：球的影象經過眼球，落在視網膜上：在這個過程當中做了一些基本的分析，並把分析傳送到大腦（在大腦裡面，視覺皮層會徹底地分析這個影象）。之後再把它傳送到大腦皮層的其他部位，然後將它和已知的一切進行對比，再按照物件和維度進行分類，最後做出反應：舉起手，抓住球(已經**了它的路徑)。整個過程不到一秒，幾乎沒有意識的參與，也從不會出錯。因此，重建人類的視覺並不是單單乙個難題，而是一組，其中的每乙個都與另乙個相關聯。

當然，沒有人說過這很容易。除了這位人工智慧先驅：marvin minsky，他在2023年曾指導過一名研究生，將攝像機連線到電腦上，描述出它所看到的東西。可憐的娃:50年過去了，我們還在做這件事。

50年代開始，開始了以下三個方面的正式研究：模擬眼睛(困難)；模擬視覺皮層(非常困難)；模擬大腦的其他部分(可以說是有史以來最困難的問題)

模擬眼睛是我們成就最大的領域。過去的幾十年間，我們創造了感測器和影象處理器，它們甚至在某些方面超過了人眼能力。奈米範圍內，配備更大光學鏡片和半導體亞畫素的現代相機，其精度和靈敏度都非常不可思議。相機還可以每秒記錄數千張影象，並能精確地探測距離。

數位相機內的影象感測器

然而，儘管這些裝置的輸出做到了高度保真，但在許多方面比19世紀的針孔相機也沒有先進多少。它們僅記錄了特定方向的光子分布。即便是最好的相機感測器也無法識別出球，更別說抓到它了。

換句話說，沒有軟體，硬體的能力也是非常有限的，而這才是最大的問題。但現代攝影技術確實提供了乙個可供選擇的方向。

這裡並不是想講解完整的視覺神經解剖學課程，而是想說我們的大腦的反應過程是先看見，然後嘴巴才能說出來。大腦更專注於視覺任務而非其他，其他細胞的工作也是如此。億萬細胞一同工作，從視網膜發出的雜亂無序的訊號中提取資訊。

當沿著某一特定角度或特定方向快速運動時，神經元就會相互激發。高階網路將這些聚合為元模式：乙個圓圈，向上移動著。另乙個網路則構成：圓圈是白色的，有紅色的線。另乙個:它在變大。一幅影象就這樣從這些粗糙但互補的描述中組合出來。

大腦的視覺區域，會利用「定向梯度的直方圖」模式，找到物體邊緣和其他特徵

考慮到這些網路的複雜性，計算機視覺的早期研究採取了一種不同的方法:「自上而下」的推理— 一本書是「這樣的」，記住現在的樣子，除非轉到另一側，它看起來更像是「這樣」。一輛車看起來是「這樣的」，移動起來時，是「這樣的」。

我們很難想出乙個定義來解釋大腦是如何工作的，更不用說模擬它了。

對於給定情景下的物體，還能做到，但想象一下，要從不同的角度，描述周圍的每乙個物體，光照，運動變化，還有其他很多很多東西。顯然，即便是要達到兒童的認知水平，就需要大量的資料。

用「自下而上」模擬大腦處理視覺資訊的過程，看起來更有希望。計算機可以將呈現的多張做一系列的轉換，處理成影象，並分辨出邊緣、暗處、透視和運動等。這些過程涉及大量的數學和統計資料，這相當於計算機要盡力把看到的形狀和之前被訓練時識別過的形狀進行匹配，就像我們大腦的處理過程一樣。

上圖所示的影象(來自普渡大學的電子實驗室)表明：

通過計算，計算機顯示出在某種程度上，目標物體的形狀和表現和其他類似物體很相近

自下向上結構的支持者可能會說「我早就這麼告訴過你」。最近幾年，建立和執行人工神經網路是不切實際的，因為他們需要大量的計算。而平行計算的進步則突破了這些障礙，過去幾年，在用系統模擬大腦方面的研究取得了**式的進展，這些系統和我們大腦中的系統非常相似。模式識別的過程不斷加快，我們每天都在取得更大的進步。

當然，你可以建立乙個系統，它能識別各種各樣的蘋果，任何角度，任何情景，靜止的或是運動，被咬了一口，或任何情況下的蘋果。但它不能識別橘子。它甚至不能告訴你蘋果是什麼，它是否可以食用，它有多大，或者它的用途是什麼。

問題就在於，再好的軟體和硬體，沒有作業系統的參與，也毫無用處。

於我們而言，說的就是我們的大腦：短期和長期記憶，其他感官的輸入，注意力和認知，億萬年進化過程中內化而來的經驗教訓，以一種我們幾乎無法理解的方式寫入了大腦神經網路，這比以往遇到的任何事情都要複雜難懂。

計算機視覺的未來在於將已創造出的具體且強大的系統與更廣泛的系統整合後的更大發揮。

這是電腦科學前沿技術與更普遍的人工智慧交匯的地方，也是我們正在發力攻克的領域。計算機科學家、工程師、心理學家、神經學家和哲學家的工作中，都無法找到任何關於大腦如何工作的定義，模擬也就不在**之列了。

但這並不意味著我們窮途末路。計算機視覺的未來在於將我們所建立的強大但具體的系統與更廣泛的系統整合在一起，這些系統將更專注於概念理解：背景、注意力、意圖等。

也就是說，儘管計算機視覺在萌芽時期，但是它也是非常有用。它出現在相機裡，能識別人臉微笑。它出現在自動駕駛汽車裡，能識別交通標誌，觀察行人。它出現在工廠機械人裡，能監控問題，並協助人類工作。讓計算機擁有人類的視覺，實現這個目標任重道遠。不過考慮到目前已有進展給世界帶來的變化，如果真到了那一天，簡直就太奇妙了。

作者 | devin coldewey

觀點計算機視覺到底是個什麼鬼？

IPU到底是個什麼鬼？

volatile到底是個什麼鬼詳解

關於Redux到底是個什麼鬼

觀點 計算機視覺到底是個什麼鬼？

IPU到底是個什麼鬼？

volatile到底是個什麼鬼 詳解

關於Redux到底是個什麼鬼

相關推薦

觀點計算機視覺到底是個什麼鬼？

volatile到底是個什麼鬼詳解