視覺研究領域歷史回顧與介紹

資訊**的原因，部分是因為我們有網際網路作為資訊的載體，另一部分的原因是感測器，我們的感測器甚至比人還多。我們每個人都拿著一部智慧型手機，大街上跑的車也有行車記錄儀，所以感測器確實引起了視覺資訊的大爆發。

計算機視覺是乙個與很多領域密切關聯的學科，b站李飛飛231n 課程針對的是更專的領域，它的模型和應用範圍都更具針對性（對比231a課程），模型方面，我們只討論神經網路；應用範圍方面，我們基本只針對視覺識別。

五億四千萬年前，地球是一鍋非常平靜的水，有非常簡單的生物圈，而所謂的動物就只是漂在水裡，它們進食的方式就是張著嘴漂著，等著嘴邊的事物撞進來，然後張開嘴吞下去就好了，也沒有很多種類的生物。但是奇怪的事情發生了，從化石研究來看，物種數量突然地就爆發了，生物學家稱之為speciation（進化**/寒武紀生命大爆發）。突然間由於某種原因，生物開始變得多樣化，它們展現出非常複雜的形態，出現了肉食動物，獵食者們進化出各種各樣的工具來幫助自己生存。到底是什麼力量觸發了這一切？這是一樁懸案，可能是小行星撞地球、環境變遷之類的原因。乙個有說服力的理論，是andrew parker（澳大利亞現代地質學家）研究了很多化石後提出的：這一切都源於眼睛的出現。第乙個先驅進化出了非常簡陋的眼睛，也就和針孔相機差不多，只能捕捉到光線，感受到一點環境資訊。突然之間，生活不再那麼平淡，因為有了眼睛之後，第一件事就是可以去捕食食物，你現在知道食物在**了，你不再是水裡的瞎子了。而當你能去抓食物，你猜怎麼著？那些食物最好趕緊長出眼睛來，從你身邊跑掉，否則它們就掛了，所以第一只有眼睛的動物，它們簡直就像進了谷歌公司的自助餐廳，它擁有最美好的時光，什麼都隨便它吃。因為這些眼睛的出現，生物展開了「裝備競賽」，每種動物都得學著去弄出點什麼，掙扎求存。在這種突然的物種爆發中，，出現了捕食者和**食者。所以，這就是五億四千萬年前，視覺出現時的情景，視力不僅僅是「出現」而已，實際上它是進化大爆發的主要驅動力。

視覺領域另一項非常重要的突破，在工程技術方面，發生在文藝復興時期，由達文西這個傳奇人物發明。在文藝復興之前，全球各地的文明，從亞洲到歐洲、美洲、非洲，我們曾經見識過照相機的模型，亞里斯多德曾經用樹葉製作相機的過程，中國先賢墨子曾經用帶小孔的盒子製作過相機。但如果你去了解第乙份描述現代照相機原理的資料，你會找到「照相暗盒」，是由達文西描述的，那麼這就是現代視覺工程技術的開端了，我們開始想要「複製這個世界」，我們希望能為看到的世界留下乙份視覺拷貝，不過這並沒有涉及到試圖去理解看到的資訊，這時候我們只是在複製我們看到的資訊。

生物的大腦如何處理視覺資訊的？（並非工程技術領域而是科學領域知識~）我們現在知道了，我們用了5.4億年進化出了如今非常神奇的視覺系統，那麼這5.4億年到底進化了什麼，從三葉蟲的眼睛到人類的眼睛，到底經歷了什麼樣的變遷，我們到底用著什麼樣的架構？哈佛進行了一項重要的研究，他們找來乙隻清醒的但是被麻醉了的貓，並製作一根電極探針，開啟了貓的頭骨，將這根針插入貓的大腦內的基礎視覺皮質層中，這部分神經元處理著和視覺相關的大量工作，但是此前我們並不知道基礎視覺皮質層到底做著什麼樣的工作，我們只知道它負責在眼睛看到東西後，整個視覺處理流程的前期部分，有難以計數的神經元參與這個流程，我們應該搞清楚它到底是怎樣運作的。所以他們把電極插入了貓的基礎視覺皮質層中，實驗發現了乙個有趣的現象，基礎視覺皮質層—視覺處理流程第一站（或者第二，這取決於你要不要把眼睛算進去）是在後腦勺的位置上，而不是緊挨著眼睛。這個非常有意思，因為你的嗅覺處理部分是緊挨著鼻子的，聽覺處理部分是緊挨著耳朵的，然而基礎視覺皮質層卻在離眼睛最遠的位置。另乙個有趣的實驗結果是，並不是只有基礎視覺皮質層這一塊參與了視覺處理流程，差不多有50%的大腦都參與著視覺處理過程，視覺是大腦中感知任務最重、最艱難的一項工作，不是說別的感官沒用，只是說自然進化用了如此長的時間，進化出我們的感知系統，視覺卻在其中佔據了如此多的資源。hubei和wiesel躊躇滿志，想要搞清楚基礎視覺皮質層到底在做什麼，因為這是我們深度學習神經網路的第一步知識。他們先把貓放到屋子裡，然後記錄神經元的活動（觀察貓看東西時，神經元是否被激發），比如說他們給貓看魚的，那麼，神經元會興奮起來（被啟用），傳送脈衝嗎？他們給貓看了魚的，耗子的，花的，結果全都沒用，貓的基礎視覺區一片沉寂，沒有任何脈衝。好的訊息是，那時候沒有計算機，所以他們想給貓看的話，得用幻燈片投影才行，所以他們放一張魚的幻燈片，等著神經元的脈衝，如果沒有，就換下一張幻燈片。結果他們發現，每次換幻燈片時，神經元被啟用了。這表明了更換幻燈片的動作生成了乙個「邊緣」，可能是矩形或圓形之類的，這個移動的邊緣啟用了這些神經元，科學家立刻捕捉了這一資訊，經過深入研究，最終發現，基礎視覺區的神經元是按一列一列組織起來的，每一列神經元只「喜歡」某一特定形狀/某種簡單的線條組合，而不是魚/老鼠。

總的來說，有很多基礎視覺區的神經元，我們不知道它們喜歡什麼。hubei和wiesel發現，視覺的前期，並不是對整體的魚/老鼠進行處理，視覺處理流程的第一步，是對簡單的形狀結構處理—邊緣。這對認知科學、神經科學、工程模型都產生了極為深遠的影響。如果以後我們實現一些深度神經網路，我們會看到簡單的邊緣結構出現在我們的模型中。

視覺研究領域歷史回顧與介紹

視覺SLAM研究點介紹

視覺SLAM 二研究點介紹

視覺SLAM漫談三研究點介紹

視覺研究領域歷史回顧與介紹

視覺SLAM研究點介紹

視覺SLAM 二 研究點介紹

視覺SLAM漫談 三 研究點介紹

相關推薦

視覺SLAM 二研究點介紹

視覺SLAM漫談三研究點介紹