計算機視覺爬坑 有收穫就更新

2021-10-22 17:49:39 字數 1006 閱讀 8370

要做個ocr相關的專案,以下**資料非特別標註一般是來自pyimagesearch,非常棒的**

網上有很多資源了,比如這個講的就挺簡單還清楚,用我自己的話整理一遍(無過程公式),需要一定的cg基礎。

相機模型,成像,主要牽扯四個座標系,世界座標系,相機座標系,cmos座標系,座標系。

世界座標系:在真實世界中設定乙個點為原點,再自己指定xyz三個軸,然後座標系就出來了,三維的,單位也是實際距離單位。比如相機標定棋盤格,指定左上角的角點為原點沿著橫縱兩個方向為xy軸,垂直紙面為是z軸這個樣。

相機座標系:和世界座標系乙個路子,也是個三維座標系,只不過相機位置為座標系原點,所以從世界座標系到相機座標系只需要旋轉和平移過去即可。

乙個思考:那把相機座標系和世界座標系原點搞個重合豈不是更好?個人認為沒這麼做的原因是相機標定時候需要那些個標定點處於zw=0的平面,如果座標系是以相機為中心的此時zw=zc,則標定點的zw或者說zc!=0,可能不方便計算,比如三維標定點的座標不好表示了,如果有什麼嚴謹證明煩請指路。

cmos座標系:就是把來自相機座標系三維座標透視變換到二維座標上去,根據相似三角形原理。值得一提的是這個座標系單位是mm也就是真正的畫素尺寸,座標中心在cmos的中心點。

其中3 4步聯合為內參矩陣,1 2步聯合為外參矩陣。

單目相機一般來說無法獲取深度資訊zw,所以標定時假定標定點都在zw=0的平面上,根據最整體的公式

z c[

u,v,

1]=p

∗[xw

,yw,

zw,1

]zc[u,v,1]=p*[xw,yw,zw,1]

zc[u,v

,1]=

p∗[x

w,yw

,zw,

1]p為內外參矩陣的積,下標c代表相機,w代表世界。

其實zc是已知的,因為zw已知,然後外參又已知所以zc確實可以求出來,這樣我們就可以根據影象上的點來一路反推找到實際三維世界中的座標了。

另外乙個思考,如果相機位姿改變,焦距也變了,是需要重新標定的吧?

無中生有 計算機視覺探奇

計算機視覺 computer vision,cv 是一門研究如何使機器 看 的科學。1963年來自mit的larry roberts發表的該領域第一篇博士 machine perception of three dimensional solids 標誌著cv作為一門新興人工智慧方向研究的開始。在發...

計算機視覺和人類視覺有相似的不足

深卷積神經網路浪潮席捲人工智慧領域。這些程式在某些方面能比人類做得更好,從面部和物體識別到玩古老的遊戲 圍棋等。神經網路受到了由大腦結構的啟發。機器視覺背後得深卷積神經網路的結構和大腦負責視覺得結構之間有著驚人的相似之處。其中的乙個進化了數百萬年,另乙個是僅發展了短短幾十年。但似乎都以同樣的方式工作...

計算機視覺與機器視覺有什麼區別?

人工智慧是乙個涵蓋幾種特定技術的總稱。本文我們將探索機器視覺 mv 和計算機視覺 cv 它們都涉及到視覺輸入,因此了解這些重疊技術的優勢,侷限性和最佳用例場景非常重要。研究人員早在20世紀50年代就開始開發計算機視覺技術,從簡單的二維成像開始,用於統計模式識別。直到1978年,當麻省理工學院人工智慧...