我們生活的世界是一個3D立體的空間,人類最重要的感知器官–眼睛,既可以為人類提供五顏六色的色彩資訊,也可以在大腦中形成距離感,讓我們可以感知到一個立體的世界。

自第一片CCD影像感測器在貝爾實驗室誕生,在過去的幾十年裡,機器視覺和數位成像技術有了長足的進展,為社會各行各業賦予巨大的能量,人們的生活、工業自動化、航空航太等領域都開始與影像和視覺技術進行了廣泛的連結。

機器視覺領域從萌芽到成長,以彩色視覺留存為切入點的2D影像技術經歷了從類比到數位,從靜態到動態,從單色到彩色的演進過程。

當前的3D視覺技術是人類為了提升機器視覺的維度,將立體影像呈現在眼前,可以滿足以往2D視覺難以實現的應用場景,如Face ID,手機,VR/AR,工業視覺等方向,在各行各業開始新一次的視覺革命!

如上圖所示,不同于左側傳統彩色相機所拍攝出的影像,右側立體視覺技術所展示出來的影像是一個由每個圖元點到相機的距離值組成的。

為了更好的呈現距離的差異,通常會將不同的距離值映射到色域空間,這樣使用者更容易理解深度圖像的含義,如下圖所示:

3D視覺技術的目的和發展方向就是通過各種方法來獲取到更精準,更細膩,更快速的深度影像。

反射性光學方法主要分為兩類:被動式和主動式。被動式反射光學方法通常依靠環境光來測量目標表面和檢測器之間的距離。立體視覺是被動反射光學方法的一個例子,它使用兩個攝影頭來捕捉目標表面的圖像,並根據攝影頭和目標表面的相對位置來計算目標表面和攝影頭之間的距離。另一方面,主動反射式光學方法不依賴環境光,而是使用投射光源來獲得3D範圍資訊。ToF相機和光編碼<結構光>系統是主動反射光學方法的例子。ToF攝影機使用脈衝光源和光電探測器來測量光從光源到目標表面和返回所需的時間,而光編碼<結構光>系統將光的圖案投射到目標表面,並使用相機捕獲的扭曲的圖案來計算到目標表面的距離。

立體視覺系統由兩個並排放置的相機組成,它們從稍微不同的角度捕捉同一場景的兩個圖像,根據兩個相機捕捉的資訊生成場景的3D表示。為了實現這一目標,立體視覺系統使用演算法來識別兩幅圖像中的對應點,然後根據不同物體在兩幅圖像中的位置差異,計算出場景中不同物體的相對深度。這個過程被稱為三角測量。

一個立體視覺系統,兩台相機中的一台被投影儀取代,被稱為主動或光編碼系統,或結構光系統。它通過雷射投影儀投射帶有形狀的光。形狀在物體上發生變化,然後計算出距離。主動式系統在對應問題上的有效性可以在前面考慮的統一顏色的直牆的例子中很容易體會到。因此,在沒有幾何和顏色特徵的場景中,光編碼系統也能提供深度資訊,而標準的身歷聲系統無法提供任何深度資料。一般來說,主動技術被認為比被動方法更昂貴、更慢,但比它們更準確、更強大。為了測量動態場景的距離,即有移動物體的場景,隨後的光編碼方法側重於將投影圖案的數量減少到幾個單元或單個圖案。

ToF(Time of Flight)技術,譯為飛行時間技術。從廣義上講,所有測量介質飛行時間的方法都屬於ToF技術。當以光為媒介進行ToF測量時,其原理是ToF模組的光源向要測量的物體發送光子。到達被測物體後,通過圖像感測器接收反射回ToF模組的光子,測量該部分的 "光的飛行時間",在已知光速的前提下,可以得到距離資料。

最簡單的單圖元ToF技術使用一個調整校正過的雷射作為發射器,一個光電二極體作為接收器,可以用來提供單點的距離資訊。如果想用單圖元距離感測器來提供整個場景的深度圖,一般會採用一些掃描形式。下圖是單圖元ToF測距技術的原理。

3D ToF 技術透過一次性成像提供完整的場景深度圖,無需掃描設備。隨著半導體元件尺寸的縮小,精巧型、高性價比的ToF深度攝影機在工業和消費電子領域得到了迅速的應用和發展。