【導讀】計算機視覺是指為計算機賦予人類視覺這一技術目標,從而賦能裝配線檢查到駕駛輔助和機器人等應用。計算機缺乏像人類一樣憑直覺產(chǎn)生視覺和畫面的能力。我們必須給予計算機一些算法,以便處理領域特異性任務。
計算機視覺是指為計算機賦予人類視覺這一技術目標,從而賦能裝配線檢查到駕駛輔助和機器人等應用。計算機缺乏像人類一樣憑直覺產(chǎn)生視覺和畫面的能力。我們必須給予計算機一些算法,以便處理領域特異性任務。
本文著眼于使計算機能夠像人類一樣通過“看”來感知世界,從這一視角對人工智能 (AI) 進行了探討。我將簡要比較每一類計算機視覺,尤其關注在本地而不是依賴基于云的資源收集和處理數(shù)據(jù),并根據(jù)數(shù)據(jù)采取行動的嵌入式系統(tǒng)。
什么是計算機視覺?
20 世紀 60 年代,計算機視覺已經(jīng)能夠執(zhí)行從頁面上讀取文本(光學字符識別)和識別圓形或矩形等形狀這類任務。從那時起,計算機視覺便成為 AI 的核心領域之一,它包括了任何從數(shù)據(jù)中感知、綜合或推斷含義的計算機系統(tǒng)。
計算機視覺有三種方法:
傳統(tǒng)計算機視覺是指用來處理諸如運動估計、全景圖像拼接或直線檢測等任務的編程算法。傳統(tǒng)計算機視覺使用標準信號處理和邏輯來處理任務。工程師需要手動選擇用于從圖像中提取含義的函數(shù),然后在處理任務的算法中使用所生成的特征。Canny 邊緣檢測算法可以找出運動的輪廓,光流算法可以找出運動的矢量,這有助于在圖像或運動跟蹤后續(xù)圖像中分離出物體。對于需要根據(jù)此任務或環(huán)境進行校準的參數(shù),需要手動或通過輔助算法做出調(diào)整。
經(jīng)典機器學習計算機視覺需要由專家來“打造”特征集,供機器學習模型進行訓練。其中許多特征是與傳統(tǒng)計算機視覺應用所共有的。并非所有特征都有用,因此需要進行分析以去除無信息特征;機器學習算法將使用這些特征進行訓練,以便找出可能難以手動分離的模式。若要有效地實現(xiàn)這些算法,需要具備圖像處理和機器學習方面的專業(yè)知識。
深度學習計算機視覺屬于機器學習,但使用的是非常龐大的神經(jīng)網(wǎng)絡模型,對大量未經(jīng)處理的“原始”數(shù)據(jù)進行運算。深度學習對計算機視覺產(chǎn)生了重大影響,它將特征提取操作拉入模型之中,使得算法可以學習信息最豐富的特征,而無需專業(yè)知識來手動打造特征集。深度學習甚至能夠更好地分離出微妙的模式,但對計算和內(nèi)存的要求更高。
那么,哪一類計算機視覺最好呢?
這最終取決于表 1 中概述的幾個因素。此表只是籠統(tǒng)地進行概括,其中的準確性和任務復雜性等指標依賴于具體用例。
表 1:計算機視覺技術比較
經(jīng)典機器學習計算機視覺介于傳統(tǒng)方法和深度學習方法之間;與其他兩種方法相比,能夠從中受益的應用集合規(guī)模較小。在簡單直接、高通量或安全攸關的應用中,傳統(tǒng)計算機視覺可能準確而高效。深度學習通用性超強、開發(fā)難度超低,并且在復雜應用中的準確性超高,如在高密度設計的印刷電路板 (PCB) 裝配驗證期間用于發(fā)現(xiàn)微小的缺失元件。
一些應用可以通過同時采用多種類型的計算機視覺算法而受益,相互取長補短。這種方法常用于環(huán)境非常多變的安全攸關型應用中,如駕駛輔助系統(tǒng)。例如,您可以并行采用基于傳統(tǒng)計算機視覺方法的光流和深度學習模型來跟蹤附近的車輛,并且使用一種算法對結(jié)果進行融合,從而確定兩種方法是否一致。如果不一致,系統(tǒng)可能會警告駕駛員或啟動安全操控。
替代方法是依次使用多種類型的計算機視覺。條形碼讀取器可以使用深度學習來定位感興趣區(qū)域,對這些區(qū)域進行裁剪,然后使用傳統(tǒng)計算機視覺算法進行解碼。
深度學習在計算機視覺應用中的益處
與傳統(tǒng)計算機視覺和經(jīng)典機器學習相比,深度學習由于在研究、開源和商業(yè)社區(qū)中非常受歡迎,因此始終具有較高的準確性,并且在迅速改進。圖 1 從開發(fā)者的角度總結(jié)了這三種技術在數(shù)據(jù)流方面的差異。
圖 1:各種計算機視覺方法的數(shù)據(jù)流
深度學習是一種計算密集型方法。然而,由于處理能力、速度、加速器(如神經(jīng)處理單元和圖形處理單元)的改進,以及對矩陣和向量運算的軟件支持的提升,計算要求增加的問題得以緩解,即使在嵌入式系統(tǒng)上也是如此。諸如 AM62A7 等微處理器可以利用硬件加速器,以很高的幀率運行深度學習算法。
計算機視覺實踐
TI AM6xA 產(chǎn)品組合(如 AM62A7)中的處理器包含深度學習加速硬件和輔助軟件,有利于傳統(tǒng)及深度學習計算機視覺任務。在 TDA4VM 和 AM68PA 等處理器上,數(shù)字信號處理器內(nèi)核(如 C66x)以及用于光流和立體聲深度估計的硬件加速器還能為高性能傳統(tǒng)計算機視覺任務賦能。
借助能夠同時支持傳統(tǒng)計算機視覺和深度學習計算機視覺的處理器,將有可能打造出與科幻夢想相媲美的工具。自動購物車將會簡化購物過程;手術和醫(yī)療機器人將指導醫(yī)生發(fā)現(xiàn)早期疾病征兆;移動機器人將會修剪草坪和遞送包裹。請參閱 TI 的邊緣 AI 視覺頁面,探究嵌入式計算機視覺如何改變世界。
(來源:德州儀器)
免責聲明:本文為轉(zhuǎn)載文章,轉(zhuǎn)載此文目的在于傳遞更多信息,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請聯(lián)系小編進行處理。
推薦閱讀:
77GHz 毫米波雷達傳感器如何應對腳踢開啟系統(tǒng)面臨的挑戰(zhàn)
利用USB-C實現(xiàn)并聯(lián)電池充電如何幫助提升用戶體驗
英特爾CEO:加速IDM 2.0轉(zhuǎn)型,推進代工服務發(fā)展