AI視頻技術目前在無人駕駛、移動支付、安防監(jiān)控、智慧醫(yī)療領域取得卓有成效的進展。在諸多行業(yè)的推廣應用中,安防監(jiān)控行業(yè)成為了國內(nèi)AI視頻技術率先落地的行業(yè)。
??低暫痛笕A股份等龍頭企業(yè),占據(jù)智能安防監(jiān)控入口優(yōu)勢,針對安防視頻數(shù)據(jù)的海量增長,公司具有優(yōu)化深度算法,為用戶提供優(yōu)質(zhì)有效內(nèi)容的核心競爭力。在底層算法逐漸開源的背景下,處于上游硬件龍頭企業(yè)依靠強大的資金優(yōu)勢和海量視頻信息資源,就將著眼布局上游產(chǎn)業(yè),涉足算法和芯片環(huán)節(jié),從整體產(chǎn)業(yè)鏈角度提升公司AI視頻核心競爭力。從??低暫痛笕A股份的研發(fā)投入力度上看,目前這兩家行業(yè)龍頭企業(yè)在研發(fā)端的投入均超過10億,已推出數(shù)款如“深眸”、“睿智”等前、后端智能產(chǎn)品。在此大背景下,海康威視和大華股份將不再是硬件公司,而是數(shù)據(jù)和軟件公司。
1 AI視頻:計算機視覺+深度學習的最佳產(chǎn)物
AI視頻指的是利用計算機視覺及深度學習、對視頻內(nèi)容進行理解,進而完成視頻數(shù)據(jù)的結構化分析,以實現(xiàn)相關的目標檢測和跟蹤、人物識別、動作識別、情感語義分析等功能。
1.1 信息傳播媒介已從音頻向視頻方向推進
隨著硬件攝像頭的不斷變革,以及通訊技術的持續(xù)進步,信息的傳播方式已逐步從音頻通訊向視頻通訊演變。圖像是人類感知世界的視覺基礎,同時也是我們獲取信息、表達信息和傳遞信息的重要手段。
1.2 視頻信息是AI的重要輸入
而當下人工智能技術的發(fā)展歷程,實際上是由數(shù)據(jù)、技術、產(chǎn)品三者不斷循環(huán)推進的一個過程,用大量數(shù)據(jù)訓練模型,以促進技術升級,進而形成產(chǎn)品,再通過產(chǎn)品的應用再次產(chǎn)生數(shù)據(jù),進行學習并優(yōu)化結果。
因此,視頻作為現(xiàn)今人類接受外界信息最重要的媒介,視頻的應用無疑是人工智能發(fā)展中重要一環(huán)。無論是知識表示、自動推理和搜索方法、自動程序設計、智能機器人、機器學習或知識獲取,任何一個人工智能方向的發(fā)展,都不能離開視頻在其中的應用。
1.3 視頻識別擴展了AI的想象空間
同時,人工智能的計算機視覺以及深度學習算法的突破,使機器在“看”這一認知能力上的加強,基于人工智能的視頻分析技術在各個應用領域的空間巨大。
簡單從安防領域來看,在很多經(jīng)典的美國大片中,我們經(jīng)??吹骄炜梢酝ㄟ^全國的交通及安防攝像頭追蹤疑犯的動向,從而迅速破案。但實際上,受于技術上的限制,現(xiàn)實生活中對視頻內(nèi)容的分析依然以人工為主,所以在新聞媒體中,??吹降氖悄车鼐焱ㄟ^調(diào)取案發(fā)現(xiàn)場附近監(jiān)控視頻經(jīng)過數(shù)小時的分析終于確定疑犯容貌,從而成功將其抓獲歸案的消息。
如果人工智能在視頻識別、視頻分析等方面取得重大突破,那么只需要輸入一張照片做參照,即可讓機器從一個地區(qū)數(shù)以千計的視頻監(jiān)控服務器中快速查找定位到相應目標,工作效率及準確度是人工分析根本無法比擬的。
在海內(nèi)外科技巨頭的人工智能發(fā)展藍圖中,均將對視頻識別、感知及分析的相關研發(fā)放在了戰(zhàn)略地位。扎克伯格在F8大會上,明確提出把發(fā)展人工智能技術用以理解視頻內(nèi)容作為Facebook未來的核心戰(zhàn)略發(fā)展目標。人工智能在視頻分析方面的突破,促使產(chǎn)生了眾多具備良好想象空間的應用案例。
2 計算機視覺算法開源化,數(shù)據(jù)集成為應用關鍵
2.1 計算機視覺技術:對質(zhì)的分析
與以量的分析為主的機器視覺不同,計算機視覺主要處理的是對質(zhì)的分析。常見的包含有分類識別、身份確認、行為分析等。形象來說,計算機視覺技術就是使攝像機能夠代替人眼,進行對視頻中的物體的識別、物體形狀與方位的確認以及物體運動的判斷三個行為。
1)物體的識別:即理解物體是什么。對物體的識別主要體現(xiàn)在兩個方面,第一是將不同物體歸類;第二是對同類物體進行區(qū)分與鑒別。物體識別要求既能抽象出物體的共同屬性,又能識別出相似物體間的細微差別。
2)物體形狀和方位的確認:判斷物體的形狀和方位是為了讓物體在視覺的三維空間里得到記憶的重建,進而進行場景分析和判斷。
3)物體運動的判斷:和物體形狀方位的確定一樣,對物體運動的判斷也是一種對場景的重建和理解,用于進行視覺主體(人或機器)對場景的分析,并據(jù)此做出自身行動的決策,實現(xiàn)視覺主題和場景的交互。
計算機視覺技術的進步,使機器能更敏銳的觀察視頻,進而抓取各個場景下所需的信息。
2.2 底層算法開源化:Google Video Intelligence API
隨著如谷歌等人工智能領域的巨頭的算法紛紛開源,計算機視覺底層算法模型或?qū)⒅鸩阶呦蚪y(tǒng)一。
在今年 3月份的Google Cloud Next' 17大會上,斯坦福計算機視覺教授李飛飛開放了能進行視頻識別的Video Intelligence API,并演示了一個應用樣例;此外,谷歌云工程師Sara Robinson也在GitHub上公開了演示樣例代碼。
谷歌這次公開的Video Intelligence API 主要有兩個重要功能:
1) 識別目標視頻中每一幀的內(nèi)容;
2) 在龐大的視頻庫中搜索當前視頻的元數(shù)據(jù)。
Video Intelligence API對視頻進行全片分析,可以識別視頻中每一幀的具體內(nèi)容,同時提取出內(nèi)容相關的顆粒數(shù)據(jù)(Granular Data)。具體來說,就是模型不僅支持自動實時的識別視頻中的物體,按場景化提供精確標簽分類,及相關實體類別信息(如下圖中的老虎,以及出現(xiàn)的相關“野生動物”、“老虎品種”等標簽),分離信號與噪音;還可以進行全片的情景理解,識別出整段視頻中所有出現(xiàn)該物體的數(shù)據(jù)幀(即能判定老虎在視頻中出現(xiàn)的時間),并通過模型給出不同視頻幀之間的聯(lián)系和區(qū)別。
Gooogle Viedo Intelligence API開放,意味著計算機視覺頂尖算法正在開源化,算法模型在逐步走向統(tǒng)一。在對于以數(shù)據(jù)和算法驅(qū)動的AI視頻來看,未來訓練數(shù)據(jù)集上的差異對計算機視覺解決方案的優(yōu)劣影響權重增加。
2.3 數(shù)據(jù)集成為AI視頻應用關鍵
底層算法逐漸開源,但具體用于各個應用場景的模型,需要大量的場景數(shù)據(jù)進行調(diào)優(yōu)與完善,訓練數(shù)據(jù)量越大,質(zhì)量越好,訓練得到的算法準確率高。因此,具有特征性的場景數(shù)據(jù)集的獲得,是AI視頻真正落地應用的關鍵。
2016 年,谷歌發(fā)布了 YouTube-8M,一個由自動標記的YouTube視頻組成的數(shù)據(jù)集。2017年2月谷歌再次開放了Youtube視頻數(shù)據(jù)集——Youtube邊界框(YouTube-BoundingBoxes),這是一個在21萬 YouTube 視頻片段中進行密集的標注,由包含13類物體的共500萬邊界框(bounding boxes)組成的視頻數(shù)據(jù)集。邊界框是指在時間上連續(xù)的幀中跟蹤對象的框,到目前為止,這是包含邊界框的最大的人工標注視頻數(shù)據(jù)集。
在各個應用場景中,安防行業(yè)是天然的數(shù)據(jù)源,具有繁多的數(shù)據(jù)種類、PB級的數(shù)據(jù)量等特征,非常適合進行AI視頻算法訓練。
3 AI視頻落地應用場景
3.1 安防監(jiān)控
3.1.1安防監(jiān)控:當AI視頻處理解決方案成為剛需
在世界各國政府應對國內(nèi)安定和國際反恐的措施中,AI視頻技術成熟成為安防監(jiān)視領域發(fā)展的迫切需求。日益增多的監(jiān)控點位持續(xù)不斷地產(chǎn)生海量視頻數(shù)據(jù),按原先的人工處理模式,負責安防監(jiān)控的人員數(shù)量會根據(jù)監(jiān)控點位的增長而增加,如果不考慮增設人員,現(xiàn)有的監(jiān)控團隊將無法保質(zhì)保量地完成自身的工作職責。
因此,智能化的視頻處理解決方案成為眼下迫切急需的產(chǎn)品。大數(shù)據(jù)技術、視頻結構化的日益成熟使得AI視頻在安防領域的應用存在了可能。數(shù)據(jù)結構化技術可從視頻中提取既定物體,并通過物體識別技術認定物體身份并貼上對應的身份標簽,并將處理信息匯總到后臺數(shù)據(jù)庫。用戶可以通過搜索的方式對對應的信息進行查詢和匯總。
目前AI視頻技術在安防領域的應用已經(jīng)實現(xiàn)從靜態(tài)圖片識別到動態(tài)影像跟蹤捕捉的升級。AI視頻技術的功能不僅在于完成靜態(tài)影像的物體識別,更在于對動態(tài)視頻的跟蹤識別,并且基于視頻影像動態(tài)變化的基礎之上迅速反饋到處理系統(tǒng),并產(chǎn)生對應的分析數(shù)據(jù)。
與傳統(tǒng)視頻監(jiān)控系統(tǒng)對比,AI視頻技術除卻原有數(shù)據(jù)收集和整合功能之外,開始具備基于深度學習的智能視頻分析能力(Intelligent Video Analysis,IVA)。IVA技術的發(fā)展使得計算機擁有可以辨別物體特征的視覺處理系統(tǒng)。在視覺處理系統(tǒng)的支持下,計算機在無需人力參與的狀態(tài)下,對于攝像機提供的圖像進行有效的定位、識別和跟蹤。根據(jù)預先設定代碼,計算機可以對行為人的軌跡行為進行有效判斷,具備了除日常監(jiān)控任務之外的突發(fā)事件處理能力。
AI視頻分析平臺的強大之處不僅在于可以精準計算在監(jiān)控范圍內(nèi)的人群數(shù)據(jù),更在于智能化地分析個體行為的軌跡蹤跡,形成重點區(qū)域的面狀布防。AI視頻側重于人群密度管控和個體行為分析,旨在通過優(yōu)化的AI算法與框架模式實現(xiàn)對監(jiān)控范圍內(nèi)物體行為的有效分析。與傳統(tǒng)的視頻分析軟件不同,AI視頻分析可以做到以下四大智能化功能:
第一,精準測算視野范圍內(nèi)人群數(shù)量,對于可疑人物進行行為軌跡追蹤,在重大節(jié)日事件節(jié)點設置人群密度臨界值,控制人流量;
第二,通過人臉識別技術與運動軌跡追蹤發(fā)現(xiàn)可以特定人員,通過調(diào)撥警力和封鎖道路實現(xiàn)人員追捕;
第三,特定區(qū)域?qū)崟r管控,對于違規(guī)進入特定區(qū)域的人員進行預警,并有效進行實時報警;
第四,對視野范圍內(nèi)的人員進行分類識別,標識區(qū)分不同類型人群,對于特定人員的異常動作行為設定預警信號。
3.1.2 微軟推出全自動智能監(jiān)控產(chǎn)品Workplace Safety
從國際領先的安防監(jiān)控技術而言,微軟公司在今年5月Build 2017大會推出AI for Workplace Safety,可以作為AI視頻技術在智能安防應用的典范。
AI for Workplace Safety的特別之處就在系統(tǒng)從視頻影像收集、整合、分析、判斷、預警的全過程實現(xiàn)了機器化、自動化操作,真正意義上提供了了去人化安防監(jiān)控解決方案。
AI for Workplace Safety將攝像頭數(shù)據(jù)處理、大數(shù)據(jù)搜索分析、云端儲存等先進技術進行整合,致使系統(tǒng)可以如何谷歌百度一樣對可視范圍的物體進行搜索,實現(xiàn)對可視范圍內(nèi)人、事、物的實時監(jiān)控。
在監(jiān)控影像中,系統(tǒng)可以通過一整套系列參數(shù)(rendered、dropped、current、average)的設定各個物體的位置予以明確,并通過數(shù)據(jù)庫里各類物品的特征對影像內(nèi)的各種物件進行有效對照識別,用戶可以通過語音系統(tǒng)輸入既定物體的名稱,系統(tǒng)即可以完成對畫面里物體進行有效搜索并將搜結果通過系統(tǒng)平臺反饋給用戶。
在這個場景中,如果行為人沒有按照公司規(guī)定要求將工具放置到指定坐標位置,系統(tǒng)則將通過平臺發(fā)生文字與圖像信息對于行為人的舉動進行提醒。如果行為人未經(jīng)過授權擅自使用特定工具,系統(tǒng)則將對該行為人的舉動發(fā)生警告,當然如果行為人完成獲得授權,系統(tǒng)則不會發(fā)出任何指令。
3.2 自動駕駛
3.2.1 自動駕駛:貨物運輸領域的TaaS2.0版
目前業(yè)界對自動駕駛技術的認知按照美國汽車工程師協(xié)會(SAE)和美國高速公路安全管理局(NHTSA)的標準分為6個等級。行業(yè)協(xié)會根據(jù)自動駕駛汽車視智能化和自動化程度水平劃分出:無自動化(L0)、駕駛支援(L1)、部分自動化(L2)、有條件自動化(L3)、高度自動化(L4)和完全自動化(L5)等分類級別。
基于無人駕駛技術應用的貨物運輸服務在業(yè)界被稱之TaaS2.0(Transportation as a Service)。與之對應的TaaS1.0(Transportation as a Service).0則為人力駕駛提供服務。根據(jù)摩根士丹利提供的無人駕駛報告顯示,無人駕駛的實現(xiàn)可以極大地減少車輛運輸費用,致使每輛車的運輸成本降低為原來的1/7。
國家發(fā)布的《汽車產(chǎn)業(yè)中長期發(fā)展規(guī)劃》提出到2020年,中國汽車駕駛輔助、部分自動駕駛、有條件自動駕駛系統(tǒng)新車裝配率超過50%;網(wǎng)聯(lián)式駕駛輔助系統(tǒng)裝配率需要達到10%。到2025年,汽車駕駛輔助、部分自動駕駛、有條件自動駕駛系統(tǒng)新車裝配率應超過80%,其中部分自動駕駛、有條件自動駕駛系統(tǒng)新車裝配率裝配率應達到25%。同時高度和完全自動駕駛汽車開始進入市場。
眼下,發(fā)達國家正在逐漸布局智能網(wǎng)聯(lián)汽車。Intel以153億美元完成了對全球領先的自動駕駛技術公司Mobileye的收購;豐田公司在美國建設大型自動駕駛汽車測試基地;國內(nèi)的知名互聯(lián)網(wǎng)巨頭百度也發(fā)布“阿波羅計劃”旨在為無人駕駛行業(yè)的廠家開放一整套完整的軟件操作平臺。
3.2.2 自動駕駛技術公司Mobileye業(yè)務發(fā)展迅猛引得外界側目
根據(jù)P&S Market Research的數(shù)據(jù),2017年的ADAS 全球市場容量高達252億美元,按照每年27%的市場增長率測算,到2022年,ADAS行業(yè)的市場規(guī)??梢赃_到990億美元。
在ADAS市場中,以色列公司Mobileye業(yè)務之發(fā)展迅猛引得外界側目。與其他技術提供商和算法類公司不同,Mobileye依靠其自身海量多元視頻數(shù)據(jù)構筑了強大的技術數(shù)據(jù)壁壘,目前Mobileye已經(jīng)獲取超過25家汽車企業(yè)超過5年的高清車輛行駛數(shù)據(jù),總里程累計超過4000 萬公里。
目前Mobileye已經(jīng)超過90%的全球汽車廠商合作,為汽車企業(yè)提供防止碰撞安全技術服務。2014年11月推出EyeQ3已經(jīng)與德爾菲取得或者。而EyeQ3的升級版半自動駕駛系統(tǒng)EyeQ4將于2018年初問世。與EyeQ3不同,EyeQ4將內(nèi)置14 核心(包括 10 個定制化圖像處理加速核心),支持超過10個36fps攝像頭數(shù)據(jù)輸入,并且向馬路穿越識別(Lateral Turn Across Path, LTAP)能力。
3.2.3 Tesla:當智能攝像頭成為自動駕駛慧眼
特斯拉通過目前已售出車輛的外部攝像頭傳感器對行駛路面道路信息進行收集整合,寄望于眾包形式進行地面路況信息搜集,并在此基礎上為特斯拉下步在自自動駕駛的道路選擇、交通標示辨別、路況更新、路徑選擇提供更加全面的視頻信息線索。
特斯拉的攝像頭作為實現(xiàn)自動駕駛的慧眼,是實現(xiàn)智能預警、識別類ADAS功能的基礎。車載攝像頭作為路況視覺影像收集的基礎硬件,包括車道偏離預警(LDW)、前向碰撞預警(FCW)、交通標志識別(TSR)、 車道保持輔助(LKA)、行人碰撞預警(PCW)、全景泊車(SVP)、駕駛員疲勞預警等眾多功能等在內(nèi)的智能輔助駕駛功能均需借助攝像頭,因此攝像頭的性能和配置將直接影響無人駕駛功能的實施。
從2016年10月,特斯拉完成了對Autopilot硬件傳感器套裝的系統(tǒng)升級,實現(xiàn)了從Autopilot 1.0到Autopilot 2.0的過渡升級。特斯拉Autopilot 2.0的硬件系統(tǒng)需要配置8個攝像頭,而單車多攝像頭也成為為未來無人駕駛配置的趨勢。
每款汽車依據(jù)ADAS功能的差異,攝像頭的安裝位置也需要做出對應的調(diào)整。從攝像頭的安裝位置看,無人駕駛車的攝像頭可分為前視、側視、后視和內(nèi)置四個部分。未來要實現(xiàn)全套ADAS功能,單車需配備至少5個攝像頭。與此同時,此番硬件系統(tǒng)的升級致使對應軟件的輔助駕駛功能參數(shù)受到顯示,并未達到1.0版本時期的水準。
特斯拉的無人系統(tǒng)駕駛將模擬現(xiàn)實路況,測算道路寬度,判定前后車輛間距,并根據(jù)系統(tǒng)設定參數(shù)進行無人駕駛。由攝像頭搜集的“短視頻”將被公司后臺搜集形成實時路況圖示并根據(jù)道路分叉路況和交通等待時間規(guī)劃最佳線路。
(審核編輯: 智匯張瑜)
分享