60年前的某個夏天,麥卡錫、明斯基等年輕的科學(xué)家們舉辦了一次聚會,共同研究用機器模擬智能的問題,也是在那時,“人工智能(AI)”的理念正式被提出。如今,人工智能已經(jīng)應(yīng)用于語音識別、圖像處理器、計算機視覺、機器人等多個領(lǐng)域,甚至擊敗了圍棋九段李世石,這種進步是難以置信的。而這一系列成績的背后,是海量數(shù)據(jù)的積累與學(xué)習(xí),在沒有云的時代,是無法想象的。
數(shù)字經(jīng)濟和工業(yè)4.0少不了云助力
人工智能涉及的領(lǐng)域非常廣泛,工業(yè)、航天、商業(yè)都有應(yīng)用,并且已經(jīng)深入人們的生活,打開手機中的Cortana或者Siri,這就是AI的產(chǎn)物。要知道,在幾十年前,這種超前的技術(shù)是不受認(rèn)可的,教授相關(guān)課程的學(xué)校也是寥寥無幾。究其原因,主要就是數(shù)據(jù)的積累和應(yīng)用。高容量存儲設(shè)備豐富了數(shù)據(jù)量的留存,隨著數(shù)據(jù)的不斷增加,人們開始在其中發(fā)現(xiàn)某種規(guī)律,引發(fā)了分析的需求。
分析讓大量的數(shù)據(jù)有了價值,機器開始懂得用戶想要什么,可以預(yù)測未來的天氣和球賽的比分,這種人工智能與場景的結(jié)合,要實現(xiàn)的就是改變生活方式和解放生產(chǎn)力。具體來說,很多過去只有人能做的事情,現(xiàn)在更多的情況下能夠通過機器實現(xiàn),典型的例子包括語音助手、無人駕駛汽車。更重要的是,當(dāng)硬件性能逐漸提升、計算資源越來越強大時,成本卻越來越低廉。
微軟全球執(zhí)行副總裁陸奇曾指出,如果大數(shù)據(jù)被充分利用,全球企業(yè)將額外獲得1.6萬億美元的數(shù)字紅利。當(dāng)然,前提是要對海量信息進行分析,無論是深度學(xué)習(xí)還是神經(jīng)網(wǎng)絡(luò),最終都要轉(zhuǎn)換為產(chǎn)品或服務(wù)惠及用戶。數(shù)字經(jīng)濟、分享經(jīng)濟、工業(yè)4.0…背后都少不了大數(shù)據(jù)和云計算的支持。
不過,要想在人工智能時代分一杯羹,絕非易事。AI的基礎(chǔ)是大數(shù)據(jù),這些資源通常掌握在巨頭手中,這也是為什么你會看到,這個領(lǐng)域的頭條總是被微軟、谷歌、IBM、蘋果、亞馬遜、Facebook這些公司搶去。在國內(nèi),BAT、京東這樣的企業(yè)同樣擁有足夠的用戶基礎(chǔ),并且已經(jīng)開展了應(yīng)用。
在今年的中國大數(shù)據(jù)產(chǎn)業(yè)峰會上,騰訊公司董事會主席兼CEO馬化騰主要就講了一件事:大數(shù)據(jù)。通過18年的運營,騰訊數(shù)據(jù)中心的存儲總量超過1000個PB。日常使用方面,用戶每天在微信朋友圈和QQ空間上傳的圖片達到10億張,騰訊視頻(含微信公眾號H5視頻)每天播放量達20億次,除夕當(dāng)天紅包支付超過25億筆,每天移動支付超過5億筆。圍繞這么多的數(shù)據(jù)資源,騰訊也開發(fā)了一系列技術(shù)和功能。
在人工智能領(lǐng)域騰訊做了哪些事?
海量數(shù)據(jù)時代,搜索的重要性可想而知?;谠谒阉黝I(lǐng)域多年的技術(shù)積累,騰訊云搜TCS通過對騰訊微信、QQ等各大垂直業(yè)務(wù)搜索需求進行高度抽象,把搜索引擎組件化、平臺化、服務(wù)化,為移動應(yīng)用開發(fā)者和網(wǎng)站站長提供了一站式搜索服務(wù)。云搜TCS支持分詞和建立索引功能,搜索封裝和技術(shù)門檻較低,具有可視化的數(shù)據(jù)預(yù)處理和離線排序定制能力,允許用戶自主配置,檢索耗時毫秒計算。
此外,騰訊云搜還建立了自然語言處理技術(shù)團隊,整合“文智”NLP開放平臺,提供中文分詞、智能糾錯、同義詞識別、意圖識別等能力。針對準(zhǔn)確性,該服務(wù)還支持高級糾錯、按域檢索、分詞定制、智能聯(lián)想詞等功能。開發(fā)方面,開發(fā)者可以對搜索結(jié)果的排序自主靈活控制,云搜還具有文檔求交、相關(guān)性排序、排序表達式等策略。
搜索到的數(shù)據(jù)怎么使用,能否安全可靠,所提供的數(shù)據(jù)服務(wù)是否有針對性,是用戶關(guān)心的問題。為此,騰訊大數(shù)據(jù)處理套件TBDS提供一鍵式部署能力,降低了大數(shù)據(jù)系統(tǒng)部署運維門檻,統(tǒng)一的控制臺可以對集群進行配置、啟停,通過DashBoard集中監(jiān)控各組件實時運行指標(biāo),還支持多種數(shù)據(jù)接入以及輸出方式,提供統(tǒng)一的數(shù)據(jù)源以及元數(shù)據(jù)的管理。
值得一提的是,騰訊還借助QQ、微信等產(chǎn)品建立了10億級別覆蓋度的基礎(chǔ)庫,對范圍內(nèi)的人群進行統(tǒng)計和分析,能夠?qū)崿F(xiàn)動態(tài)跟蹤區(qū)域內(nèi)人群流動、評估人流擁擠等級、捕捉開放社交網(wǎng)絡(luò)的情況、分析目標(biāo)客戶群軌跡,讓客戶更精準(zhǔn)的定位目標(biāo)人群。這么多的隱私信息,泄露了怎么辦?我們了解到,所有通信及數(shù)據(jù)存放都建立在騰訊云合規(guī)獨立的機房,以保障用戶數(shù)據(jù)資產(chǎn)安全。
機器學(xué)習(xí)是人工智能的核心要素,主要就是研究計算機如何模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能。應(yīng)用過程中,并行計算可以利用多個處理器解決一個大問題,提升了計算效率,這也是騰訊機智機器學(xué)習(xí)TML正在做的,其是簡化用戶對算法的接口調(diào)用、可視化、參數(shù)調(diào)優(yōu)等自動化任務(wù)管理的開放平臺。
該平臺搭載了萬兆網(wǎng)卡的大量CPU實體機,集成分類、聚類、搜索/排序、推薦等機器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域的算法,針對在性能、效果等方面的特殊需求,可以一對一深度定制。功能方面,機智機器學(xué)習(xí)TML支持LDA(非監(jiān)督機器學(xué)習(xí))技術(shù),可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息。通過訓(xùn)練,能夠把對文本內(nèi)容的處理簡化為K維向量空間中的向量運算,而向量空間上的相似度可以用來表示文本語義上的相似度。此外,CNN(卷積神經(jīng)網(wǎng)絡(luò))能用來解決圖像高層特征提取、分類、識別等計算機視覺難題,LR(邏輯回歸)則具有易訓(xùn)練、易并行、泛化能力強等特性,適用于高維度海量數(shù)據(jù)的二分類任務(wù)。
每一項技術(shù)的最終目標(biāo)都是惠及大眾,人工智能也是如此。要說AI領(lǐng)域最接地氣的應(yīng)用,應(yīng)該就是圖像和語音識別了。先說語音,國內(nèi)廠商已經(jīng)可以保證穩(wěn)定性和準(zhǔn)確率,以騰訊為例,通用領(lǐng)域的識別率能達到93.8%,可以做到情緒識別、區(qū)分說話人、云存儲彈性擴容等功能。不過,要想進入更深層次的語音識別,還要有對情境的理解,這方面有很大的努力空間。至于圖像,人臉識別算是最常用的技術(shù)之一,騰訊提供了“人臉檢測與分析”、“人臉比對”、“人臉驗證”、“人臉識別”等一整套技術(shù)方案。其中,人臉檢測技術(shù)準(zhǔn)確率和召回率分別超過99%和95%,人臉驗證技術(shù)準(zhǔn)確率為99.65%。
云和大數(shù)據(jù)指引人工智能改變未來
無論是搜索、智能識別,還是機器學(xué)習(xí),BAT在人工智能領(lǐng)域的覆蓋面已經(jīng)很廣,背后的技術(shù)實力也與谷歌、微軟等逐漸縮小。在數(shù)據(jù)規(guī)模上,國內(nèi)企業(yè)的資源并不輸海外,需要加強的就是如何更有效地利用這些數(shù)據(jù),從而改善人們的生活。
得益于大數(shù)據(jù)和云計算的支持,互聯(lián)網(wǎng)正在向物聯(lián)網(wǎng)擴展,人工智能則是升級體驗、解放生產(chǎn)力的重要手段。邁克爾·戴爾稱,今天的處理能力、帶寬、存儲正以每年10倍的速度成倍增長,未來15年的技術(shù)將比現(xiàn)在強大1000倍。
如今,大數(shù)據(jù)影響著各個行業(yè),創(chuàng)造了巨大的商業(yè)價值。通過結(jié)合大數(shù)據(jù)和云計算,人工智能將更好地服務(wù)于人們的生活,推動時代進步。這一發(fā)展過程中,巨頭企業(yè)已經(jīng)開始利用數(shù)據(jù)規(guī)模和技術(shù)優(yōu)勢深耕布局,騰訊就是其中之一。
(審核編輯: 智匯小蟹)
分享