免费色播,亚洲国产欧美国产第一区二区三区,毛片看,日本精品在线观看视频,国产成人精品一区二区免费视频,日本黄色免费网站,一级毛片免费

清華大學(xué)教授宋士吉:新一代人工智能發(fā)展戰(zhàn)略下機器學(xué)習(xí)理論與方法

來源:智匯工業(yè)

點擊:2616

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞:人工智能 工業(yè)互聯(lián)網(wǎng) 智能制造

        感謝工業(yè)互聯(lián)網(wǎng)協(xié)會的邀請,我的題目有點偏理論,但是問題是面向智能制造的。我匯報五個方面的內(nèi)容第一是人工智能的背景,我給大家看看人工智能的近期目標和遠期目標。遠期目標,就是揭示人工智能的根本機理,用智能機器去模擬,去仿真人類的智能。這涉及到很多科學(xué)領(lǐng)域,包括腦科學(xué)、認知科學(xué)、計算機、系統(tǒng)科學(xué)和控制論。


      近期的目標就是怎么能夠讓機器更多地響應(yīng)它的智能,有沒有可能超過人的智能,這是智能制造,下面是一些智能制造的復(fù)雜制造過程的圖。這是智能制造的十個領(lǐng)域,特別是新一代人工智能,包括相關(guān)的領(lǐng)域,航空航天的,也包括生物制造,都在里面,船舶、電力、材料。右邊是從1989年到2015年國際上在新一代人工智能領(lǐng)域的發(fā)展的初步框架。


      新一代人工智能的國家戰(zhàn)略,美國人工智能已上升為國家戰(zhàn)略。從2013年提出來的,推動創(chuàng)人工智能的創(chuàng)新研究計劃。到2014年的1月,2015年,一直到CSIS發(fā)布國防2045,DARPA支撐美國第三次的抵消戰(zhàn)略,最后白宮成立人工智能委員會。特朗普提出了人工智能的發(fā)展倡議書,提出了幾個方面,現(xiàn)在我們國家在人工智能的領(lǐng)域發(fā)展得比較快,也引起了美國的關(guān)注。


      這是中國新一代人工智能發(fā)展的路線圖,國務(wù)院關(guān)于積極推進互聯(lián)網(wǎng)+的行動計劃指導(dǎo)意見,一直到國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃綱要,到互聯(lián)網(wǎng)+人工智能的實施方案。人工智能2.0和1.0有一些實質(zhì)性的區(qū)別,這里包括哪些方面?一個是從信息的新環(huán)境,還有新目標,包括可升級的新技術(shù),從這幾個方面來描述中國的人工智能2.0。


      新目標包括智慧城市、智能經(jīng)濟、智能醫(yī)療、智能家具、智能駕駛等,可升級的技術(shù)有大數(shù)據(jù)智能、跨媒體智能、自主智能、人機混合智能、群體智能。這是人工智能2.0的五個方向,這也是科技部頒布的,去年發(fā)布的新一代人工智能的發(fā)展規(guī)劃,基本上就是圍繞著五個方面進行布局和部署。


      可以說人工智能的發(fā)展引起了世界各個發(fā)揚光大和發(fā)展中國家的關(guān)注,不惜花重金來發(fā)展新一代的人工智能?,F(xiàn)在各國都意識到,人工智能是開啟未來智能世界的鑰匙。未來科技的發(fā)展戰(zhàn)略制高點,誰可以掌握人工智能,誰就會成為未來核心技術(shù)的掌握者。


      智能制造是智能技術(shù),特別是新一代人工智能技術(shù),在制造全生命周期的應(yīng)用當中涉及的理論方法、技術(shù)和應(yīng)用。智能制造的另一種說法,從制造的整個過程,從設(shè)計、加工、管理、銷售,一直到報廢處理的全過程。這里面要達到制造業(yè)智能增長,包容性增長、可持續(xù)性增長的目標。


      智能制造技術(shù),涉及到的各種理論和方法。從技術(shù)角度來看包括幾個環(huán)節(jié),包括智能設(shè)計、加工、操作、控制、工藝規(guī)劃、調(diào)度管理、物流、裝配,還有檢測、診斷。


      人工智能的基礎(chǔ)是大數(shù)據(jù),涉及到人工智能的應(yīng)用領(lǐng)域包括移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融、電信等各個領(lǐng)域,包括數(shù)據(jù)的采集、存儲、推理、分析,一直到應(yīng)用各個方面這就是關(guān)于機器學(xué)習(xí)的最簡單的框架,我們說,從機器學(xué)習(xí)的角度來講,我們就只有數(shù)據(jù),從數(shù)據(jù)里面,我們希望通過訓(xùn)練能辨識出一個模型,這個模型怎么辨識,是動態(tài)的還是靜態(tài)的?


      從數(shù)據(jù)到模型的過程,用到的就是算法。有了模型以后,進一步的還得到了更多的數(shù)據(jù),所以這個數(shù)據(jù)和模型之間是一個交互的,這是一個簡單的優(yōu)化過程,就是二次優(yōu)化。從機器學(xué)習(xí)的角度來說,機器學(xué)習(xí)包括三類,一類就是監(jiān)督式,還有一類是無監(jiān)督的,最后一個是半監(jiān)督的。


      什么是監(jiān)督式的?從數(shù)學(xué)的角度來看,系統(tǒng)有輸入、有輸出,有X,有Y,你來辨識非線性過程。什么是無監(jiān)督?系統(tǒng)里面只有自帶的X,沒有Y,還有一類是半監(jiān)督的,就是既包括輸入也包括輸出,怎么用這三個學(xué)習(xí)辦法進行模式識別,并且進行系統(tǒng)辨識和應(yīng)用?這一塊講了機器學(xué)習(xí)方法在風機發(fā)電里面的應(yīng)用,我們課題組提出來了密集連接的神經(jīng)深度網(wǎng)絡(luò)。


      風力發(fā)電里面怎么用深度學(xué)習(xí),運行維護費用占得很高,大概有10%到15%。在海上風力很大的時候這個比例高達20%。所以我們?nèi)绾谓档瓦\行和維護成本就成為了關(guān)鍵,研究風力發(fā)電診斷的意義在哪?因為它的成本很高,每一次維修都需要花大量的成本,搞智能故障診斷和健康管理有非常大的意義。不僅是在風電領(lǐng)域,當然在高鐵、飛機上,都可以用,方法是通用的。


      我們的目的就是降低維護成本,提高風力發(fā)電機組的安全性和可靠性。這是我們做的魯棒SVM,輸入數(shù)據(jù)帶噪聲,輸出數(shù)據(jù)也帶噪聲,這個時候如何建立一個魯棒SVM模型,它有更好的魯棒性和抗意外性,SVM的敏感性要更好。檢查一個風電機組有沒有故障的核心,就是看分工的曲線,輸入和輸出看有多大的風。如果說分工的曲線是正常的,說明你的風機沒有問題,如果出了問題肯定是風機有故障了,再用機器學(xué)習(xí)的方法進行故障定位,原因的分析也可以找到。


      理論上是這樣的模型,我們建立一個魯棒SVM,就是右邊加了一個robust,過去是沒有的,這樣的模型怎么解?我們變成機會約束。再把機會約束一轉(zhuǎn)成二階錐規(guī)劃,這個結(jié)果是2012年的文章。這是一個擬合的效果,用我們的方法擬合的,還用魯棒SVM擬合的效果?;诎氡O(jiān)督學(xué)習(xí)的故障診斷,剛才說了,監(jiān)督學(xué)習(xí)只有X跟Y,有輸入有輸出,半監(jiān)督的,有些數(shù)據(jù)是有X和Y的,還有一些樣本只是還有自變量,沒有輸出。這個問題也非常有用,半監(jiān)督學(xué)習(xí)能夠通過對數(shù)據(jù)的分布特征找它分布特征的規(guī)律,可以利用有標簽的樣本和無標簽的樣本信息獲得單一的有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的算法就是說它可以對數(shù)據(jù)的分布特征進行研究,然后來提高我監(jiān)督學(xué)習(xí)算法的效果。


      我們提出了什么?我們做機器學(xué)習(xí)的時候都要做這個,就是聚類假設(shè),屬于同一個聚類的樣本,屬于同一類別的概率更大。進一步演化以后,就是低密度分離假設(shè),最后是高分離概率假設(shè)。我們建立了一個模型,這個叫做regression,這個概率最大,概率是原理分類面,最后我們把這個模型分析出來,然后給出解。最后轉(zhuǎn)化成一個二階錐規(guī)劃,我們還是用交替優(yōu)化的方法,就是兩個變量,我固定一個另外一個。下面是另外一個應(yīng)用,半監(jiān)督學(xué)習(xí)方法的應(yīng)用。


      最后我介紹一點強化學(xué)習(xí),強化學(xué)習(xí)可以追溯到19世紀巴甫洛夫的條件反射,到20世紀80年代由Barto等人發(fā)展成理論,廣泛應(yīng)用于人工智能、機器學(xué)習(xí)和自動控制領(lǐng)域,基本思想就是從與環(huán)境的不斷交互試錯中學(xué)習(xí)來校正系統(tǒng)的行為。我們要給一個行為,并且得到了一個周期里面的收益,這就是馬爾科夫決策過程。


      那么在國外,這樣的模型可以說用的是非常廣,在美國MIT,最好的研究組也在研究這個案例。包括阿爾法狗,其實都是這樣的模型這是我們優(yōu)化的目標,使得我的期望最大,就跟開車一樣,你開車控制的是剎車和油門,你的狀態(tài)是車的速度和車的位置,你踩了油門以后車到了另外一個位置,然后你再判斷你走得對不對。在另一段里重新做決策,這一類問題就是序貫決策問題。如果從這個狀態(tài)到下一個狀態(tài)的轉(zhuǎn)移概率也可以求出來的話直接就可以求解了,但是我們的問題是沒有轉(zhuǎn)移概率,所以就提出來了強化學(xué)習(xí)的概念。就是在每一個周期的時候,有一個狀態(tài),我就對應(yīng)一個行為。


      這個E就是數(shù)學(xué)期望,一般是大于0小于1,這包括兩個部分,一個叫做動作函數(shù),一個叫做價值函數(shù),對應(yīng)的右邊就是兩個網(wǎng)絡(luò),一個叫做評價網(wǎng)絡(luò),還有一個叫做策略網(wǎng)絡(luò),我們先求里面的過程,這個叫做評價網(wǎng)絡(luò),后面的這個網(wǎng)絡(luò)就是策略網(wǎng)絡(luò)。通過這兩個網(wǎng)絡(luò)的交互迭代,最后找出解。


      下面我講一下海洋的應(yīng)用,這是深海機器人,就是我做的一個自然基金的一個儀器項目,控制水下機器人,把它用上去了?,F(xiàn)在的控制方法還沒有人這么做,他們都是傳統(tǒng)的控制。這個機器人剛剛造出來,這個機器人今年要做海試,就是海底噴火山。深海的意義,海洋現(xiàn)象是20世紀海洋科學(xué)界的重大發(fā)現(xiàn)之一,主要的挑戰(zhàn)在這里。這個噴口是干什么就是地球里面有一些地質(zhì)構(gòu)造的斷裂帶里面有破損的,包括金銀銅鐵,現(xiàn)在還有一個極端的生物環(huán)境,我們的目標就是找到這個噴口,找到海底噴火的地方,就得靠水下機器人去找。


      過去水下機器人不帶智能,只是船來控制,通過控制船,自己也能動。我們做的機器人就是加上了智能,有兩個意義,第一怎么做路徑規(guī)劃,第二怎么實時控制我的機器人,一步一步逼向我的目標。只有兩個科學(xué)問題,就是如何找噴口,第二是如何控制機器人。這是AUV,找噴口,這就是MDP建模,我們可以連接為部分可觀測的MDP,里數(shù)據(jù),有觀測數(shù)據(jù),嚴格地講有些信息是隱藏的。


      我們通過POMDP的模型,這里的問題是已知機器人當前的位置和狀態(tài),當前的位置、速度,包括檢測到的噴口信息、濃度,包括化學(xué)傳感器的信息。怎么根據(jù)我現(xiàn)在的狀態(tài)來更好地找到下一步的路,這就是優(yōu)化問題。最后我找到了最終的噴口,這就是MDP,你根本不知道轉(zhuǎn)移概率,但是其他的狀態(tài)我都可以通過傳感器感受到,就是在已知狀態(tài)不知道概率的時候,這個模型是最管用的。


      這是設(shè)計的網(wǎng)絡(luò),一個叫做策略網(wǎng)絡(luò),一個叫評價網(wǎng)絡(luò)。這就是牛頓法,在第七個周期里面的收益,這是T+1周期往后的收益,W是權(quán)重,原來是分線函數(shù),現(xiàn)在是線性函數(shù),這是迭代的補償。另外是逼近網(wǎng)絡(luò)的更新步驟,它的原理就在這里,這里有一個網(wǎng)絡(luò),綜合在一起又是一個網(wǎng)絡(luò),我最終找的就是最終策略。


      這是仿真的結(jié)果,基于強化學(xué)習(xí)的仿真結(jié)果,有的時候我們把歷史數(shù)據(jù)用上,效果會更好,更能快速地找到優(yōu)點。還有一個例子是控制水下機械,它可以控制機器人,而且這樣的控制方法不需要基于機理模型,將來也可以把這個方法和基于機理模型的方法結(jié)合在一起,效果比基于強化學(xué)習(xí)的會更好,這是一個優(yōu)化問題。這里有三種控制模式,一個是深度控制、曲線控制還有海床控制。深度控制就是固定深度,這個屬于避障控制,那就是海底的造型很特別,要始終跟海底保持距離。第二就是海床追蹤,海床的變化比較平穩(wěn),沒有明顯的趨勢變化,但是跟海底的距離幾乎是恒定的。這是我們常用的幾種AUV,采取的傳統(tǒng)控制辦法,PID、模型預(yù)測控制,嚴格依賴于精準的模型,AUV控制當中很難滿足,模型涉及到海水,那個東西一個地方走一遍,所以精準的模型是有問題的。那么我們提出了這樣的方法,大家看我們怎么來選狀態(tài),速度、位置,什么是動作,比如說發(fā)動機的轉(zhuǎn)速,對于三種類型的控制問題,關(guān)鍵信息是什么,狀態(tài)是什么,獎勵是什么,我們都做了研究,大家都可以找到論文。剩下的兩個網(wǎng)絡(luò)一個是評價網(wǎng)絡(luò),另外一個是策略網(wǎng)絡(luò),這個評價網(wǎng)絡(luò)就是已知X和K,必須假定策略是已知的,實際上你是沒有策略的,所謂的策略網(wǎng)絡(luò)就是一個狀態(tài)對應(yīng)著一個行為,我找最好的策略,使得這個東西最好。一個是評價網(wǎng)絡(luò)的權(quán)重更新算法,還有一個是策略網(wǎng)絡(luò)權(quán)重的更新算法,有了這兩個算法我們就可以做仿真計算,當然還有一些其他的分析,理論分析就不講了,特別是關(guān)于解的穩(wěn)定性、敏感性的分析,也有理論上的推導(dǎo)。這是我們的方法,跟其他的方法,比如說在超調(diào)量和時間反映因素上,我們好于傳統(tǒng)的LKI,線性二次積分,比另外一個是NMPC,比它的時間要好。這是我們算法跟其他算法的對比分析。


          隨著大數(shù)據(jù)時代的到來,基于大數(shù)據(jù)挖掘與機器學(xué)習(xí)的方法成為近年來的研究熱點,包括建模問題,優(yōu)化問題,各種智能方法,挖掘內(nèi)在的規(guī)律,實現(xiàn)各系統(tǒng)的智能的充分發(fā)揮。另外就是說人工智能已經(jīng)上升到了國家戰(zhàn)略高度,數(shù)據(jù)是關(guān)系到國家安全的重要資源,大數(shù)據(jù)和人工智能的結(jié)合,將對國家的經(jīng)濟、社會、文化產(chǎn)生深遠的影響地也會改變?nèi)祟惿a(chǎn)生活方式,謝謝。


    (審核編輯: 智匯小新)

    聲明:除特別說明之外,新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認為內(nèi)容侵權(quán),請聯(lián)系我們刪除。