清華大學(xué)教授宋士吉：新一代人工智能發(fā)展戰(zhàn)略下機器學(xué)習(xí)理論與方法

2019-02-26 15:29:01

來源：智匯工業(yè)

點擊：2616

A⁺ A^-

關(guān)鍵詞：人工智能工業(yè)互聯(lián)網(wǎng) 智能制造

　感謝工業(yè)互聯(lián)網(wǎng)協(xié)會的邀請，我的題目有點偏理論，但是問題是面向智能制造的。我匯報五個方面的內(nèi)容第一是人工智能的背景，我給大家看看人工智能的近期目標和遠期目標。遠期目標，就是揭示人工智能的根本機理，用智能機器去模擬，去仿真人類的智能。這涉及到很多科學(xué)領(lǐng)域，包括腦科學(xué)、認知科學(xué)、計算機、系統(tǒng)科學(xué)和控制論。

　　近期的目標就是怎么能夠讓機器更多地響應(yīng)它的智能，有沒有可能超過人的智能，這是智能制造，下面是一些智能制造的復(fù)雜制造過程的圖。這是智能制造的十個領(lǐng)域，特別是新一代人工智能，包括相關(guān)的領(lǐng)域，航空航天的，也包括生物制造，都在里面，船舶、電力、材料。右邊是從1989年到2015年國際上在新一代人工智能領(lǐng)域的發(fā)展的初步框架。

　　新一代人工智能的國家戰(zhàn)略，美國人工智能已上升為國家戰(zhàn)略。從2013年提出來的，推動創(chuàng)人工智能的創(chuàng)新研究計劃。到2014年的1月，2015年，一直到CSIS發(fā)布國防2045，DARPA支撐美國第三次的抵消戰(zhàn)略，最后白宮成立人工智能委員會。特朗普提出了人工智能的發(fā)展倡議書，提出了幾個方面，現(xiàn)在我們國家在人工智能的領(lǐng)域發(fā)展得比較快，也引起了美國的關(guān)注。

　　這是中國新一代人工智能發(fā)展的路線圖，國務(wù)院關(guān)于積極推進互聯(lián)網(wǎng)+的行動計劃指導(dǎo)意見，一直到國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃綱要，到互聯(lián)網(wǎng)+人工智能的實施方案。人工智能2.0和1.0有一些實質(zhì)性的區(qū)別，這里包括哪些方面？一個是從信息的新環(huán)境，還有新目標，包括可升級的新技術(shù)，從這幾個方面來描述中國的人工智能2.0。

　　新目標包括智慧城市、智能經(jīng)濟、智能醫(yī)療、智能家具、智能駕駛等，可升級的技術(shù)有大數(shù)據(jù)智能、跨媒體智能、自主智能、人機混合智能、群體智能。這是人工智能2.0的五個方向，這也是科技部頒布的，去年發(fā)布的新一代人工智能的發(fā)展規(guī)劃，基本上就是圍繞著五個方面進行布局和部署。

　　可以說人工智能的發(fā)展引起了世界各個發(fā)揚光大和發(fā)展中國家的關(guān)注，不惜花重金來發(fā)展新一代的人工智能?，F(xiàn)在各國都意識到，人工智能是開啟未來智能世界的鑰匙。未來科技的發(fā)展戰(zhàn)略制高點，誰可以掌握人工智能，誰就會成為未來核心技術(shù)的掌握者。

　　智能制造是智能技術(shù)，特別是新一代人工智能技術(shù)，在制造全生命周期的應(yīng)用當中涉及的理論方法、技術(shù)和應(yīng)用。智能制造的另一種說法，從制造的整個過程，從設(shè)計、加工、管理、銷售，一直到報廢處理的全過程。這里面要達到制造業(yè)智能增長，包容性增長、可持續(xù)性增長的目標。

　　智能制造技術(shù)，涉及到的各種理論和方法。從技術(shù)角度來看包括幾個環(huán)節(jié)，包括智能設(shè)計、加工、操作、控制、工藝規(guī)劃、調(diào)度管理、物流、裝配，還有檢測、診斷。

　　人工智能的基礎(chǔ)是大數(shù)據(jù)，涉及到人工智能的應(yīng)用領(lǐng)域包括移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融、電信等各個領(lǐng)域，包括數(shù)據(jù)的采集、存儲、推理、分析，一直到應(yīng)用各個方面這就是關(guān)于機器學(xué)習(xí)的最簡單的框架，我們說，從機器學(xué)習(xí)的角度來講，我們就只有數(shù)據(jù)，從數(shù)據(jù)里面，我們希望通過訓(xùn)練能辨識出一個模型，這個模型怎么辨識，是動態(tài)的還是靜態(tài)的？

　　從數(shù)據(jù)到模型的過程，用到的就是算法。有了模型以后，進一步的還得到了更多的數(shù)據(jù)，所以這個數(shù)據(jù)和模型之間是一個交互的，這是一個簡單的優(yōu)化過程，就是二次優(yōu)化。從機器學(xué)習(xí)的角度來說，機器學(xué)習(xí)包括三類，一類就是監(jiān)督式，還有一類是無監(jiān)督的，最后一個是半監(jiān)督的。

　　什么是監(jiān)督式的？從數(shù)學(xué)的角度來看，系統(tǒng)有輸入、有輸出，有X，有Y，你來辨識非線性過程。什么是無監(jiān)督？系統(tǒng)里面只有自帶的X，沒有Y，還有一類是半監(jiān)督的，就是既包括輸入也包括輸出，怎么用這三個學(xué)習(xí)辦法進行模式識別，并且進行系統(tǒng)辨識和應(yīng)用？這一塊講了機器學(xué)習(xí)方法在風機發(fā)電里面的應(yīng)用，我們課題組提出來了密集連接的神經(jīng)深度網(wǎng)絡(luò)。

　　風力發(fā)電里面怎么用深度學(xué)習(xí)，運行維護費用占得很高，大概有10%到15%。在海上風力很大的時候這個比例高達20%。所以我們?nèi)绾谓档瓦\行和維護成本就成為了關(guān)鍵，研究風力發(fā)電診斷的意義在哪？因為它的成本很高，每一次維修都需要花大量的成本，搞智能故障診斷和健康管理有非常大的意義。不僅是在風電領(lǐng)域，當然在高鐵、飛機上，都可以用，方法是通用的。

　　我們的目的就是降低維護成本，提高風力發(fā)電機組的安全性和可靠性。這是我們做的魯棒SVM，輸入數(shù)據(jù)帶噪聲，輸出數(shù)據(jù)也帶噪聲，這個時候如何建立一個魯棒SVM模型，它有更好的魯棒性和抗意外性，SVM的敏感性要更好。檢查一個風電機組有沒有故障的核心，就是看分工的曲線，輸入和輸出看有多大的風。如果說分工的曲線是正常的，說明你的風機沒有問題，如果出了問題肯定是風機有故障了，再用機器學(xué)習(xí)的方法進行故障定位，原因的分析也可以找到。

　　理論上是這樣的模型，我們建立一個魯棒SVM，就是右邊加了一個robust，過去是沒有的，這樣的模型怎么解？我們變成機會約束。再把機會約束一轉(zhuǎn)成二階錐規(guī)劃，這個結(jié)果是2012年的文章。這是一個擬合的效果，用我們的方法擬合的，還用魯棒SVM擬合的效果?；诎氡O(jiān)督學(xué)習(xí)的故障診斷，剛才說了，監(jiān)督學(xué)習(xí)只有X跟Y，有輸入有輸出，半監(jiān)督的，有些數(shù)據(jù)是有X和Y的，還有一些樣本只是還有自變量，沒有輸出。這個問題也非常有用，半監(jiān)督學(xué)習(xí)能夠通過對數(shù)據(jù)的分布特征找它分布特征的規(guī)律，可以利用有標簽的樣本和無標簽的樣本信息獲得單一的有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的算法就是說它可以對數(shù)據(jù)的分布特征進行研究，然后來提高我監(jiān)督學(xué)習(xí)算法的效果。

　　我們提出了什么？我們做機器學(xué)習(xí)的時候都要做這個，就是聚類假設(shè)，屬于同一個聚類的樣本，屬于同一類別的概率更大。進一步演化以后，就是低密度分離假設(shè)，最后是高分離概率假設(shè)。我們建立了一個模型，這個叫做regression，這個概率最大，概率是原理分類面，最后我們把這個模型分析出來，然后給出解。最后轉(zhuǎn)化成一個二階錐規(guī)劃，我們還是用交替優(yōu)化的方法，就是兩個變量，我固定一個另外一個。下面是另外一個應(yīng)用，半監(jiān)督學(xué)習(xí)方法的應(yīng)用。

　　最后我介紹一點強化學(xué)習(xí)，強化學(xué)習(xí)可以追溯到19世紀巴甫洛夫的條件反射，到20世紀80年代由Barto等人發(fā)展成理論，廣泛應(yīng)用于人工智能、機器學(xué)習(xí)和自動控制領(lǐng)域，基本思想就是從與環(huán)境的不斷交互試錯中學(xué)習(xí)來校正系統(tǒng)的行為。我們要給一個行為，并且得到了一個周期里面的收益，這就是馬爾科夫決策過程。

　　那么在國外，這樣的模型可以說用的是非常廣，在美國MIT，最好的研究組也在研究這個案例。包括阿爾法狗，其實都是這樣的模型這是我們優(yōu)化的目標，使得我的期望最大，就跟開車一樣，你開車控制的是剎車和油門，你的狀態(tài)是車的速度和車的位置，你踩了油門以后車到了另外一個位置，然后你再判斷你走得對不對。在另一段里重新做決策，這一類問題就是序貫決策問題。如果從這個狀態(tài)到下一個狀態(tài)的轉(zhuǎn)移概率也可以求出來的話直接就可以求解了，但是我們的問題是沒有轉(zhuǎn)移概率，所以就提出來了強化學(xué)習(xí)的概念。就是在每一個周期的時候，有一個狀態(tài)，我就對應(yīng)一個行為。

　　這個E就是數(shù)學(xué)期望，一般是大于0小于1，這包括兩個部分，一個叫做動作函數(shù)，一個叫做價值函數(shù)，對應(yīng)的右邊就是兩個網(wǎng)絡(luò)，一個叫做評價網(wǎng)絡(luò)，還有一個叫做策略網(wǎng)絡(luò)，我們先求里面的過程，這個叫做評價網(wǎng)絡(luò)，后面的這個網(wǎng)絡(luò)就是策略網(wǎng)絡(luò)。通過這兩個網(wǎng)絡(luò)的交互迭代，最后找出解。

　　下面我講一下海洋的應(yīng)用，這是深海機器人，就是我做的一個自然基金的一個儀器項目，控制水下機器人，把它用上去了?，F(xiàn)在的控制方法還沒有人這么做，他們都是傳統(tǒng)的控制。這個機器人剛剛造出來，這個機器人今年要做海試，就是海底噴火山。深海的意義，海洋現(xiàn)象是20世紀海洋科學(xué)界的重大發(fā)現(xiàn)之一，主要的挑戰(zhàn)在這里。這個噴口是干什么就是地球里面有一些地質(zhì)構(gòu)造的斷裂帶里面有破損的，包括金銀銅鐵，現(xiàn)在還有一個極端的生物環(huán)境，我們的目標就是找到這個噴口，找到海底噴火的地方，就得靠水下機器人去找。

　　過去水下機器人不帶智能，只是船來控制，通過控制船，自己也能動。我們做的機器人就是加上了智能，有兩個意義，第一怎么做路徑規(guī)劃，第二怎么實時控制我的機器人，一步一步逼向我的目標。只有兩個科學(xué)問題，就是如何找噴口，第二是如何控制機器人。這是AUV，找噴口，這就是MDP建模，我們可以連接為部分可觀測的MDP，里數(shù)據(jù)，有觀測數(shù)據(jù)，嚴格地講有些信息是隱藏的。

　　我們通過POMDP的模型，這里的問題是已知機器人當前的位置和狀態(tài)，當前的位置、速度，包括檢測到的噴口信息、濃度，包括化學(xué)傳感器的信息。怎么根據(jù)我現(xiàn)在的狀態(tài)來更好地找到下一步的路，這就是優(yōu)化問題。最后我找到了最終的噴口，這就是MDP，你根本不知道轉(zhuǎn)移概率，但是其他的狀態(tài)我都可以通過傳感器感受到，就是在已知狀態(tài)不知道概率的時候，這個模型是最管用的。

　　這是設(shè)計的網(wǎng)絡(luò)，一個叫做策略網(wǎng)絡(luò)，一個叫評價網(wǎng)絡(luò)。這就是牛頓法，在第七個周期里面的收益，這是T+1周期往后的收益，W是權(quán)重，原來是分線函數(shù)，現(xiàn)在是線性函數(shù)，這是迭代的補償。另外是逼近網(wǎng)絡(luò)的更新步驟，它的原理就在這里，這里有一個網(wǎng)絡(luò)，綜合在一起又是一個網(wǎng)絡(luò)，我最終找的就是最終策略。

　　這是仿真的結(jié)果，基于強化學(xué)習(xí)的仿真結(jié)果，有的時候我們把歷史數(shù)據(jù)用上，效果會更好，更能快速地找到優(yōu)點。還有一個例子是控制水下機械，它可以控制機器人，而且這樣的控制方法不需要基于機理模型，將來也可以把這個方法和基于機理模型的方法結(jié)合在一起，效果比基于強化學(xué)習(xí)的會更好，這是一個優(yōu)化問題。這里有三種控制模式，一個是深度控制、曲線控制還有海床控制。深度控制就是固定深度，這個屬于避障控制，那就是海底的造型很特別，要始終跟海底保持距離。第二就是海床追蹤，海床的變化比較平穩(wěn)，沒有明顯的趨勢變化，但是跟海底的距離幾乎是恒定的。這是我們常用的幾種AUV，采取的傳統(tǒng)控制辦法，PID、模型預(yù)測控制，嚴格依賴于精準的模型，AUV控制當中很難滿足，模型涉及到海水，那個東西一個地方走一遍，所以精準的模型是有問題的。那么我們提出了這樣的方法，大家看我們怎么來選狀態(tài)，速度、位置，什么是動作，比如說發(fā)動機的轉(zhuǎn)速，對于三種類型的控制問題，關(guān)鍵信息是什么，狀態(tài)是什么，獎勵是什么，我們都做了研究，大家都可以找到論文。剩下的兩個網(wǎng)絡(luò)一個是評價網(wǎng)絡(luò)，另外一個是策略網(wǎng)絡(luò)，這個評價網(wǎng)絡(luò)就是已知X和K，必須假定策略是已知的，實際上你是沒有策略的，所謂的策略網(wǎng)絡(luò)就是一個狀態(tài)對應(yīng)著一個行為，我找最好的策略，使得這個東西最好。一個是評價網(wǎng)絡(luò)的權(quán)重更新算法，還有一個是策略網(wǎng)絡(luò)權(quán)重的更新算法，有了這兩個算法我們就可以做仿真計算，當然還有一些其他的分析，理論分析就不講了，特別是關(guān)于解的穩(wěn)定性、敏感性的分析，也有理論上的推導(dǎo)。這是我們的方法，跟其他的方法，比如說在超調(diào)量和時間反映因素上，我們好于傳統(tǒng)的LKI，線性二次積分，比另外一個是NMPC，比它的時間要好。這是我們算法跟其他算法的對比分析。

　　隨著大數(shù)據(jù)時代的到來，基于大數(shù)據(jù)挖掘與機器學(xué)習(xí)的方法成為近年來的研究熱點，包括建模問題，優(yōu)化問題，各種智能方法，挖掘內(nèi)在的規(guī)律，實現(xiàn)各系統(tǒng)的智能的充分發(fā)揮。另外就是說人工智能已經(jīng)上升到了國家戰(zhàn)略高度，數(shù)據(jù)是關(guān)系到國家安全的重要資源，大數(shù)據(jù)和人工智能的結(jié)合，將對國家的經(jīng)濟、社會、文化產(chǎn)生深遠的影響地也會改變?nèi)祟惿a(chǎn)生活方式，謝謝。

(審核編輯: 智匯小新)

聲明：除特別說明之外，新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認為內(nèi)容侵權(quán)，請聯(lián)系我們刪除。

分享

免费色播,亚洲国产欧美国产第一区二区三区,毛片看,日本精品在线观看视频,国产成人精品一区二区免费视频,日本黄色免费网站,一级毛片免费

清華大學(xué)教授宋士吉：新一代人工智能發(fā)展戰(zhàn)略下機器學(xué)習(xí)理論與方法

點擊排行

專題