運(yùn)籌學(xué)教授葉蔭宇:作為 AI 基石,優(yōu)化算法如何在實(shí)際中應(yīng)用?
點(diǎn)擊:1535
A+ A-
所屬頻道:新聞中心
日前,雷鋒網(wǎng)報(bào)道了鈦媒體和杉數(shù)科技主辦的 2017 AI 大師論壇,其中,杉數(shù)科技首席科學(xué)顧問葉蔭宇出席了活動(dòng)并發(fā)表了學(xué)術(shù)演講。作為在運(yùn)籌學(xué)領(lǐng)域的頂尖學(xué)者,葉蔭宇以《優(yōu)化算法的思想及應(yīng)用》為題,主要在運(yùn)籌學(xué)應(yīng)用的物流選址及路徑優(yōu)化、庫存管理、投資組合優(yōu)化三個(gè)方面詳細(xì)闡述了他的看法。
從古至今,“優(yōu)化”一直是生產(chǎn)生活中重要的部分。而運(yùn)籌學(xué)作為優(yōu)化算法的重要根基,在第二次世界大戰(zhàn)期間首先在英美兩國發(fā)展起來,學(xué)者把運(yùn)籌學(xué)描述為就組織系統(tǒng)進(jìn)行各種經(jīng)營所作出決策的科學(xué)手段。二戰(zhàn)結(jié)束后,人們將運(yùn)籌學(xué)應(yīng)用到了企業(yè)和政府之中,為經(jīng)濟(jì)發(fā)展加速,運(yùn)籌學(xué)廣泛的引用在生產(chǎn)、服務(wù)、金融行業(yè)之中。在大數(shù)據(jù)時(shí)代,運(yùn)籌學(xué)進(jìn)一步蓬勃發(fā)展,而如何將大數(shù)據(jù)轉(zhuǎn)化為最優(yōu)決策成為了運(yùn)籌學(xué)重點(diǎn)課題。
葉蔭宇簡介:葉蔭宇是斯坦福大學(xué)李國鼎工程講座教授(K. T. Li Chair Professor),也是優(yōu)化領(lǐng)域基石算法之一——內(nèi)點(diǎn)算法的奠基人之一。因貢獻(xiàn)突出,他曾獲得美國運(yùn)籌與管理學(xué)會馮·諾依曼理論獎(jiǎng),也是迄今為止唯一獲得此獎(jiǎng)的華人學(xué)者。在業(yè)界,葉蔭宇擔(dān)任了優(yōu)化軟件公司 MOSEK 科技顧問委員會主席、杉數(shù)科技的首席科學(xué)顧問。
以下為葉蔭宇演講內(nèi)容,雷鋒網(wǎng)進(jìn)行了不改變原意的編輯 :
1982 年剛到美國讀書的時(shí)候 AI 非常熱,但那時(shí)候年輕人不知道我差點(diǎn)就去搞 AI 了。那時(shí)候要搞所謂的專家系統(tǒng) AI 空間,學(xué)的語言是學(xué) Lisp,沒有很多的數(shù)據(jù),人家有些就總結(jié)不出來,AI 就慢慢的冷下去了。我比較喜歡數(shù)學(xué),就從事了運(yùn)籌學(xué)。
什么是運(yùn)籌學(xué)?它是一種研究優(yōu)化的學(xué)問,就是怎么能夠在實(shí)際生活中,把事情做到極值,不僅僅是找一個(gè)可行的方案,而是一定要找到最優(yōu)的方案。
Nothing at all takes place in the Universe in which some rule of maximum or minimum does not appear. 這是大數(shù)學(xué)家歐拉的話。這種理論也是基于自然形成,也是所謂的一個(gè)平衡,也是能量函數(shù),到了極值。
說到運(yùn)籌學(xué),數(shù)學(xué)怎么能接地氣,怎么落到實(shí)地,怎么真正對人們生活產(chǎn)生一些影響?數(shù)學(xué)家們就開始尋求這樣的方案。在二次大戰(zhàn)的時(shí)候,如何研究盟軍配置,還包括一些博弈問題,以前看過一個(gè)電影叫《A Beautiful Mind》,研究這個(gè)東西研究到博弈空間。
標(biāo)志性的結(jié)果就是 1947 年 George Dantzig 提出線性優(yōu)化,為優(yōu)化中最經(jīng)典的算法, 這就是里程碑的意義。之后到經(jīng)濟(jì)發(fā)展中,運(yùn)籌學(xué)得到很快的發(fā)展,特別是計(jì)算機(jī)的高速發(fā)展。以前是結(jié)構(gòu)問題,可能是要 1 小時(shí),現(xiàn)在可能不到 1 秒就可以解出來,所以這個(gè)硬件的控制,也有算法的提高。
運(yùn)籌學(xué)比 AI 要老,但是 AI 和機(jī)器學(xué)習(xí)又提供了一種機(jī)會,很多頂層的東西都是要靠優(yōu)化,不管是學(xué)習(xí)還是剛才講到的要用決策問題。
整個(gè)來說,所謂優(yōu)化在滿足我們時(shí)有很多要決策的,而且也都是需要比較量化的。滿足一定的約束條件下,使某一個(gè)函數(shù)最大,這就是優(yōu)化問題,怎么把一個(gè)問題變成這個(gè)東西,就需要建模。所以我們一般是從建模到求解,然后再到?jīng)Q策,然后我們就需要一套算法來求解。
在這個(gè)里面,把實(shí)際問題變成數(shù)學(xué)問題,再變成優(yōu)化問題,然后來求解。什么叫大數(shù)據(jù),有很多不同的這個(gè)解釋,數(shù)據(jù)大到一定程度以后,就可以量化了。量化以后,我們可以用數(shù)學(xué)的方程、公式來描述它,然后來決策,變成一個(gè)量化的決策問題。
1982 年我去美國中間經(jīng)歷了 AI,當(dāng)時(shí)是最紅,現(xiàn)在又紅起來。但是有些點(diǎn)我覺得沒變的,優(yōu)化好像始終是不動(dòng)點(diǎn)一樣,不管是你在各行各業(yè)都需要它,因?yàn)樵谶@點(diǎn)上也可以說起來像統(tǒng)計(jì)、數(shù)學(xué)還是一些機(jī)理。
這里面有很多算法的問題,學(xué)習(xí)有很多深度學(xué)習(xí)、MDP、機(jī)器學(xué)習(xí)等等。
我個(gè)人怎么理解 AI?特別是大數(shù)據(jù)時(shí)代的商務(wù)決策,各自所采取的作用,我們要用到很多計(jì)算機(jī)、信息學(xué),包括機(jī)器學(xué)習(xí)、數(shù)據(jù)搜集,然后我們要通過很多機(jī)器學(xué)習(xí)做一些規(guī)律性分析,然后建模做出決策。
從中醫(yī)的角度來說,有點(diǎn)像拉脈一樣,拉了脈以后老中醫(yī)有一個(gè)決策,中醫(yī)來說就是開處方藥。而在這個(gè)過程中如何判斷準(zhǔn)確,開什么處方,有些東西要用三錢,有些東西要四錢,但是有些中醫(yī)搞的不好就是比較模糊,“當(dāng)歸少許”這個(gè)就不清楚。
所以這里面是需要有一些量化、需求管理和規(guī)律性分析。我覺得機(jī)器學(xué)習(xí)確實(shí)做的好,但怎么決策里面都有一些很傳統(tǒng)的優(yōu)化模型和運(yùn)籌學(xué)模型。
我給大家舉幾個(gè)簡單的例子,為什么有些決策模型并不需要深刻的理解就可以得出來?
一、物流選址及路徑優(yōu)化
比如說這個(gè)選址問題,尋求一個(gè)區(qū)域內(nèi)最優(yōu)的倉庫選擇,成本最少。我要建一二三四五個(gè)庫建在什么地方,那么這里面就要權(quán)衡很多,一次建設(shè)費(fèi)多少,建設(shè)費(fèi)之后我服務(wù)區(qū)域有多大,區(qū)域大了以后人家從很遠(yuǎn)的地方跑過來運(yùn)輸成本就高了,那么你可以寫成一個(gè)像這樣的數(shù)學(xué)規(guī)劃方法。
那么這樣的問題怎么選才好,以前的算法,我就把它寫成一個(gè)整數(shù)規(guī)劃?,F(xiàn)在不行,好像有些算法,像幾個(gè)月都算不出解來?,F(xiàn)在很多東西,要隨時(shí)的,有些東西看成是網(wǎng)絡(luò),就要把這個(gè)點(diǎn)放在上面,進(jìn)行隨時(shí)的調(diào)配、重新選址。這個(gè)時(shí)候我的算法就非常快,然后就會有很多近似算法,這里面我們也做過一些工作,就是比較確定性的這個(gè)問題,這里面的算法,選址的問題。
那么有一個(gè)問題就稍微更復(fù)雜一點(diǎn),不是選址,那么選一個(gè)倉庫提供一個(gè)區(qū)域服務(wù),但是這個(gè)是叫 HUB 的選址,有些不是從倉庫發(fā)到某一個(gè)顧客上,某一個(gè)是要經(jīng)過中轉(zhuǎn)站,再到顧客。
比如說航班的調(diào)運(yùn)問題,那么這個(gè)中轉(zhuǎn)站怎么選才好,有一部分有問題,這里面就會有一些選擇。通常我們把選址的問題,叫作戰(zhàn)略性的決策,一旦選了以后幾年都不會變。決策又分為戰(zhàn)略決策、戰(zhàn)術(shù)決策、operation 決策,而這里面是 operation 決策。
我現(xiàn)在要送貨,送到這么多的點(diǎn)上,如何都送出去然后回到出發(fā)的地點(diǎn)使整個(gè)距離最小,這是旅行商問題,這也是很經(jīng)典、很確定性的。
在整個(gè)地方因?yàn)橛纸熊囕v調(diào)度問題,當(dāng)然實(shí)際問題比這更復(fù)雜,一輛車不能跑,可能幾千上萬輛車誰跑哪些地點(diǎn)、哪些區(qū)域、又怎么選址,這里面就非常非常復(fù)雜了,而且需要取貨,同時(shí)送貨,你取貨的話必須要保證在某一個(gè)時(shí)間點(diǎn)上,或者時(shí)間窗口。這個(gè)就是運(yùn)籌學(xué)比較擅長的問題,要非常實(shí)時(shí)的做這些問題。
這是一個(gè)簡單的解決方案,分而治之,我現(xiàn)在有 5 輛車要服務(wù)這個(gè)區(qū)域,首先就建立一個(gè)服務(wù)區(qū)的概念,怎么把這個(gè)大的區(qū)域分成 50 分,每一個(gè)區(qū)域選擇一個(gè)分點(diǎn),這個(gè)我們叫區(qū)域選擇,非常的大。
選了以后,我知道我在分這個(gè)區(qū)域的時(shí)候,每個(gè)區(qū)域的這個(gè)工作量都是什么,盡量的均勻的,要不然我一個(gè)區(qū)域很大,跑兩天跑不完,一個(gè)區(qū)域半天就跑完了。
這應(yīng)用在實(shí)際問題中。大家看到了沒有,這里面有 50 輛車,現(xiàn)在這個(gè)圖在做什么,找路徑。這是一個(gè)實(shí)際問題,原來是一個(gè)大的地理數(shù)據(jù)圖,那么這個(gè)問題是每一個(gè)街道都要跑的,我再劃分這個(gè)區(qū)域的時(shí)候每個(gè)區(qū)域里街道的總長度是基本上相似的。但是哪怕街道一樣,我要拿每一個(gè)顏色的這個(gè)就有這個(gè)扯進(jìn)去跑,我在跑這個(gè)區(qū)域的時(shí)候,怎么跑到最大,把所有的街道都跑一趟,這個(gè)時(shí)候就有路徑問題。
這個(gè)問題從優(yōu)化、運(yùn)籌學(xué)說是研究很老的問題。要把每個(gè)街道都走一道,然后這各區(qū)域就完成了,這個(gè)主要是為了地圖公司。
美國有一個(gè)很有名的地圖公司,后來諾基亞買了。我相信大家肯定用過 GPS,是兩個(gè)核心技術(shù),一個(gè)核心技術(shù)也就是衛(wèi)星定位,經(jīng)度緯度定位以后,所以的地理信息位置,都是搜集過來的,那么街道的地理數(shù)據(jù),城市在不斷的變,所以每次都要派一輛車或者用圖像的信息把街道信息改變都要重新搜集進(jìn)來,要派一輛車把每個(gè)街道跑一道。上面就一個(gè)攝像頭,非常高效,然后全部搜起來,去做這個(gè)事情。
這個(gè)時(shí)候每一個(gè)城市都要把這個(gè)街道跑一道的話,不可能跑一輛車,可能是 50 輛車,我們怎么劃分這個(gè)車輛的區(qū)域,以前是用郵政編碼來分,由于城市的改變有些郵政編碼,有的會大好幾倍。這樣分就不合理,我們要根據(jù)這個(gè)瞬時(shí)情況進(jìn)行分析。如何判斷有效,原來要用 75 輛車現(xiàn)在 60 輛就夠了,原來用兩天時(shí)間,現(xiàn)在一天半,我們確實(shí)講,效率提高了25% 到 30%,這個(gè)技術(shù)諾基亞還在用,全世界 26 個(gè)國家在使用。
我不知道大家剛才看到我在排序的過程中,在這個(gè)路徑過程當(dāng)中大家也都沒有遇到,我原來認(rèn)為我排出來最后的總路程最短,后來給我們提一個(gè)要求這里面有多少是左轉(zhuǎn)多少是右轉(zhuǎn),你能不能排路徑的時(shí)候,盡量向右轉(zhuǎn)。因?yàn)榭紤]的是要完成的時(shí)間,左轉(zhuǎn)所要花的時(shí)間,要比向右轉(zhuǎn)高 5 到 10 倍。因?yàn)橛屑t綠燈,所以我們用運(yùn)籌學(xué)的辦法把這個(gè)解決掉。
再舉一個(gè)路徑優(yōu)化的問題,大家都在搞所謂的無人倉。有一些小車搬運(yùn)載有貨物的托盤到空閑工作臺,然后小車搬運(yùn)到托盤從工作臺回到倉庫空儲位,我們叫回庫。然后小車搬運(yùn)空托盤從工作臺到托盤回收處,我們叫回收。這里面都是一些貨柜,怎么拖起來怎么用,又要路徑又要協(xié)調(diào)。
我覺得在我們國內(nèi)研究機(jī)器人,研究的比較多的是提高機(jī)器人自身的能力,我覺得做的非常好。個(gè)人能力都非常好,但是我們國家在很多問題上,缺少通盤調(diào)配和安排。機(jī)器人那么強(qiáng),在一個(gè)團(tuán)隊(duì)工作的時(shí)候是不是就很強(qiáng)了,我們就比較缺乏統(tǒng)籌的軟件決策系統(tǒng)。就像我們中國足球到個(gè)人,也許有些能力很強(qiáng),但是在一起就不行。我們很注重個(gè)人能力的提高,人都不要輸在起跑線上,但是我覺得我們國家,長期缺乏一種集體的、統(tǒng)籌的,這樣決策的開發(fā),或者能力的提高。每個(gè)機(jī)器人都在瞎跑的話肯定不行,包括無人車。
很多公司都在考慮無人車的技術(shù)多強(qiáng),但是其實(shí)最主要的問題是什么,反而是無人車之間的協(xié)調(diào)、調(diào)配和統(tǒng)一指揮。
比如說這里面是工作臺,某一個(gè)區(qū)域的貨來了以后,我們來分擔(dān),然后這是一個(gè)動(dòng)圖,整個(gè)的這個(gè)貨品的分擔(dān),這里面有很多問題。我們在研究過程中,比如說這里面的路徑,怎么找路徑,從設(shè)計(jì)上來說,你是設(shè)計(jì)成單行線還是雙程線,這里面有學(xué)問的,如果設(shè)置單行線跑的距離要長,碰撞的可能性就少一些,這里面都可以通過優(yōu)化來進(jìn)行解決。
比如,我們跟合作的電商進(jìn)行物流倉統(tǒng)籌調(diào)配,其中的算法也都是算出來的。這里面是三配,機(jī)器人怎么配到貨柜,怎么收檢這個(gè)站,這個(gè)方法目前是用機(jī)器人去托盤,拖這個(gè)貨柜,把整個(gè)的貨柜用到旁邊的這個(gè)臺上,然后又把這個(gè)拿下來,再把托盤送回去。
我們中國人就很喜歡把國外的東西搬過來,首先是機(jī)器人,把整個(gè)的貨柜拖起來,可能那個(gè)貨柜員就檢一個(gè)東西下來。那么為什么說貨柜不動(dòng),而且貨源坐在機(jī)器人身上然后去檢貨呢,可能人需要多一點(diǎn),但是貨柜可以裝的更高了,空間利用率更高了。
我覺得我們大家可以想到一些更好的,但是這套技術(shù)可以用,而且人坐在機(jī)器上,不僅前后移動(dòng)還可以升降貨柜,可以放更高,運(yùn)行過程中形成三位的倉庫而不是平面的倉庫,這樣我們就可以計(jì)算出來,包括貨的這個(gè)密度,增加多少,倉庫的利用率可以增加多少。那么對于像我們國家,人力相對比較便宜,房非常貴,是不是就更好一點(diǎn),但整個(gè)也是靠產(chǎn)品運(yùn)輸來優(yōu)化問題進(jìn)行求解。
從優(yōu)化的模型下,各種各樣的這個(gè)決策,還有算法,我在國內(nèi)跟工業(yè)界接觸也有一段時(shí)間,工業(yè)界總是覺得我們需要深度學(xué)習(xí),需要機(jī)器學(xué)習(xí),需要把預(yù)測的精度再提高 1%,提高 1%。我覺得有時(shí)候忽略了一點(diǎn),有個(gè)測不準(zhǔn)的這個(gè)定理到一定時(shí)候不可能提高的,有一個(gè)不確定的這個(gè)規(guī)律存在。
股票市場存在一兩百年,也沒有人能 100% 預(yù)測股票市場,所以在測不準(zhǔn)的情況下,在決策上是不是可以做點(diǎn)工作,在知道測不準(zhǔn),可能有不同的這個(gè)狀況出現(xiàn)的情況下,我的決策是不是可以調(diào)整一下,從數(shù)據(jù)到?jīng)Q策我們是不是也可以做一些工作。比如說我可以保證我在期望值省時(shí)一些,但是我保證永遠(yuǎn)不會破產(chǎn),防備那些惡性大事件發(fā)生,所以這些模型在 OR 應(yīng)用到很多的。
比如說路徑優(yōu)化,搞了一個(gè) PonyPlus,我給這個(gè)送貨員把一個(gè)任務(wù)今天要派 10 個(gè)單,給到這個(gè)送貨員,就搞一個(gè)輔助工具怎么去路徑最好,排了一個(gè),這里面都有這樣一些工具。
二、庫存管理
這里面最典型的是庫存問題,就是典型的知道你測不準(zhǔn),我怎么能夠把局測做到最好,把庫存做到最好。以前早的時(shí)候還沒有深度學(xué)習(xí),比如你是小零售商,你進(jìn)貨進(jìn)多少,進(jìn)一個(gè)星期的貨,但是不知道這個(gè)星期有多少,多的有多的損失,少的有少的損失。所以這個(gè)時(shí)候運(yùn)籌學(xué)就有一套方法來處理這個(gè)問題。
最近大家是否聽說過美聯(lián)航上面有一個(gè)人,因?yàn)闄C(jī)票賣多了,上了飛機(jī)被人拖下去,后來是賠了幾個(gè)億,為什么說這是典型問題,是不確定環(huán)境下的決策?
飛機(jī)上座位是固定的 300 個(gè),你事先只賣 300 張票,不會賣多,來的人都可以登記,問題是總有 5% 到 10% 的人,因?yàn)楦鞣N各樣的原因是不會來的。那么你賣 300 張票,5% 到 10% 是不會來,那么那部分就會損失,所以航空公司一般都會多賣一點(diǎn)。這個(gè)道理是一樣的它也要權(quán)衡,它知道有些人不來,我怎么多賣幾張,最好的是有些人不來,不來的人數(shù)正好是我多賣的人數(shù)。但是永遠(yuǎn)是測不準(zhǔn)的,也就出現(xiàn)美聯(lián)航的這個(gè)問題。
一般我們決策是什么,業(yè)內(nèi)通過拍賣的形式,你愿意乘坐下一次航班,給你多少錢,美聯(lián)航說到 600 塊錢就不向上提,所以我們要找一個(gè)權(quán)衡,多賣幾張最好。
這點(diǎn)我們做過很多實(shí)際案例特別是在我們國內(nèi)比較大的電商里,幫他安排,通常周轉(zhuǎn)率在 29 天的,那么現(xiàn)在降 16.5%,庫存的金額大家也都知道零售商最怕的就是庫存周轉(zhuǎn)率太低,買了人家的東西自己又賣不出去,庫存金額降 19.2%,現(xiàn)貨率提升了,GMV 上升 1.9%,而周轉(zhuǎn)天數(shù)下降到 16.5%。就是說我們主要是降低了這部分人力,在不損失這兩個(gè)標(biāo)準(zhǔn)的情況下。
還有一個(gè)辦法根據(jù)某一個(gè)電商的特點(diǎn),叫閃購,出一份貨賣一個(gè)星期就不賣了,那么這個(gè)時(shí)候他們通常這個(gè)電商把那個(gè)星期的預(yù)測,需要備多少貨就決定下來,我們采取兩階段的策略,首先我有一個(gè)總的估量,但是我發(fā)貨的時(shí)候是發(fā)三天的貨,通過第一天的銷量我再決定追不追貨,不知道大家聽懂了沒有,本來一周的需求量是 100,我實(shí)際送到前沿倉庫送 60 件,頭一天的這個(gè)銷量是夠,我是否需要把這 40 件補(bǔ)上去就看第一天的銷量,第一天的銷量對后續(xù)的這個(gè)預(yù)測度就更高。
王曦也是我們斯坦福的學(xué)生,現(xiàn)在是杉數(shù)的產(chǎn)品經(jīng)理。設(shè)計(jì)了一個(gè)叫 Stockgo,根據(jù)我們跟電商還有其他接觸的這個(gè)規(guī)律,我們覺得應(yīng)該給每一個(gè)中小電商,至少提供一個(gè)可能的工具,觀察庫存的周轉(zhuǎn)來確定,幫助他決策。
這里面有很多的功能,比如說對目前庫存狀態(tài)的量化評估,對高精度的銷量預(yù)測,高精度的補(bǔ)貨策略,供應(yīng)鏈管理的智能化轉(zhuǎn)型,包括很多的機(jī)器學(xué)習(xí)工具還有深度學(xué)習(xí)工具,對你的庫存狀態(tài)進(jìn)行評估,精確到每一個(gè) SKU,還有補(bǔ)貨策略,以及個(gè)性化的全云端解決方案,也可以直接把數(shù)據(jù)傳送到杉數(shù),然后幫你進(jìn)行診脈。
總的目的是,把這些 OR 的東西對經(jīng)濟(jì)起大作用,這是已經(jīng)在跟很多 ERP 的公司發(fā)給他們使用,通常周轉(zhuǎn)率會提高到 50%,資金及人力成本降低,電商自動(dòng)化庫存能力也都是在提高,這是一個(gè)小工具,到時(shí)候這些能夠?yàn)閺V大的小電商服務(wù)。你也可以自己調(diào)整,但是至少給了你一個(gè)可能性。
三、投資組合優(yōu)化
最后我就講一講最近還研究一些投資組合優(yōu)化,也就是防范風(fēng)險(xiǎn)。
這里面很多情況有一個(gè)叫 Markowitz,叫現(xiàn)代投資前沿理論。Markowitz 也是在我們斯坦福工作過一段時(shí)間,把投資組合的問題寫成一個(gè)二次規(guī)劃,它的目標(biāo)函數(shù)不是線性函數(shù),是二次函數(shù),所有的約束也都是線性。
如何解這個(gè)問題解的最快,這個(gè)時(shí)候我們就有很多的問題,因?yàn)槌霈F(xiàn)了二次函數(shù)呢,大家知道在統(tǒng)計(jì)中,二次的 X 的平方通常描述變化量,我們需要波動(dòng)不太大,這就是簡單的這個(gè)二次函數(shù),實(shí)際上要解的也就是二次規(guī)劃,常見的軟件 Barra、Axioma、ITG、Mosek 等。
那么在交易過程當(dāng)中,你的算法你的求解器比人家快一些,我個(gè)人認(rèn)為高頻交易的競賽也就是算法速度的這個(gè)競賽。我知道國內(nèi)就用到過這樣的模型,自己解需要解 10 秒鐘的時(shí)間。從 10 秒到 0.04 秒,這里面有算法的模型。
FICO 也是二次規(guī)劃的問題,很多大數(shù)據(jù)公司,越來越重視優(yōu)化,我個(gè)人認(rèn)為美國最早的大數(shù)據(jù)公司就是產(chǎn)生 FICO 的一家公司,國內(nèi)是叫征信打分,就是最早的一個(gè)公司把個(gè)人所有的信息收集起來給這個(gè)人的信譽(yù)打分。我 1982 年去美國要租房子到銀行開款,人家就必要 FICO,我說我是中國來的沒有,到美國租房要擔(dān)保首先就是看這個(gè) FICO,打這個(gè)分。
這個(gè)公司后來做的很好,大家都用他的 FICO,也就提供這個(gè)服務(wù),包括在網(wǎng)上查一查這個(gè)征信也都要交錢,這是美國很早的大數(shù)據(jù)公司,收集很多公司對每個(gè)人也都有打分。就是我說的英國優(yōu)化公司,就被這個(gè) FICO 公司買下來,在大數(shù)據(jù)處理中需要優(yōu)化,能力需要加強(qiáng)。
這里面剛才我提到,我個(gè)人呢,包括杉數(shù)里我們很多人也跟美國運(yùn)通公司做了很多,它是一個(gè)純信用卡公司,不是一個(gè)單元,實(shí)際上是一個(gè)擔(dān)保公司。信用卡消費(fèi)什么東西,你如果消費(fèi)了什么東西,把前期的這個(gè)還上,你沒什么,要還不上就加利息,我總跟人家講運(yùn)通公司是合法的高利貸公司,國內(nèi)有些高利貸公司可能就是比較野蠻。但是他是比較合法的,利率確實(shí)比較高。
那么它的資源是什么,它的核心技術(shù)是什么?就是防范風(fēng)險(xiǎn),希望你消費(fèi)但又希望你不要還錢而且希望你還錢不要還得太快,但是又不希望你永遠(yuǎn)不還。當(dāng)時(shí)在運(yùn)通公司我們工作的時(shí)候,有一個(gè)專門的團(tuán)隊(duì)就搞這個(gè),是一個(gè)大數(shù)據(jù)公司,特別是個(gè)人的一些數(shù)據(jù)在那個(gè)時(shí)候沒有英特網(wǎng),有比信用卡交易紀(jì)錄的更多數(shù)據(jù),也都是這個(gè)數(shù)據(jù)來進(jìn)行識別。具體項(xiàng)目我不清楚了。
有一個(gè)就是我們幫他搞了一個(gè)怎么追債,運(yùn)通公司信用卡如果三個(gè)月連續(xù)不還錢,人家不還錢不能雇殺手卸個(gè)脖子什么的,所以必須要通過合理的方法博弈,心理學(xué)很復(fù)雜的過程。所以有一些和追債公司聯(lián)合起來一起搞。
很多是基于算法的,國內(nèi)公司搞的這個(gè) AI 非常熱,趨勢跟隨很緊,在有些問題上結(jié)合中國特色進(jìn)行研究和開發(fā)。我個(gè)人在 AI 革命過程中,看到了中國體制的這個(gè)優(yōu)點(diǎn)。
為什么呢?也就是說文化的優(yōu)點(diǎn),你過 AI 這個(gè)問題,說句實(shí)話,深度學(xué)習(xí)這一塊還是有很多理論依據(jù),深度學(xué)習(xí)本身目前這個(gè)階段,理論還在發(fā)展,做事情這個(gè)過程有點(diǎn)像我們中醫(yī),有什么問題它很有效,但是真正說出一個(gè)道道來還說不出來,有的時(shí)候也不是 100% 的準(zhǔn)確,但是準(zhǔn)確起來非常好,一個(gè)癌癥病人吃了幾副藥好了,怎么解釋,解釋不了,所以我覺得特別適合中國的這個(gè)文化,不問緣由只看效果,西方在這塊反而比較保守的。
所以我就說中國相對來說數(shù)據(jù)還比較公開自由,壁壘意識沒那么強(qiáng),像美國大公司數(shù)據(jù)絕對不會給你的,所以我覺得為 AI 開辟了很多前途。
但是中國發(fā)展過程中忽略了算法的力量,他們通常是以問題為根本,找了一些參考資料在開源軟件中找一個(gè)算法進(jìn)行試一試,這是要花非常大的這個(gè)功夫,確實(shí)是要耐得住寂寞,但是要用人家的開源軟件,不給的話永遠(yuǎn)會被牽著鼻子走。我知道其實(shí)他們很需要線性規(guī)劃或者說其他的運(yùn)營規(guī)劃。但是你要買人家,出于安全考慮也不行。
比如說 CPLEX,Mosek,現(xiàn)在有些大學(xué)、包括財(cái)經(jīng)大學(xué)、杉數(shù)科技,不光是做實(shí)際應(yīng)用,也培養(yǎng)自己的算法開發(fā),這樣的話就比較有核心技術(shù)了,真正的成為技術(shù)公司而不是咨詢公司。
所以大家投資要是很有錢的話,要耐得住寂寞,要有核心的技術(shù)等等這樣的一些東西。
未來的話,我覺得真是 AI、深度學(xué)習(xí)和機(jī)器學(xué)習(xí)提供了很多的支撐,模型規(guī)模也飛速增長,因?yàn)樾枰笠?guī)模的優(yōu)化算法,以前我認(rèn)為我就要搞出個(gè)萬能的算法,解所有的線性規(guī)劃都要解得快,但是我后來反觀看AI是非常定制的,我可以對某一類方法用的好就用那個(gè)方法,不是追求某一個(gè)統(tǒng)一的算法,或者類別法。反而是比較定制化的,用中國話來講比較實(shí)用主義一些。
不一定追求理論上的完美,有一個(gè)統(tǒng)一的算法,所以這點(diǎn)上,我覺得反過來,AI 對我們的這個(gè)東西有很大的促進(jìn),什么問題需要什么樣的算法,本身需要學(xué)習(xí)的過程。
還有一個(gè)問題,我們以前比較重視凸規(guī)劃,大量的問題是凸規(guī)劃?,F(xiàn)在需要考慮如何集群化、軟硬件結(jié)合,如何利用 GPU 實(shí)現(xiàn)并行運(yùn)算,包括應(yīng)用在智慧供應(yīng)鏈、智能金融、健康管理等領(lǐng)域,我對我們國家的掛號系統(tǒng),有很多的問題能不能采取更好的方法,這樣的話對大家都有好處,這個(gè)東西,我們在 OR 叫排序。
總的來說我是搞運(yùn)籌,因?yàn)橐彩歉銉?yōu)化的,1982 年到現(xiàn)在也大半輩子看到學(xué)術(shù)研究的起伏變化,我原來比較重視理論,很多問題都是寫文章,證明一些東西,也小有成就,但是人到年紀(jì)大的時(shí)候維護(hù)自己工作利益所在。我覺得最大的利益還是對一般人生活產(chǎn)生一些影響,因?yàn)檎l也不知道很多理論證明的結(jié)果有什么東西。
我仔細(xì)想,那些用 PonyPlus 的人,你證明不證明,我可能還是用這個(gè)方法。這就是到一定年齡的時(shí)候,就追求鼓勵(lì)這些年輕人,不光是有一定的學(xué)術(shù)造詣,把自己的學(xué)術(shù)成果轉(zhuǎn)化成技術(shù),對人的基本生活產(chǎn)生影響,這才是 OR 的本質(zhì),OR 是一個(gè)接地氣的科學(xué),是一個(gè)落地的科學(xué),怎么落地不能云里霧里說嚇?biāo)廊?,?jīng)過我們的試驗(yàn),還有杉數(shù)這些年輕人都是從斯坦?;貋淼膶W(xué)生,像運(yùn)籌學(xué),深度學(xué)習(xí)、機(jī)器學(xué)習(xí)確實(shí)對電商這些也都產(chǎn)生了一些影響。
所以我就希望大家多支持我們,使得中國的企業(yè),從一個(gè)比較粗狂的形式進(jìn)一步拓展為依賴于大數(shù)據(jù)、國際技術(shù)來進(jìn)行決策的環(huán)境里面。
(審核編輯: 林靜)
分享