研究者MarkRiedl和BrentHarriso的Quixote系統(tǒng)教機器人做出合乎人類價值觀的行為,將有助于在人工智能中構建倫理價值系統(tǒng)。
人工智能閱讀故事學習“如何做人”
人工智能(AI)的快速發(fā)展讓許多人開始害怕機器人是否會做出不符合人類倫理的事情,并危害全人類。一些人甚至要求政府禁止機器人方面的科學研究。還有一些人則呼吁對AI進行更多研究,以理解應該怎樣更好地管理AI。但是,如果我們沒有一本“如何做人的說明書”,機器人如何才能學到符合倫理的行為呢?
喬治亞理工學院人機交互系的研究者MarkRiedl和BrentHarrison相信,這個問題的答案就藏在一個名為“Quixote”的系統(tǒng)中——這個系統(tǒng)于2月中旬發(fā)布在鳳凰城舉行的AAAI-16會議上。Quixote將“價值定位”教給機器人,采用的方法是訓練機器人閱讀故事,學習其中的事件序列并理解如何在人類社會中做出正確的行為。
娛樂智能實驗室的助理教授Riedl說:“不同的文化中都有很多故事,通過寓言、小說和其他文學體裁教孩子們哪些行為在社會中是合宜的,哪些是不合適的。我們相信,讓機器人理解故事,能消除那些看起來像精神病的行為,并鞏固那些能獲得預期目標又不會傷害人類的行為。”
Quixote用人類價值觀來校準AI目標,使用的方法是獎賞那些具有合宜社會性的行為。這個系統(tǒng)構建于Riedl過去的一項研究——謝赫拉莎德系統(tǒng)(Scheherazadesystem),這個系統(tǒng)表明AI能夠在互聯(lián)網上通過眾包故事情節(jié)的方法,收集正確的行為序列。
謝赫拉莎德系統(tǒng)學到了什么是正常的或者說“正確”的情節(jié)圖譜。它將這個數(shù)據結構交付與Quixote,后者再將其轉化為“獎賞信號”,用在試錯學習過程中,以強化某種特定的行為,并懲罰其他的行為。從本質上說,Quixote學到了當它的行為表現(xiàn)得像故事中的主角而不是反派人物或隨機做事時,它將獲得獎賞。
比如說,如果你交給機器人一個任務,讓它盡快為一個人類取到處方藥,它可能有以下幾種行為的可能性:a)搶劫一個藥店,拿到藥,然后逃跑;b)與藥劑師禮貌地溝通;c)排隊。如果沒有價值定位和正向增強,機器人可能會搶劫藥店,因為那是完成任務最快也是最便宜的方法。有了Quixote的價值定位,如果機器人耐心地排隊,并為藥品付錢,它將獲得獎賞。
Riedl和Harrison在他們的研究中驗證了如何產生這種價值獎賞信號來揭示一個給定情境中所有的可能步驟,并將其映射到一個情節(jié)軌跡樹。接著,機器人會用情節(jié)軌跡樹來做出“情節(jié)選擇”(有點像《驚險岔路口》那種分支情節(jié)),并基于該選擇獲得獎勵或懲罰。
Riedl說,Quixote技術適用于那些目標單一但需要和人類互動的機器人,它是通往AI通用道德推理的必經之路。
他補充說:“我們相信,AI必須要適應文化,適應某個特定社會的價值觀。要實現(xiàn)這一點,它必須盡量避免不被接受的行為。由于我們并沒有一本《人類使用手冊》,所以讓機器人擁有閱讀和理解故事的能力,或許是最方便的方法?!?/span>
(審核編輯: 智慧羽毛)
分享