微軟使用微笑訓練AI 人們在迷宮的碰撞次數(shù)減少29%

2020-02-02 09:56:25 來源： it之家

我們生活在一個人工智能爆炸發(fā)展的年代——每隔一小段時間，研究人員們就會想出新奇的人工智能訓練方式。這不，微軟研究院的計算機學家最近就創(chuàng)

我們生活在一個人工智能爆炸發(fā)展的年代——每隔一小段時間，研究人員們就會想出新奇的人工智能訓練方式。

這不，微軟研究院的計算機學家最近就創(chuàng)造了一種用人類情緒來訓練機器自我學習的方法。

該研究使用虛擬代理人來輔助機器在虛擬環(huán)境中學習。研究中極具意義的一點是，它使用了人與系統(tǒng)交互時產(chǎn)生的微笑來訓練AI。

這項研究的背后其實是強化學習

強化學習非常適用于教學系統(tǒng)來訓練機器完成一系列的任務。在這項研究中，應用主要著重于計算機視覺的相關任務。

強化學習的工作原理是通過讓虛擬代理人(agent)在模擬環(huán)境中反復執(zhí)行任務，再將經(jīng)驗提取成策略。用這種方法訓練系統(tǒng)來玩游戲在幾年前十分流行，甚至更先進的算法擊敗了圍棋世界冠軍李世石。

強化學習的關鍵在于它嚴重依賴于代理人通過在虛擬環(huán)境中探索得到的數(shù)據(jù)，該數(shù)據(jù)就是該研究的核心。

微軟研究人員希望采用常規(guī)方法來構建一個極具探索能力的代理人。為了實現(xiàn)這一點，他們使用了另一項技術——模仿學習，即通過使系統(tǒng)與人在模擬環(huán)境中進行交互來完成訓練。

研究者認為，最好的提煉人類探索方式的方法就是通過捕捉真實人類與系統(tǒng)交互的瞬間。基于之前將正面情緒與好奇心進行關聯(lián)并應用于機器學習的研究，研究人員構建了一個用于發(fā)現(xiàn)這些情緒的系統(tǒng)。

最終，他們構建了一個能夠記錄人們在模擬迷宮環(huán)境中駕駛時產(chǎn)生的微笑表情的系統(tǒng)。經(jīng)過多次系統(tǒng)測試后，研究人員發(fā)現(xiàn)這個基于情緒的強化學習系統(tǒng)使代理人的探索持續(xù)時間延長了51%，探索范圍擴大了46%，在迷宮中碰撞的次數(shù)減少了29%。

基于情緒的強化學習

使用情緒反饋例如微笑來訓練機器的意義在于，情緒反應了人類的內在反饋，這一反饋能夠在今后拓展應用到更多領域，而不拘泥于該項研究。另一個在使用強化學習時需要注意的地方是，代理人與模擬環(huán)境的交互很大程度上受系統(tǒng)設計者選擇的特定獎勵機制影響。如果你想訓練一個系統(tǒng)使其在游戲中獲勝，那么你就需要在得分時給予獎勵。

但問題是，生活中發(fā)生的事情并不總是能夠輕易用分數(shù)量化。因此，找到明確的獎勵機制是強化學習研究中的挑戰(zhàn)之一。

通過將微笑定義為正反饋，研究人員發(fā)現(xiàn)了一個訓練人工智能系統(tǒng)的普適化反饋機制，并且這種情緒反饋是較容易獲得的。

基于情緒的強化學習本質上是在人類這一數(shù)億年才形成的智慧生物基礎之上進行的，它使我們能夠快速輕松地量化各種體驗感受。通過有效的調整，該信號可在訓練機器進行學習的過程中做為一種強大的、可擴展性極強的反饋機制。

情緒AI在市場中的應用

除了研究團隊使用的開源微笑探測工具外，還有許多商業(yè)公司也在做這項工作，例如Affectiva公司和Emotient公司(于2016年被蘋果公司收購)。情緒追蹤工具在市場中被稱為“情緒AI”。微軟的這項研究賦予了這些工具新的應用，即可作為基于情緒的強化學習的數(shù)據(jù)來源。

AI在許多領域都可以從人身上習得知識，尤其是服務性經(jīng)濟領域。例如谷歌、奈飛和亞馬遜這些公司都在使用用戶數(shù)據(jù)來自動服務于用戶。我們在使用這些強大的技術平臺時，產(chǎn)生了的大量的數(shù)據(jù)，這些數(shù)據(jù)可用于訓練機器學習系統(tǒng)，從而使這些平臺變得更智能、更強大。

基于情緒的強化學習的應用將為這些平臺開啟新的篇章。強化學習本身就尤其擅長學習如何優(yōu)化一系列的任務。而業(yè)務流程的本質就是一系列的任務，并且業(yè)務流程就是公司為客戶創(chuàng)造價值的核心。在業(yè)務流程中使用強化學習主導這些任務的挑戰(zhàn)在于保障可靠的反饋信息來源。

類似微笑或其它表情的反饋信息來源眾多，這要歸功于無處不在的攝像頭。正如研究人員所指出的，這項技術也可以擴展使用“其他生理信號”，這意味著像亞馬遜和谷歌等收集的聲音數(shù)據(jù)也可以用于訓練機器。就像今天，電話可能被錄音用于訓練和通話質量評估。這項技術使得被訓練的不再是員工，而是智能軟件代理人。

情緒將我們與機器相連結

這些系統(tǒng)究竟從人與他們的交互中學習到了什么呢?如果交互是通過建立關系并使用這些關系，那么機器就會在與我們交互的過程中學習如何與我們建立聯(lián)系以及如何為我們服務。