微軟小冰再進化
圖說:在11月21日周五舉行的微軟小冰科研成果分享會上,微軟小冰首席科學(xué)家宋睿華和他的同事,微軟小冰首席NLP科學(xué)家武威、微軟小冰首席語音科學(xué)家欒劍介紹了最近小冰所取得的新進展。
撰文 | 邸利會
● ● ●
在微軟小冰首席科學(xué)家宋睿華眼中,每一次技術(shù)的革新,改變的都是連接人類和世界的方式。
借助互聯(lián)網(wǎng),可以不必“跨越大半個地球去看你”,技術(shù)壓縮了物理的空間,拉近了人們的距離。換言之,互聯(lián)網(wǎng)延長了你的眼睛和耳朵,讓你方便的觸達(dá)世界的任何角落。
而手機再一次改變了人類和世界連接的方式,手機成了最懂你的人——當(dāng)你打車,手機會知道你常去的地方,當(dāng)你聽歌,手機會推薦給你最喜歡的曲目,甚至有人說,手機比你都更了解你自己。
“ 我們的猜測是AI產(chǎn)品也會成為下一個改變?nèi)祟惡褪澜绶绞降狞c,我們希望小冰所完善的人工智能框架能夠做出這樣的一個連接點?!?nbsp;宋睿華說。
在11月21日周五舉行的微軟小冰科研成果分享會上,宋睿華和他的同事,微軟小冰首席NLP科學(xué)家武威、微軟小冰首席語音科學(xué)家欒劍介紹了最近小冰所取得的新進展。
2014年,小冰在微軟(亞洲)互聯(lián)網(wǎng)工程院誕生,經(jīng)歷了5年時間,今年已經(jīng)進化到了第七代。小冰是一個融合了自然語言處理、計算機語音和計算機視覺等技術(shù)的完備的人工智能底層框架和系統(tǒng)。該框架注重人工智能在擬合人類情商維度的發(fā)展,強調(diào)人工智能情商,而非任務(wù)完成,在人機交互中的基礎(chǔ)價值。
第七代微軟小冰已成為全球最大的跨領(lǐng)域人工智能系統(tǒng)之一,產(chǎn)品形態(tài)涵蓋社交對話機器人、智能語音助理、人工智能內(nèi)容創(chuàng)作和生產(chǎn)平臺等。在全球多個國家,微軟小冰單一品牌已覆蓋6.6億在線用戶、4.5億臺第三方智能設(shè)備和9億內(nèi)容觀眾,在交互場景大幅度拓寬的情況下,微軟小冰與用戶的單次平均對話輪數(shù)(CPS)仍保持在23輪。
把控對話流程
平均對話輪數(shù)當(dāng)然是衡量用戶是否深度參與聊天的重要指標(biāo),不過武威說,在某些情形下,比如商品推薦、智能家居,是“需要越短越好,而且還要答得對”。要讓小冰適應(yīng)如此廣泛的應(yīng)用場景確實是一項挑戰(zhàn)。
武威說,要發(fā)展自我完備的對話機器人,首先需要的是學(xué)習(xí)的能力——可以從人類的對話中學(xué),也可以機器人之間互相學(xué)。此外,機器人還應(yīng)該能自主管理,單輪的表達(dá)管理做好后,還能把控整個的對話流程;最后,機器人應(yīng)該還能連接散落在這個世界上的多模態(tài)的知識。
小冰的對話引擎這些年也經(jīng)歷了進化,從一開始的“檢索模型”,重用已有的人類的對話來實現(xiàn)人機交互,到“生成模型”,可以自己去合成回復(fù),再到“共感模型”,也就是可以自主的去把握整個對話流程。
在各個模型上,武威介紹,他們都做了一些工作和常識。比如,考慮到簡單的生成模型的回復(fù)沒有多少信息量,2017年他們將話題內(nèi)容引入到了回復(fù)中,這樣的回復(fù)就更有內(nèi)容。
“由于我們引入了話題,如果用戶說在左臉頰上有一些血絲,機器回復(fù),我也是敏感肌,敏感肌就是一個話題的詞匯;再比如,有人說,我的皮膚很干,也可以回復(fù),那你補水保濕吧,補水保濕也是一個話題?!?nbsp;武威解釋說。
小冰第六代的“共感模型”,背后包括了兩個模型,回復(fù)生成模型和策略決定模型。武威解釋說,這里的策略可以是主動引導(dǎo)話題,提問,向?qū)Ψ酱_認(rèn)一些事情;也可以是一些情感的表達(dá),通過意圖、話題、情感等策略的組合,可以產(chǎn)生非常多樣、復(fù)雜的對話流程。
融合了對話、語音、文本知識、多媒體的多模態(tài)交互也是武威他們正在研究的重點?!叭绾伟焉⒙湓诟鱾€地方的知識連接起來,然后以一種一致的方式再通過對話機器人輸出出來,我認(rèn)為做到這點之后多模態(tài)交互基本上就解決了?!?nbsp;武威說。
多種風(fēng)格的歌唱
在當(dāng)天的分享會上,欒劍展示了小冰唱歌技術(shù)在過去一年的進展。事實上,在2015年,小冰推出語音聊天功能時就收到了市場的積極反應(yīng),之后又加入了兒化音、中英文混雜朗讀、講兒童故事等,2016年進一步開始嘗試唱歌。
“做唱歌主要有三個原因,一是唱歌門檻比說話高,二是唱歌在情感表達(dá)上更為豐富激烈,三是唱歌本身是很重要的娛樂形式?!?nbsp;欒劍解釋說。
那么,如何讓機器學(xué)習(xí)唱歌了,一是可以像唱歌的人學(xué)習(xí),二是直接通過讀曲譜。這兩種方式對機器來說,第二種要簡單一些?!叭绻麖娜说匿浺羧W(xué)的話,它有時候會需要檢測音高的曲線,需要檢測每個字起始和結(jié)束的位置,還需要去判斷每個發(fā)音,所以這中間都會有一些誤差和錯誤存在,所以如果是有曲譜輸入的話,接下來就會更簡單一些。” 欒劍說。
而唱歌合成的方式也有兩類,一是單元拼接。這個方式比較簡便,但最大的問題是唱出來往往不那么自然,像是一個字一個字的蹦出來。第二種是參數(shù)合成的方式,這種方式會比較靈活,變化很豐富,甚至可以創(chuàng)造一個從來不存在的聲音,但缺點是音質(zhì)上可能會有所下降。
欒劍介紹說,小冰采用的是參數(shù)合成的方式,并不斷提升。他們講樂譜中能量譜、時長和音高用同一個模型進行預(yù)測,雖然模型很復(fù)雜,但“用這種方式生成的波形,它的自然度和流暢度會得到一個明顯的提升”。
盡管小冰在唱歌方面已取得不俗的進展,但欒劍認(rèn)為,對唱歌這個人物,數(shù)據(jù)依然是個困難點。鑒于清唱的數(shù)據(jù)非常少,他們需要利用混合了伴奏的數(shù)據(jù)進行學(xué)習(xí)。“不管是人工智能的創(chuàng)造還是提高唱歌上,我覺得需要兩條腿走路,一是不斷提高模型,二是不斷挖掘更多的數(shù)據(jù),這兩個東西如果做的更好,我們的質(zhì)量會不斷得到提高?!?nbsp;欒劍總結(jié)道。
比喻與繪本創(chuàng)作
在寫作中,比喻是一種比較高級的修辭手法,可以把抽象難懂的概念具像化,讓讀者產(chǎn)生深刻的印象??勺寵C器人學(xué)會運用比喻卻不是一件容易的事情,何況是創(chuàng)造一種新穎的比喻。
“我們有一個要求是不要在人類已有的文章里去挖掘這種比喻句,不要用’像’、‘就像’、‘一樣’ 這樣子的模板把它挖掘出來,因為這些都是人類創(chuàng)造的比喻,跟小冰沒有那么大的關(guān)系,我們希望小冰真正創(chuàng)造出人類不曾說過的比喻。” 宋睿華說。
那么,如何做呢?對機器,這樣的輸入往往是本體、喻體,而輸出是一個解釋。宋睿華他們首先找出了小冰用戶喜歡說的96個抽象概念,包括了分離、愛情、心、世界、母親、美人、人、夢想、生活、快樂等。另外再找出常用的一萬個詞,都是一些好理解的具體的概念,如食物、信號、游戲等。最后,他們在兩組概念中間挖掘一些連接詞,之后根據(jù)連接詞是動詞,名詞還是形容詞,再做不同的處理。用他們的方法做出的比喻有些有十分貼切的效果,如“孤獨像是空無一人的車站”,當(dāng)然也有“戀人像是可靠的報表”這樣略有些奇怪的比喻。也許,像詩人一樣,進行新的比喻的創(chuàng)作有時不可避免會有不那么好的結(jié)果。
在最近的發(fā)展中,小冰的另外一項技能是用一系列圖片描述一個故事。談起這項研究的初衷,宋睿華告訴筆者,當(dāng)時他們是在合作一個兒童繪本的項目,希望除了給兒童故事加朗讀外還能配上一些畫面。
要實現(xiàn)從故事上的文字轉(zhuǎn)變成一系列的圖畫是一些具有挑戰(zhàn)的任務(wù),包括了三個難點,一是需要更好的利用上下文,二是需要做好細(xì)節(jié)上的對應(yīng),三是很多的數(shù)據(jù)都是一一對應(yīng)的。宋睿華他們用了一系列的方法改善他們的結(jié)果,盡管現(xiàn)在還需要一些人工的輔助,但已經(jīng)是取得了不錯的進步。