Siri的多重角色
人工智能、語音定位搜索、人機(jī)交互界面,蘋果未來顛覆電視生態(tài)的關(guān)鍵點(diǎn)。在蘋果創(chuàng)始人史蒂夫·喬布斯去世前一天,伴隨iPhone4S一同面世的Siri虛擬個人助理,試圖扮演多個關(guān)鍵角色。
主筆◎尚進(jìn)
“我們在討論你,而不是我?!盓liza說。Siri回答道:“你認(rèn)為是就是吧?!盓liza誕生于1966年,來自麻省理工學(xué)院約瑟夫·魏岑鮑姆(Joseph Weizenbaum)的模擬心理治療BASIC程序,被視作自然語言機(jī)器處理的鼻祖之一。而Siri則出生于2011年10月4日,被內(nèi)置于iPhone 4S。兩個開發(fā)年代相距45年的智能語音識別系統(tǒng),在游戲開發(fā)者喬丹·米切納(Jordan Mechner)的測試臺上,很奇妙地進(jìn)行了一陣對話。盡管Eliza和Siri的機(jī)器間調(diào)情,并沒有碰撞出什么火花,但是卻完成了智能語音識別歷史上的接力,一種語言控制與智能識別之間的新界面?zhèn)鞒小?
即便到2011年底,Siri還只是iPhone4S獨(dú)有的一項(xiàng)功能,并且暫時還只能識別英語、德語和法語,但誰也無法否定作為語音識別系統(tǒng)的Siri,被嵌入到蘋果流行消費(fèi)電子產(chǎn)品后,將會爆發(fā)出的用戶力量。語音控制作為操作界面的新指令思維,正如同已經(jīng)離世的史蒂夫·喬布斯早先對收購Siri母公司說的那樣:“我們收購的不是搜索公司,而是人工智能公司?!?
對于計(jì)算機(jī)科學(xué)歷史而言,人工智能幾乎近似一項(xiàng)終極突破,語言識別則更近似人工智能識別的敲門磚。很多人將人工語音辨識的歷史上溯到1952年的貝爾實(shí)驗(yàn)室,其實(shí)真正取得大規(guī)模技術(shù)突破集中在上世紀(jì)90年代,依靠32位處理器的速度優(yōu)勢和浮點(diǎn)運(yùn)算,出現(xiàn)了諸如IBM的ViaVoice和DARPA計(jì)劃。Siri的起點(diǎn)也來自那個時代。1999年,Siri早期創(chuàng)始人之一亞當(dāng)·奇耶(Adam Cheyer)在斯坦福研究院SRI國際人工智能中心啟動了一項(xiàng)與機(jī)器智能語音交流的研究課題。當(dāng)時美國國防部高級研究所將一項(xiàng)名為CALO的人工智能轉(zhuǎn)化為生產(chǎn)助手研究項(xiàng)目,委托給了SRI國際人工智能中心,恰恰是后來Siri的聯(lián)合創(chuàng)始人兼工程副總裁亞當(dāng)·奇耶,當(dāng)時以研究員的身份提交了一份利用無線帶寬發(fā)展智能搜索和人工智能網(wǎng)絡(luò)的文檔。此后,作為CALO項(xiàng)目的首席架構(gòu)師,亞當(dāng)·奇耶和作為首席技術(shù)官的湯姆·格魯伯(Tom Gruber)一步步組合人工智能和語義網(wǎng),并且在2007年CALO項(xiàng)目結(jié)束后,獨(dú)立成立了Siri開發(fā)公司,逐步將之前累積的技術(shù)試驗(yàn)成果付諸于產(chǎn)品化。當(dāng)時亞當(dāng)·奇耶為Siri下的定義是:“它是各種技術(shù)的整合,包括對話、自然語言理解、視覺、演說、機(jī)器學(xué)習(xí)、制訂計(jì)劃、理性思考?!倍cSiri有些血緣關(guān)系的還有一家更為彪悍的語音識別開發(fā)公司Nuance,也派生自斯坦福研究院SRI國際人工智能中心,并且Siri在2009年就從早期的Vlingo技術(shù)平臺,切換到了Nuance內(nèi)核。
在2010年4月,蘋果以大約2億美元的價格買下Siri之前,Siri就已經(jīng)出現(xiàn)在蘋果應(yīng)用軟件商店,當(dāng)時只能運(yùn)行于iPhone 3GS上。對于使用者的語音提問,并沒有使用耗費(fèi)iPhone運(yùn)算能力的模擬語音回答,而是以文字的方式。在被蘋果收購后,Siri很快就停止了Android和Symbian客戶端的開發(fā),并且靜悄悄地從蘋果應(yīng)用軟件下架了。直到iPhone4S正式發(fā)布,作為內(nèi)置應(yīng)用的新殺手锏,Siri才掀掉了神秘面紗。只需要打開Siri應(yīng)用傾訴,語音識別和智能檢索系統(tǒng)就會找到最合適的答案,并且可以直接控制iPhone內(nèi)的其他功能開啟。
作為新的人機(jī)交互方式,Siri的語音識別控制界面就如同2007年初蘋果發(fā)布iPhone時的多點(diǎn)觸摸屏幕一樣,具備了革新操控方式的潛質(zhì)。可以根據(jù)語音中的關(guān)鍵詞,以及所處的地理位置等信息要素,猜出來控制者的命令,并且具備一定的學(xué)習(xí)能力。如果回首把鼠標(biāo)、電磁手寫板、紅外眼球追蹤、電容多點(diǎn)觸摸屏幕、任天堂的Wii感應(yīng)器和微軟Kinect體感游戲,一系列付諸于信息系統(tǒng)上的人機(jī)交互方式串聯(lián),不難看出來Siri的戰(zhàn)略意義。尤其是被加載于蘋果iPhone這樣的強(qiáng)勢產(chǎn)品上?!癝iri作為蘋果產(chǎn)品上的虛擬個人助理,無疑從交互界面控制上是極具開創(chuàng)性的,這是一個有可能改變世界的東西。在技術(shù)上,Siri至少領(lǐng)先競爭對手兩年,因?yàn)槲覀儾皇菃渭兊恼Z音識別,我們是可商用的人工智能技術(shù)。”Siri的聯(lián)合創(chuàng)始人諾曼·溫納斯基(Norman Winarsky)在iPhone4S發(fā)布后如此說。而對于Google而言,Siri的人工智能檢索能力,則開啟了另一扇搜索之門。
為了讓Siri能夠運(yùn)行在iPhone4S以外的設(shè)備上,破解團(tuán)體Applidium進(jìn)行了一系列的欺騙性試驗(yàn),通過復(fù)制iPhone4S主機(jī)標(biāo)識符向蘋果服務(wù)器欺騙性連接,外界才第一次窺視到Siri的秘密。Siri并沒有使用常規(guī)的GET請求數(shù)據(jù)包,而是使用每次都夾雜主機(jī)標(biāo)識符的ACE命令。Siri會先捕捉用戶原始的語音,然后在iPhone4S機(jī)內(nèi)進(jìn)行Speex音頻編碼壓縮,之后再傳遞到Siri服務(wù)器上,Siri核心的人工智能服務(wù)器再進(jìn)行運(yùn)算。如果使用者的提問有明確的答案,Siri會直接排列組合回應(yīng),沒有好的回答時,則去掃描Quora等問答類知識分享網(wǎng)站,迫不得已絕不連接Google和Bing等公共搜索引擎。
使用者越多,搜索結(jié)果越精確,這一直是Google在搜索質(zhì)量上遠(yuǎn)遠(yuǎn)領(lǐng)先于任何競爭對手的根本。而一直以互聯(lián)網(wǎng)門外漢角色拼殺的蘋果,完全可以慢慢借助Siri累積下的龐大檢索請求,形成自己的搜索微觀權(quán)重體系。也正是基于這種對Siri涉足搜索的緊張感,讓Google開始高薪去Nuance挖人,畢竟Siri同Nuance有著千絲萬縷的關(guān)聯(lián),想要繞開史蒂夫·喬布斯在世時為Siri設(shè)置的諸多專利保護(hù),只能依靠Nuance的老專家們對Siri的技術(shù)記憶。Google董事長埃里克·施密特在回應(yīng)美國參議院司法小組對于Google是否構(gòu)成反壟斷時,一直不認(rèn)為蘋果是一種威脅,并且承認(rèn)Google在搜索領(lǐng)域占據(jù)市場主導(dǎo)地位。但是在11月初,埃里克·施密特迫不及待地改口了。根據(jù)參議院司法小組公布的書面答復(fù),埃里克·施密特在談及蘋果時,反復(fù)強(qiáng)調(diào)Siri的重大進(jìn)步,Siri作為一種搜索工具的有效性讓Google有措手不及的感覺。埃里克·施密特對于Siri的評價無疑有點(diǎn)添油加醋的味道,但對于從iPhone4到iPhone4S并不猛烈的升級而言,Siri幾乎成了iPhone4S在高畫質(zhì)攝像頭和A5處理器之外,為數(shù)不多的亮點(diǎn)?!陡2妓埂冯s志大衛(wèi)·考塞的《Siri還威脅不到Google》評論道:“蘋果的封閉系統(tǒng)傳統(tǒng),被視作Siri威脅Google搜索的最大障礙,蘋果甚至為了熱銷iPhone4S,不讓iPhone4在升級iOS5后開啟Siri功能。”
Google自己其實(shí)也有語音識別項(xiàng)目Voice Actions,并且早已付諸于語音搜索之上??商O果iPhone作為強(qiáng)勢手持信息終端,誰也不敢忽視,尤其是Google的Android系統(tǒng)一直在慫恿制造商們與蘋果iPhone正面競爭。也正是基于對蘋果封閉生態(tài)的挑釁,Dexetra的黑客團(tuán)體,模仿Siri的產(chǎn)品形態(tài),快速開發(fā)了基于Android開放生態(tài)的惡搞性產(chǎn)品Iris。充分利用Google現(xiàn)成的語音搜索識別,再去搜索引擎和維基百科上檢索答案,并不如Siri那樣簡潔準(zhǔn)確,但I(xiàn)ris至少證明了在沒有付諸于專利和訪問授權(quán)限制的開放互聯(lián)網(wǎng)生態(tài)下,Siri是可以被復(fù)制的。抱有類似觀點(diǎn)的還包括亞馬遜,在看到Siri和蘋果的語音智能控制界面趨勢后,亞馬遜旗下的Yarmuth Dion公司很快收購了Yap,試圖要利用Yap在語音郵件轉(zhuǎn)換文字上的特長,追趕Siri。
不要忘記Siri聯(lián)合創(chuàng)始人諾曼·溫納斯基對于Siri領(lǐng)先兩年的論調(diào),2012年夏天將會發(fā)布的iPad3,甚至未來新一代的Macbook電腦上,Siri在蘋果產(chǎn)品線中將無處不在。而真正的潛在殺手锏,很有可能會被聚焦于被喬布斯稱為自己小愛好的Apple TV上。喬布斯在病榻上一直念念不忘對傳記作者沃爾特·艾薩克森抱怨電視的難用,并且曾經(jīng)提及自己找到了破解目前電視工業(yè)生態(tài)的方法。而Siri在iPhone4S上充滿趣味性的表現(xiàn),已經(jīng)暗示了從技術(shù)上實(shí)現(xiàn)語音控制電視內(nèi)容選擇的可行性,密布按鈕的遙控器完全可以被一張嘮叨的嘴所替代。畢竟在龐大的有線電視海量內(nèi)容之外,還有YouTube、Hulu、Metacafe等視頻網(wǎng)站的數(shù)據(jù)源頭,足夠Siri抓取?!?