網(wǎng)站性能檢測評分
注:本網(wǎng)站頁面html檢測工具掃描網(wǎng)站中存在的基本問題,僅供參考。
機器語言
復(fù)旦大學(xué)肖仰華:深度剖析知識圖譜與認(rèn)知智能 - iDoNews 互聯(lián)網(wǎng)視頻課程
肖仰華教授1萬5千字雄文帶您深度剖析知識圖譜與認(rèn)知智能,對知識圖譜技術(shù)與落地應(yīng)用中的一系列關(guān)鍵問題做了系統(tǒng)梳理與解答。來源|知識工廠(公眾號ID:fudankw)作者|肖仰華博士(復(fù)旦大學(xué)計算機科學(xué)與技術(shù)學(xué)院教授,博士生導(dǎo)師,知識工場實驗室負(fù)責(zé)人。)報告摘要:人類社會已經(jīng)進入智能化時代。各行各業(yè)紛紛踏上智能化升級與轉(zhuǎn)型的道路,各類智能化應(yīng)用需求大量涌現(xiàn)。這些智能化應(yīng)用需求對于機器認(rèn)知水平提出了全新要求。實現(xiàn)機器認(rèn)知智能的關(guān)鍵技術(shù)之一是知識庫技術(shù)。知識圖譜作為大數(shù)據(jù)時代的重要的知識表示方式之一,為機器語言認(rèn)知提供了豐富的背景知識,使得機器語言認(rèn)知成為可能,因而也成為了行業(yè)智能化轉(zhuǎn)型道路上的關(guān)鍵技術(shù)之一。本報告結(jié)合復(fù)旦大學(xué)相關(guān)課題組在基于知識圖譜的認(rèn)知智能化研究與落地實踐,系統(tǒng)地介紹知識圖譜與認(rèn)知智能之間的關(guān)系,梳理新一代知識工程技術(shù)給認(rèn)知智能帶來的全新機遇,介紹基于知識圖譜的認(rèn)知智能落地關(guān)鍵技術(shù),展望以知識圖譜為典型代表的知識工程復(fù)興之路。下文根據(jù)肖仰華教授近期所作報告《知識圖譜與認(rèn)知智能》整理而成,并經(jīng)肖仰華教授親自審核。獲取完整PPT,請前往http://kw.fudan.edu.cn/workshop/intro2018今天跟大家分享的主題是《知識圖譜與認(rèn)知智能》。知識圖譜自2012年提出至今,發(fā)展迅速,如今已經(jīng)成為人工智能領(lǐng)域的熱門問題之一,吸引了來自學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,在一系列實際應(yīng)用中取得了較好的落地效果,產(chǎn)生了巨大的社會與經(jīng)濟效益。那么到底是什么在支撐著知識圖譜技術(shù)的繁榮景象?是一股什么力量讓知識圖譜技術(shù)吸引了如此多的關(guān)注?換句話說,知識圖譜到底能解決什么問題?何以能夠解決這些問題?今天的報告主要圍繞著這些問題,給大家做一個初步的解答。先簡單介紹一下整個報告的總體思路。人類社會已經(jīng)進入智能時代,智能時代的社會發(fā)展催生了大量的智能化應(yīng)用,智能化應(yīng)用對機器的認(rèn)知智能化水平提出了前所未有的要求,機器認(rèn)知智能的實現(xiàn)依賴的就是知識圖譜技術(shù)。我想大家已經(jīng)深刻地感受到我們身處在一個智能化的時代。從2012年Google的圖像識別錯誤率顯著下降,機器在圖像識別方面接近人類水平;到2016年AlphaGo戰(zhàn)勝了人類圍棋冠軍;再到2017年AlphaZero戰(zhàn)勝了AlphaGo,以及DeepMind去嘗試星際爭霸游戲,這一系列AI發(fā)展的標(biāo)志性事件讓我們看到了人工智能技術(shù)幫助解決人類社會發(fā)展若干問題的希望。我們已經(jīng)見證的這一系列人工智能技術(shù)的發(fā)展,本質(zhì)上是受益于大數(shù)據(jù)給人工智能帶來的數(shù)據(jù)紅利。這一波人工智能熱潮是在大數(shù)據(jù)所給予的海量標(biāo)注樣本以及超強計算能力這兩個強大的支撐作用下所形成的。可以說,這一波人工智能的發(fā)展本質(zhì)上是大數(shù)據(jù)喂養(yǎng)出來的。到了今天,可以很自豪地宣告機器智能在感知智能和計算智能等若干具體問題上已經(jīng)達到甚至超越人類水平?,F(xiàn)在,在語音識別與合成、圖像識別、封閉環(huán)境有限規(guī)則的游戲領(lǐng)域等問題上,機器智能水平堪比、甚至超越人類水準(zhǔn)。這一系列人工智能技術(shù)的突破性進展,促使各行各業(yè)紛紛走向了一條智能化升級和轉(zhuǎn)型的道路。智能化技術(shù)尤其為我國傳統(tǒng)行業(yè)的發(fā)展帶來了全新機遇,對于我國經(jīng)濟結(jié)構(gòu)升級,以及傳統(tǒng)實體行業(yè)擺脫當(dāng)前一系列發(fā)展困境帶來了全新的機遇。智能化升級和轉(zhuǎn)型已經(jīng)成為各行各業(yè)的普遍訴求。各行業(yè)走向智能化的發(fā)展道路,在某種意義上也是人類社會發(fā)展的必然趨勢。自計算機面世以來,人類社會在經(jīng)歷了計算機技術(shù)發(fā)展的一系列浪潮之后,基本完成了信息化的使命。信息化時代最重要的任務(wù)是數(shù)據(jù)記錄與采集,這勢必造就大數(shù)據(jù)。當(dāng)我們邁進大數(shù)據(jù)時代之后,我們勢必對大數(shù)據(jù)的價值挖掘提出訴求。大數(shù)據(jù)的價值挖掘需要智能化手段。因此大數(shù)據(jù)時代的到來,某種意義上只是智能化時代的短暫序曲。我相信,未來若干年,計算機技術(shù)的主要使命是幫助人類社會實現(xiàn)智能化。在各行業(yè)的智能化發(fā)展進程中,AI+或者AI賦能成為了傳統(tǒng)行業(yè)智能化升級和轉(zhuǎn)型的一個基本模式。在AI的賦能下,傳統(tǒng)行業(yè)面臨著非常多的機遇,其所關(guān)心的一系列核心問題,比如增加收入、降低成本、提高效率和安全保障等,都將顯著受益于智能化技術(shù)。比如智能客服系統(tǒng)已經(jīng)在很多行業(yè)大規(guī)模應(yīng)用,大大降低了人工客服的巨大勞動力成本;一些企業(yè)利用知識圖譜,對企業(yè)內(nèi)部的研發(fā)資源進行管理,顯著提升研發(fā)效率,這些都是AI可以賦能傳統(tǒng)行業(yè)的具體體現(xiàn)。智能化的升級和轉(zhuǎn)型對整個傳統(tǒng)行業(yè)產(chǎn)生的影響將是顛覆性的,將重塑整個行業(yè)的形態(tài),革新傳統(tǒng)行業(yè)的各個關(guān)鍵環(huán)節(jié),智能化技術(shù)將逐步滲透到傳統(tǒng)行業(yè)的各個角落。最近幾年我們看到越來越多的傳統(tǒng)行業(yè)將人工智能領(lǐng)域升格為企業(yè)的核心戰(zhàn)略,在電商、社交、物流、金融、醫(yī)療、司法、制造等很多領(lǐng)域涌現(xiàn)出越來越多的AI賦能傳統(tǒng)行業(yè)的發(fā)展案例。智能化對機器的智能水平提出了要求,包括機器的計算智能、感知智能,尤其是機器的認(rèn)知智能。所謂讓機器具備認(rèn)知智能是指讓機器能夠像人一樣思考,而這種思考能力具體體現(xiàn)在機器能夠理解數(shù)據(jù)、理解語言進而理解現(xiàn)實世界的能力,體現(xiàn)在機器能夠解釋數(shù)據(jù)、解釋過程進而解釋現(xiàn)象的能力,體現(xiàn)在推理、規(guī)劃等等一系列人類所獨有的認(rèn)知能力上。相較于感知能力,認(rèn)知能力的實現(xiàn)難度更大,價值也更大。前幾年在深度學(xué)習(xí)的推動下,機器感知能力顯著提升。但是感知能力動物也具備,比如我們家里的小貓小狗也能識別主人,識別物體。所以讓機器具備感知能力只是讓機器具備了一般動物所具備的能力,還不是那么值得“炫耀”的事情。但是,認(rèn)知能力是人類獨有的能力,一旦機器具備認(rèn)知能力,AI技術(shù)將會給人類社會帶來顛覆性革命,同時也將釋放出巨大的產(chǎn)業(yè)能量。所以實現(xiàn)機器的認(rèn)知能力是人工智能發(fā)展進程中具有里程碑意義的重大事件。隨著大數(shù)據(jù)紅利的消失殆盡,以深度學(xué)習(xí)為代表的感知智能水平日益接近其“天花板”。以深度學(xué)習(xí)為代表的統(tǒng)計學(xué)習(xí)嚴(yán)重依賴大樣本,這些方法只能習(xí)得數(shù)據(jù)中的統(tǒng)計模式。然而,現(xiàn)實世界很多實際問題的解決單單依靠統(tǒng)計模式是不夠的,還需要知識,特別是符號化的知識。我們?nèi)祟惖恼Z言理解、司法判案、醫(yī)療診斷、投資決策等等很多領(lǐng)域都是顯著依賴我們的知識才能實現(xiàn)的。很多從事自然語言處理的研發(fā)人員普遍有個深刻的感受:即便數(shù)據(jù)量再大,模型再先進,很多自然語言處理任務(wù),比如中文分詞、情感分析達到一定準(zhǔn)確率之后,就很難再改進了。比如,中文分詞的一個經(jīng)典案例:“南京市長江大橋”,不管是分為“南京市長+江大橋”還是“南京市+長江大橋”都依賴我們的知識。如果從上下文我們得知是在討論南京市長,并且有個人叫“江大橋”,我們會傾向于分為“南京市長+江大橋”,否則我們會根據(jù)我們已有的知識斷句為“南京市+長江大橋”。不管是哪種情況,我們都在利用我們的知識。我記得我國知名統(tǒng)計學(xué)者徐宗本院士在去年年底一個論壇上說過:“數(shù)據(jù)不夠模型補”。我想傳達類似的觀點:“數(shù)據(jù)不夠知識補”,甚至“數(shù)據(jù)足夠了,知識也不能缺失”。而知識圖譜就是這種不可或缺的知識的重要表現(xiàn)形式之一。機器認(rèn)知智能絕不是束之高閣、高高在上的前沿技術(shù)。它是一類能夠?qū)崒嵲谠诼涞氐?、有著廣泛且多樣的應(yīng)用需求的、能夠產(chǎn)生巨大社會經(jīng)濟價值的技術(shù)。機器認(rèn)知智能的發(fā)展過程本質(zhì)上是人類腦力不斷解放的過程。在工業(yè)革命和信息化時代,我們的體力被逐步解放;而隨著人工智能技術(shù)的發(fā)展,尤其是認(rèn)知智能技術(shù)的發(fā)展,我們的腦力也將會逐步解放。越來越多的知識工作將逐步被機器所代替,伴隨而來的將是機器生產(chǎn)力的進一步解放。機器認(rèn)知智能在應(yīng)用方面是廣泛和多樣的,體現(xiàn)在精準(zhǔn)分析、智慧搜索、智能推薦、智能解釋、更自然的人機交互和深層關(guān)系推理等各個方面。認(rèn)知智能的第一個應(yīng)用抓手就是大數(shù)據(jù)的精準(zhǔn)與精細(xì)分析。如今,越來越多的行業(yè)或者企業(yè)積累了規(guī)??捎^的大數(shù)據(jù)。但是這些數(shù)據(jù)并未發(fā)揮出應(yīng)有的價值,很多大數(shù)據(jù)還需要消耗大量的運維成本。大數(shù)據(jù)非但沒有創(chuàng)造價值,在很多情況下還成為了一筆負(fù)資產(chǎn)。這一現(xiàn)象的根本原因在于,當(dāng)前的機器缺乏諸如知識圖譜這樣的背景知識,機器理解大數(shù)據(jù)的手段有限,限制了大數(shù)據(jù)的精準(zhǔn)與精細(xì)分析,從而大大降低了大數(shù)據(jù)的潛在價值。舉個親身體驗的例子,在娛樂圈王寶強離婚案剛剛開始的時候,新浪微博的熱搜前三位分別是“王寶強離婚”、“王寶寶離婚”和“寶強離婚”。也就是說,當(dāng)時的微博平臺還沒有能力將這三件事自動歸類到一件事,不知道這三件事其實說的是一件事。機器在統(tǒng)計事件熱度的時候就分開統(tǒng)計了,這就是因為當(dāng)時機器缺乏背景知識,不知道王寶強又稱為“王寶寶”或“寶強”,所以沒有辦法做到大數(shù)據(jù)的精準(zhǔn)分析。事實上,輿情分析、互聯(lián)網(wǎng)的商業(yè)洞察,還有軍事情報分析和商業(yè)情報分析都需要大數(shù)據(jù)的精準(zhǔn)分析,而這種精準(zhǔn)分析就必須要有強大的背景知識支撐。除了大數(shù)據(jù)的精準(zhǔn)分析,數(shù)據(jù)分析領(lǐng)域另一個重要趨勢:精細(xì)分析,也對知識圖譜和認(rèn)知智能提出了訴求。比如很多汽車制造廠商都希望實現(xiàn)個性化制造。個性化制造希望從互聯(lián)網(wǎng)上搜集用戶對汽車的評價與反饋,并以此為據(jù)實現(xiàn)汽車的按需與個性化定制。為了實現(xiàn)個性化定制,廠商不僅需要知道消費者對汽車的褒貶態(tài)度,還需要進一步了解消費者不滿意的細(xì)節(jié)之處,以及消費者希望如何改進,甚至用戶提及了哪些競爭品牌。顯然面向互聯(lián)網(wǎng)數(shù)據(jù)的精細(xì)化數(shù)據(jù)分析必需要求機器具備關(guān)于汽車評價的背景知識(比如汽車的車型、車飾、動力、能耗等等)。因此,大數(shù)據(jù)的精準(zhǔn)和精細(xì)化分析需要智能化的技術(shù)支撐。認(rèn)知智能的第二個非常重要的應(yīng)用抓手是智慧搜索。下一代智慧搜索對機器認(rèn)知智能提出了需求。智慧搜索體現(xiàn)在很多方面。首先,體現(xiàn)在搜索意圖的精準(zhǔn)理解方面。比如在淘寶上搜索“iPad充電器”,用戶的意圖顯然是要搜索一個充電器,而不是一個iPad,這個時候淘寶應(yīng)該反饋給用戶若干個充電器以供選擇,而不是iPad。再比如在Google上搜索“toyskids”或者“kidstoys”,不管搜索這兩個中的哪一個,用戶的意圖都是在搜索給孩子的玩具,而不是玩玩具的小孩,因為一般不會有人用搜索引擎搜孩子?!皌oyskids”和“kid’stoys”中兩個詞都是名詞,要辨別出哪一個是核心詞,哪一個是修飾詞,在缺乏上下文的短文本上,仍然是個具有挑戰(zhàn)性的難題。其次,搜索的對象越來越復(fù)雜多元化。以前搜索的對象以文本為主,現(xiàn)在大家希望能搜索圖片和聲音,甚至還能搜代碼,搜視頻,搜設(shè)計素材等等,要求一切皆可搜索。第三、搜索的粒度也越來越多元化?,F(xiàn)在的搜索不僅能做篇章級的搜索,還希望能做到段落級、語句級、詞匯級的搜索。尤其是在傳統(tǒng)知識管理領(lǐng)域,這個趨勢已經(jīng)非常明顯。傳統(tǒng)的知識管理大都只能做到文檔級搜索,這種粗粒度的知識管理已經(jīng)難以滿足實際應(yīng)用中細(xì)粒度的知識獲取需求。最后,是跨媒體的協(xié)同搜索。傳統(tǒng)搜索以面向單質(zhì)單源數(shù)據(jù)的搜索居多。比如針對文本搜索難以借力視頻、圖片信息,針對圖片的搜索主要還是利用圖片自身的信息,對于大量文本信息利用率還不高。最近的趨勢是跨媒體的協(xié)同搜索。比如前幾年,明星王珞丹在微博上曬了張自家小區(qū)的照片,然后就有好事者根據(jù)她的微博社交網(wǎng)絡(luò)、百度地圖、微博文本與圖片信息等多個渠道多種媒體的信息,通過聯(lián)合檢索準(zhǔn)確推斷出其所在小區(qū)位置。所以,未來的趨勢是一切皆可搜索,并且搜索必達。認(rèn)知智能的第三個應(yīng)用抓手是智能推薦。智能推薦表現(xiàn)在很多方面。首先是場景化推薦。比如用戶在淘寶上搜“沙灘褲”、“沙灘鞋”,可以推測這個用戶很有可能要去沙灘度假。那么平臺是否能推薦“泳衣”、“防曬霜”之類的沙灘度假常用物品呢?事實上,任何搜索關(guān)鍵字背后,購物籃里的任何一件商品背后都體現(xiàn)著特定的消費意圖,很有可能對應(yīng)到特定的消費場景。建立場景圖譜,實現(xiàn)基于場景圖譜的精準(zhǔn)推薦,對于電商推薦而言至關(guān)重要。第二、任務(wù)型推薦。很多搜索背后的動機是完成特定任務(wù)。比如用戶購買了“羊肉卷”、“牛肉卷”、“菠菜”、“火鍋底料”,那么用戶很有可能是要做一頓火鍋,這種情況下,系統(tǒng)推薦火鍋調(diào)料、火鍋電磁爐,用戶很有可能買單。第三、冷啟動下的推薦。冷啟動階段的推薦一直是傳統(tǒng)基于統(tǒng)計行為的推薦方法難以有效解決的問題。利用外部知識,特別是關(guān)于用戶與物品的知識指引冷啟動階段的匹配與推薦,是有可能讓系統(tǒng)盡快渡過這個階段的。第四、跨領(lǐng)域的推薦。當(dāng)阿里剛剛?cè)牍尚吕藭r,我們在設(shè)想是否能將淘寶的商品推薦給微博的用戶。比如,如果一個微博用戶經(jīng)常曬九寨溝、黃山、泰山的照片,那么為這位用戶推薦一些淘寶的登山裝備準(zhǔn)沒錯。這是典型的跨領(lǐng)域推薦,微博...