網(wǎng)站性能檢測評分
注:本網(wǎng)站頁面html檢測工具掃描網(wǎng)站中存在的基本問題,僅供參考。
反應(yīng)學(xué)
清華大學(xué)馮珺:當(dāng)強(qiáng)化學(xué)習(xí)遇見自然語言處理有哪些奇妙的化學(xué)反應(yīng)?| 分享總結(jié) - iDoNews 營銷視頻課程
原標(biāo)題:清華大學(xué)馮珺:當(dāng)強(qiáng)化學(xué)習(xí)遇見自然語言處理有哪些奇妙的化學(xué)反應(yīng)?|分享總結(jié)雷鋒網(wǎng)AI科技評論按:隨著強(qiáng)化學(xué)習(xí)在機(jī)器人和游戲AI等領(lǐng)域的成功,該方法也引起了越來越多的關(guān)注。在近期雷鋒網(wǎng)GAIR大講堂上,來自清華大學(xué)計算機(jī)系的博士生馮珺,為大家介紹了如何利用強(qiáng)化學(xué)習(xí)技術(shù),更好地解決自然語言處理中的兩個經(jīng)典任務(wù):關(guān)系抽取和文本分類。本文根據(jù)視頻直播分享整理而成,內(nèi)容若有疏漏,以原視頻嘉賓所講為準(zhǔn)。在關(guān)系抽取任務(wù)中,嘗試?yán)脧?qiáng)化學(xué)習(xí),解決遠(yuǎn)程監(jiān)督方法自動生成的訓(xùn)練數(shù)據(jù)中的噪音問題。在文本分類任務(wù)中,利用強(qiáng)化學(xué)習(xí)得到更好的句子的結(jié)構(gòu)化表示,并利用該表示得到了更好的文本分類效果。本次分享的兩個工作均發(fā)表于AAAI2018。馮珺,清華大學(xué)計算機(jī)系博士五年級,師從朱小燕和黃民烈教授,主要研究方向為知識圖譜,強(qiáng)化學(xué)習(xí)。目前已在AAAI,COLING,WSDM等國際會議上發(fā)表多篇文章。分享內(nèi)容:大家好,我是來自清華大學(xué)的馮珺,分享的主題是當(dāng)強(qiáng)化學(xué)習(xí)遇見自然語言處理,分享內(nèi)容主要是以下三方面:強(qiáng)化學(xué)習(xí)基本概念簡要介紹基于強(qiáng)化學(xué)習(xí)的關(guān)系抽取方法,解決遠(yuǎn)程監(jiān)督方法自動生成的訓(xùn)練數(shù)據(jù)中的噪音問題基于強(qiáng)化學(xué)習(xí)的句子結(jié)構(gòu)化表示學(xué)習(xí)方法強(qiáng)化學(xué)習(xí)的基本概念狀態(tài),是agent從環(huán)境中得到的動作;agent,是基于它得到的當(dāng)前狀態(tài)后做出相應(yīng)的動作。reward,是環(huán)境給agent的一個反饋,收到這個reward就知道做的這個動作是好還是不好。agent的目標(biāo)就是選動作,將全部reward最大化。agent會和環(huán)境做很多的交互,環(huán)境每次做的動作可能會有一個長期的影響,而不僅僅是影響當(dāng)前的reward。reward也有可能延遲。在這里簡單介紹一下policy的概念。policy是決定一個agent的動作的一個函數(shù)。如果讀者對上述概念還不清楚可以觀看視頻中的迷宮例子:http://www.mooc.ai/open/course/318我們組做的兩個工作是關(guān)系抽取和文本分類。首先是第一個工作:利用增強(qiáng)學(xué)習(xí)從噪聲數(shù)據(jù)中進(jìn)行關(guān)系抽?。≧einforcementLearningforRelationClassificationfromNoisyData)任務(wù)背景關(guān)系分類任務(wù)需要做的是,判斷實體之間是什么關(guān)系,句子中包含的實體對兒是已知的。關(guān)系分類任務(wù)是強(qiáng)監(jiān)督學(xué)習(xí),需要人工對每一句話都做標(biāo)注,因此之前的數(shù)據(jù)集比較小。之前也有人提出DistantSupervision方法,希望能利用已有資源對句子自動打上標(biāo)簽,使得得到更大的數(shù)據(jù)集。但這種方法是基于已有知識圖譜中的實體關(guān)系來對一句話的實體關(guān)系進(jìn)行預(yù)測,它的標(biāo)注未必正確。這篇文章就是用強(qiáng)化學(xué)習(xí)來解決這個問題。之前也有一些方法是基于multi-instancelearning的方法來做的。這樣做的局現(xiàn)性是不能很好處理句級預(yù)測。基于以上不足,我們設(shè)定了新模型。包括兩個部分:InstanceSelector和RelationCalssifier。這個模型有兩個挑戰(zhàn),第一是不知道每句話的標(biāo)注是否正確‘;第二個挑戰(zhàn)是怎么將兩個部分合到一塊,讓它們互相影響。InstanceSelector和RelationCalssifier的結(jié)構(gòu)圖在InstanceSelector中的“狀態(tài)”就表示為,當(dāng)前的句子是哪一句,之前選了哪些句子,以及當(dāng)前句子包含的實體對兒。RelationClassifier是直接用了一個CNN的結(jié)構(gòu)得到句子的表示。模型訓(xùn)練步驟實驗部分關(guān)于數(shù)據(jù)集和baseline來源總結(jié)我們提到一個新的模型,在有噪聲的情況下也能句子級別的關(guān)系分類,而不僅僅是bags級別的關(guān)系預(yù)測。第二個任務(wù)任務(wù)背景如果做一個句子分類,首先要給句子做一個表示,經(jīng)過sentencerepresentation得到句子表示,把“表示”輸入分類器中,最終就會得到這個句子屬于哪一類。傳統(tǒng)的sentencerepresentation有以下幾個經(jīng)典模型:bag-of-wordsCNNRNN加入注意力機(jī)制的方法以上幾種方法有一個共同的不足之處,完全沒有考慮句子的結(jié)構(gòu)信息。所有就有第五種tree-structuredLSTM。不過這種方法也有一定的不足,雖然用到了結(jié)構(gòu)信息,但是用到的是需要預(yù)處理才能得到的語法樹結(jié)構(gòu)。并且在不同的任務(wù)中可能都是同樣的結(jié)構(gòu),因為語法都是一樣的。所以我們希望能夠?qū)W到和任務(wù)相關(guān)的結(jié)構(gòu),并且基于學(xué)到的結(jié)構(gòu)給句子做表示,從而希望能得到更好的分類結(jié)構(gòu)。但面臨的挑戰(zhàn)是我們并不知道什么樣的結(jié)構(gòu)對于這個任務(wù)是好的,我們并沒有一個結(jié)構(gòu)標(biāo)注能夠指導(dǎo)我們?nèi)W(xué)這個結(jié)構(gòu)。但我們可以根據(jù)新的結(jié)構(gòu)做出的分類結(jié)果好不好從而判斷這個結(jié)構(gòu)好不好。這個任務(wù)同樣可以建模為強(qiáng)化學(xué)習(xí)問題,用強(qiáng)化學(xué)習(xí)的思想來解。同樣的,在這個任務(wù)中的reward也是有延遲的,因為需要把整個結(jié)構(gòu)都學(xué)到后,才能得到句子的表示,才能用句子的表示做分類,中間的過程是不知道這個結(jié)構(gòu)是好的還是不好的。實驗部分的數(shù)據(jù)集來源實驗的分類結(jié)果;最后兩行是我們的方法。總結(jié)在這個工作中,我們學(xué)習(xí)了跟任務(wù)相關(guān)的句子結(jié)構(gòu),基于句子機(jī)構(gòu)得到了不同的句子表示,并且得到個更好的文本分類方法。我們提出兩種不同的表示方法,ID-LSTM和HS-LSTM。這兩個表示也得到了很好的分類結(jié)果,得到了非常有意思的和任務(wù)相關(guān)的表示。雷鋒網(wǎng)提供視頻直播回放,如果對文中有不清楚的地方,可點擊觀看視頻:http://www.mooc.ai/open/course/318。