網(wǎng)站性能檢測(cè)評(píng)分
注:本網(wǎng)站頁面html檢測(cè)工具掃描網(wǎng)站中存在的基本問題,僅供參考。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)之確定最佳聚類數(shù)目的10種方法 - iDoNews 流量視頻課程
原標(biāo)題:機(jī)器學(xué)習(xí)之確定最佳聚類數(shù)目的10種方法雷鋒網(wǎng)AI科技評(píng)論按,本文作者貝爾塔,原文載于知乎專欄數(shù)據(jù)分析與可視化,雷鋒網(wǎng)AI科技評(píng)論獲其授權(quán)發(fā)布。在聚類分析的時(shí)候確定最佳聚類數(shù)目是一個(gè)很重要的問題,比如kmeans函數(shù)就要你提供聚類數(shù)目這個(gè)參數(shù),總不能兩眼一抹黑亂填一個(gè)吧。之前也被這個(gè)問題困擾過,看了很多博客,大多泛泛帶過。今天把看到的這么多方法進(jìn)行匯總以及代碼實(shí)現(xiàn)并盡量弄清每個(gè)方法的原理。數(shù)據(jù)集選用比較出名的wine數(shù)據(jù)集進(jìn)行分析因?yàn)槲覀円乙粋€(gè)數(shù)據(jù)集進(jìn)行聚類分析,所以不需要第一列的種類標(biāo)簽信息,因此去掉第一列。同時(shí)注意到每一列的值差別很大,從1到100多都有,這樣會(huì)造成誤差,所以需要?dú)w一化,用scale函數(shù)去掉標(biāo)簽之后就可以開始對(duì)數(shù)據(jù)集進(jìn)行聚類分析了,下面就一一介紹各種確定最佳聚類數(shù)目的方法判定方法1.mclust包mclust包是聚類分析非常強(qiáng)大的一個(gè)包,也是上課時(shí)老師給我們介紹的一個(gè)包,每次導(dǎo)入時(shí)有一種科技感:)幫助文檔非常詳盡,可以進(jìn)行聚類、分類、密度分析Mclust包方法有點(diǎn)“暴力”,聚類數(shù)目自定義,比如我選取的從1到20,然后一共14種模型,每一種模型都計(jì)算聚類數(shù)目從1到20的BIC值,最終確定最佳聚類數(shù)目,這種方法的思想很直接了當(dāng),但是弊端也就顯然易見了——時(shí)間復(fù)雜度太高,效率低。635164可見該函數(shù)已經(jīng)把數(shù)據(jù)集聚類為3種類型了。數(shù)目分別為63、51、64。再畫出14個(gè)指標(biāo)隨著聚類數(shù)目變化的走勢(shì)圖下表是這些模型的意義它們應(yīng)該分別代表著相關(guān)性(完全正負(fù)相關(guān)——對(duì)角線、稍強(qiáng)正負(fù)相關(guān)——橢圓、無關(guān)——圓)等參數(shù)的改變對(duì)應(yīng)的模型,研究清楚這些又是非常復(fù)雜的問題了,先按下表,知道BIC值越大則說明所選取的變量集合擬合效果越好。上圖中除了兩個(gè)模型一直遞增,其他的12模型數(shù)基本上都是在聚類數(shù)目為3的時(shí)候達(dá)到峰值,所以該算法由此得出最佳聚類數(shù)目為3的結(jié)論。mclust包還可以用于分類、密度估計(jì)等,這個(gè)包值得好好把玩。注意:此BIC并不是貝葉斯信息準(zhǔn)則!?。?/p>最近上課老師講金融模型時(shí)提到了BIC值,說BIC值越小模型效果越好,頓時(shí)想起這里是在圖中BIC極大值為最佳聚類數(shù)目,然后和老師探討了這個(gè)問題,之前這里誤導(dǎo)大家了,Mclust包里面的BIC并不是貝葉斯信息準(zhǔn)則。1.維基上的貝葉斯信息準(zhǔn)則定義與log(likelihood)成反比,極大似然估計(jì)是值越大越好,那么BIC值確實(shí)是越小模型效果越好2.Mclust包中的BIC定義[3]這是Mclust包里面作者定義的“BIC值”,此BIC非彼BIC,這里是作者自己定義的BIC,可以看到,這里的BIC與極大似然估計(jì)是成正比的,所以這里是BIC值越大越好,與貝葉斯信息準(zhǔn)則值越小模型越好的結(jié)論并不沖突2.Nbclust包Nbclust包是我在《R語言實(shí)戰(zhàn)》上看到的一個(gè)包,思想和mclust包比較相近,也是定義了幾十個(gè)評(píng)估指標(biāo),然后聚類數(shù)目從2遍歷到15(自己設(shè)定),然后通過這些指標(biāo)看分別在聚類數(shù)為多少時(shí)達(dá)到最優(yōu),最后選擇指標(biāo)支持?jǐn)?shù)最多的聚類數(shù)目就是最佳聚類數(shù)目。可以看到有16個(gè)指標(biāo)支持最佳聚類數(shù)目為3,5個(gè)指標(biāo)支持聚類數(shù)為2,所以該方法推薦的最佳聚類數(shù)目為3.3.組內(nèi)平方誤差和——拐點(diǎn)圖想必之前動(dòng)輒幾十個(gè)指標(biāo),這里就用一個(gè)最簡單的指標(biāo)——sumofsquarederror(SSE)組內(nèi)平方誤差和來確定最佳聚類數(shù)目。這個(gè)方法也是出于《R語言實(shí)戰(zhàn)》,自定義的一個(gè)求組內(nèi)誤差平方和的函數(shù)。隨著聚類數(shù)目增多,每一個(gè)類別中數(shù)量越來越少,距離越來越近,因此WSS值肯定是隨著聚類數(shù)目增多而減少的,所以關(guān)注的是斜率的變化,但WWS減少得很緩慢時(shí),就認(rèn)為進(jìn)一步增大聚類數(shù)效果也并不能增強(qiáng),存在得這個(gè)“肘點(diǎn)”就是最佳聚類數(shù)目,從一類到三類下降得很快,之后下降得很慢,所以最佳聚類個(gè)數(shù)選為三另外也有現(xiàn)成的包(factoextra)可以調(diào)用選定為3類為最佳聚類數(shù)目用該包下的fviz_cluster函數(shù)可視化一下聚類結(jié)果4.PAM(PartitioningAroundMedoids)圍繞中心點(diǎn)的分割算法k-means算法取得是均值,那么對(duì)于異常點(diǎn)其實(shí)對(duì)其的影響非常大,很可能這種孤立的點(diǎn)就聚為一類,一個(gè)改進(jìn)的方法就是PAM算法,也叫k-medoidsclustering首先通過fpc包中的pamk函數(shù)得到最佳聚類數(shù)目3pamk函數(shù)不需要提供聚類數(shù)目,也會(huì)直接自動(dòng)計(jì)算出最佳聚類數(shù),這里也得到為3得到聚類數(shù)提供給cluster包下的pam函數(shù)并進(jìn)行可視化5.Calinskycriterion這個(gè)評(píng)估標(biāo)準(zhǔn)定義[5]如下:其中,k是聚類數(shù),N是樣本數(shù),SSw是我們之前提到過的組內(nèi)平方和誤差,SSb是組與組之間的平方和誤差,SSw越小,SSb越大聚類效果越好,所以Calinskycriterion值一般來說是越大,聚類效果越好可以看到該函數(shù)把組內(nèi)平方和誤差和Calinsky都計(jì)算出來了,可以看到calinski在聚類數(shù)為3時(shí)達(dá)到最大值。3畫圖出來觀察一下注意到那個(gè)紅點(diǎn)就是對(duì)應(yīng)的最大值,自帶的繪圖橫軸縱軸取的可能不符合我們的直覺,把數(shù)據(jù)取出來自己單獨(dú)畫一下這個(gè)看上去直觀多了。這就很清晰的可以看到在聚類數(shù)目為3時(shí),calinski指標(biāo)達(dá)到了最大值,所以最佳數(shù)目為36.Affinitypropagation(AP)clustering這個(gè)本質(zhì)上是類似kmeans或者層次聚類一樣,是一種聚類方法,因?yàn)椴恍枰駅means一樣提供聚類數(shù),會(huì)自動(dòng)算出最佳聚類數(shù),因此也放到這里作為一種計(jì)算最佳聚類數(shù)目的方法。AP算法的基本思想是將全部樣本看作網(wǎng)絡(luò)的節(jié)點(diǎn),然后通過網(wǎng)絡(luò)中各條邊的消息傳遞計(jì)算出各樣本的聚類中心。聚類過程中,共有兩種消息在各節(jié)點(diǎn)間傳遞,分別是吸引度(responsibility)和歸屬度(availability)。AP算法通過迭代過程不斷更新每一個(gè)點(diǎn)的吸引度和歸屬度值,直到產(chǎn)生m個(gè)高質(zhì)量的Exemplar(類似于質(zhì)心),同時(shí)將其余的數(shù)據(jù)點(diǎn)分配到相應(yīng)的聚類中[7]15該聚類方法推薦的最佳聚類數(shù)目為15,再用熱力圖可視化一下選x或者y方向看(對(duì)稱),可以數(shù)出來“葉子節(jié)點(diǎn)”一共15個(gè)7.輪廓系數(shù)Averagesilhouettemethod輪廓系數(shù)是類的密集與分散程度的評(píng)價(jià)指標(biāo)。a(i)是測(cè)量組內(nèi)的相似度,b(i)是測(cè)量組間的相似度,s(i)范圍從-1到1,值越大說明組內(nèi)吻合越高,組間距離越遠(yuǎn)——也就是說,輪廓系數(shù)值越大,聚類效果越好[9]可以看到也是在聚類數(shù)為3時(shí)輪廓系數(shù)達(dá)到了峰值,所以最佳聚類數(shù)為38.GapStatistic之前我們提到了WSSE組內(nèi)平方和誤差,該種方法是通過找“肘點(diǎn)”來找到最佳聚類數(shù),肘點(diǎn)的選擇并不是那么清晰,因此斯坦福大學(xué)的Robert等教授提出了GapStatistic方法,定義的Gap值為[9]取對(duì)數(shù)的原因是因?yàn)閃k的值可能很大通過這個(gè)式子來找出Wk跌落最快的點(diǎn),Gap最大值對(duì)應(yīng)的k值就是最佳聚類數(shù)可以看到也是在聚類數(shù)為3的時(shí)候gap值取到了最大值,所以最佳聚類數(shù)為39.層次聚類層次聚類是通過可視化然后人為去判斷大致聚為幾類,很明顯在共同父節(jié)點(diǎn)的一顆子樹可以被聚類為一個(gè)類10.clustergram最后一種算法是TalGalili[10]大牛自己定義的一種聚類可視化的展示,繪制隨著聚類數(shù)目的增加,所有成員是如何分配到各個(gè)類別的。該代碼沒有被制作成R包,可以去Galili介紹頁面)里面的github地址找到源代碼跑一遍然后就可以用這個(gè)函數(shù)了,因?yàn)樵创a有點(diǎn)長我就不放博客里面了,直接放出運(yùn)行代碼的截圖。隨著K的增加,從最開始的兩類到最后的八類,圖肯定是越到后面越密集。通過這個(gè)圖判斷最佳聚類數(shù)目的方法應(yīng)該是看隨著K每增加1,分出來的線越少說明在該k值下越穩(wěn)定。比如k=7到k=8,假設(shè)k=7是很好的聚類數(shù),那分成8類時(shí)應(yīng)該可能只是某一類分成了兩類,其他6類都每怎么變。反應(yīng)到圖中應(yīng)該是有6簇平行線,有一簇分成了兩股,而現(xiàn)在可以看到從7到8,線完全亂了,說明k=7時(shí)效果并不好。按照這個(gè)分析,k=3到k=4時(shí),第一股和第三股幾本沒變,就第二股拆成了2類,所以k=3是最佳聚類數(shù)目方法匯總與比較wine數(shù)據(jù)集我們知道其實(shí)是分為3類的,以上10種判定方法中:可見上述方法中有的因?yàn)閿?shù)據(jù)太大不能運(yùn)行,有的結(jié)果很明顯不對(duì),一個(gè)可能是數(shù)據(jù)集的本身的原因(缺失值太多等),但是也告訴了我們?cè)诖_定最佳聚類數(shù)目的時(shí)候需要多嘗試幾種方法,并沒有固定的套路,然后選擇一種可信度較高的聚類數(shù)目。最后再把這10種方法總結(jié)一下:
數(shù)據(jù)科學(xué)家必備的10種機(jī)器學(xué)習(xí)算法 - iDoNews 互聯(lián)網(wǎng)視頻課程
原文來源:towardsdatascience作者:ShashankGupta「雷克世界」編譯:嗯~是阿童木呀、KABUDA、EVA可以說,機(jī)器學(xué)習(xí)從業(yè)者都是個(gè)性迥異的。雖然其中一些人會(huì)說“我是X方面的專家,X可以在任何類型的數(shù)據(jù)上進(jìn)行訓(xùn)練”,其中,X=某種算法;而其他一些人則是“能夠在適合的工作中施展其才華”。他們中的很多人認(rèn)可“涉獵所有行業(yè),而是其中一個(gè)領(lǐng)域的專家”策略,即他們?cè)谝粋€(gè)領(lǐng)域內(nèi)擁有一個(gè)深厚的專業(yè)知識(shí),并且對(duì)機(jī)器學(xué)習(xí)的不同領(lǐng)域有所了解。也就是說,沒有人能否認(rèn)這樣的事實(shí):作為數(shù)據(jù)科學(xué)家的實(shí)踐者,我們必須了解一些通用機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)算法,這將幫助我們解決所遇到的新領(lǐng)域問題。本文對(duì)通用機(jī)器學(xué)習(xí)算法進(jìn)行了簡要的闡述,并列舉了它們的相關(guān)資源,從而幫助你能夠快速掌握其中的奧妙。1.主成分分析(PCA)/SVDPCA是一種無監(jiān)督的方法,用于對(duì)由向量組成的數(shù)據(jù)集的全局屬性進(jìn)行理解。本文分析了數(shù)據(jù)點(diǎn)的協(xié)方差矩陣,以了解哪些維度(大部分情況)/數(shù)據(jù)點(diǎn)(少數(shù)情況)更為重要,即它們之間具有很多的變化,但與其他變量之間的協(xié)變性較低)??紤]一個(gè)矩陣頂級(jí)主成分(PC)的一種方式是考慮它的具有最高特征值的特征向量。奇異值分解(SVD)本質(zhì)上也是計(jì)算有序組件的一種方法,但你在沒有獲得點(diǎn)的協(xié)方差矩陣的情況下也可以得到它。該算法通過獲取維度縮小的數(shù)據(jù)點(diǎn)的方式來幫助人們克服維度難題。庫:https://docs.scipy.org/doc/scipy/reference/generated/scipy.linalg.svd.htmlhttp://scikitlearn.org/stable/modules/generated/sklearn.decomposition.PCA.html入門教程:https://arxiv.org/pdf/1404.1100.pdf2a.最小二乘法和多項(xiàng)式擬合還記得你在大學(xué)時(shí)所學(xué)的數(shù)值分析(NumericalAnalysis)代碼嗎?其中,你使用直線和曲線連接點(diǎn)從而得到一個(gè)等式方程。在機(jī)器學(xué)習(xí)中,你可以將它們用于擬合具有低維度的小型數(shù)據(jù)集的曲線。(而對(duì)于具有多個(gè)維度的大型數(shù)據(jù)或數(shù)據(jù)集來說,實(shí)驗(yàn)的結(jié)果可能總是過度擬合,所以不必麻煩)。OLS有一個(gè)封閉形式的解決方案,所以你不需要使用復(fù)雜的優(yōu)化技術(shù)。如上圖所示,很明顯,使用這種算法對(duì)簡單的曲線/回歸進(jìn)行擬合是非常方便的。庫:https://docs.scipy.org/doc/numpy/reference/generated/numpy.linalg.lstsq.htmlhttps://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.polyJt.html入門教程:https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/linear_regression.pdf2b.約束線性回歸最小二乘法可能會(huì)與異常值(outliers)、假字段(spuriousfields)和數(shù)據(jù)中的噪聲相混淆。因此,我們需要約束以減少數(shù)據(jù)集上所進(jìn)行擬合的線的方差。正確的方法是使用一個(gè)線性回歸模型,以確保權(quán)重不會(huì)出錯(cuò)。模型可以有L1范數(shù)(LASSO)或L2(嶺回歸,RidgeRegression)或兼具兩者(彈性回歸)。均方損失得到優(yōu)化。將這些算法用于擬合帶有約束的回歸線,避免過度擬合并對(duì)模型中噪聲維度進(jìn)行掩碼。庫:http://scikit-learn.org/stable/modules/linear_model.html入門教程:https://www.youtube.com/watch?v=5asL5Eq2x0Ahttps://www.youtube.com/watch?v=jbwSCwoT51M3.K均值聚類這是大家最喜歡的無監(jiān)督聚類算法。給定一組向量形式的數(shù)據(jù)點(diǎn),我們可以根據(jù)它們之間的距離制作點(diǎn)集群。這是一個(gè)期望最大化算法,它迭代地移動(dòng)集群中心,然后架構(gòu)每集群中心點(diǎn)聚焦在一起。該算法所采用的輸入是將要生成的集群的數(shù)量,以及它將嘗試聚集集群的迭代次數(shù)。顧名思義,你可以使用此算法在數(shù)據(jù)集中創(chuàng)建K個(gè)集群。庫:http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html入門教程:https://www.youtube.com/watch?v=hDmNF9JG3lohttps://www.datascience.com/blog/k-means-clustering4.Logistic回歸Logistic回歸是有限線性回歸,在應(yīng)用權(quán)重后帶有非線性(大多數(shù)使用sigmoid函數(shù),或者你也可以使用tanh函數(shù))應(yīng)用,因此把輸出限制到接近+/-類(在sigmoid的情況下是1和0)。利用梯度下降法對(duì)交叉熵?fù)p失函數(shù)(Cross-EntropyLossfunctions)進(jìn)行優(yōu)化。初學(xué)者需要注意的是:Logistic回歸用于分類,而不是回歸。你也可以把logistic回歸看成是一層神經(jīng)網(wǎng)絡(luò)。Logistic回歸使用諸如梯度下降或LBFGS等最優(yōu)化方法進(jìn)行訓(xùn)練。從事自然語言處理的的人員通常會(huì)稱它為最大熵分類器(MaximumEntropyClassifier)。Sigmoid函數(shù)是這個(gè)樣子的:使用LR對(duì)簡單但具有魯棒性的分類器進(jìn)行訓(xùn)練。庫:http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html入門教程:https://www.youtube.com/watch?v=-la3q9d7AKQ5.支持向量機(jī)(SupportVectorMachines,SVM)支持向量機(jī)是線性模型,就像線性/Logistic回歸一樣,不同之處在于它們有不同的基于邊緣的損失函數(shù)(支持向量機(jī)的推導(dǎo)是我見過的最漂亮的數(shù)學(xué)結(jié)果和特征值計(jì)算之一)。你可以使用諸如L-BFGS甚至SGD這樣的最優(yōu)化方法來優(yōu)化損失函數(shù)。支持向量機(jī)中的另一個(gè)創(chuàng)新是將內(nèi)核用于數(shù)據(jù),以體現(xiàn)工程師的特色。如果你有很好的領(lǐng)域洞察力,你可以用更聰明的方法來替代優(yōu)秀但是老舊的RBF內(nèi)核并從中獲利。支持向量機(jī)能做一件獨(dú)特的事情:學(xué)習(xí)一類分類器。可以使用支持向量機(jī)來訓(xùn)練分類器(甚至是回歸量)。庫:http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html入門教程:https://www.youtube.com/watch?v=eHsErlPJWUU6.前饋神經(jīng)網(wǎng)絡(luò)(FeedforwardNeuralNetworks,F(xiàn)FNN)這些基本上都是多層的logistic回歸分類器。許多權(quán)重的層被非線性函數(shù)(sigmoid、tanh、relu+softmax和炫酷的selu)分隔了。它們另一個(gè)流行的名字是多層感知器(Multi-LayeredPerceptron)??梢詫FNN作為自動(dòng)編碼器用于分類和非監(jiān)督的特征學(xué)習(xí)。多層感知器(Multi-Layeredperceptron)FFNN作為自動(dòng)編碼器可以使用FFNN作為自動(dòng)編碼器來訓(xùn)練分類器或提取特征。庫:http://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifierhttp://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.htmlhttps://github.com/keras-team/keras/blob/master/examples/reuters_mlp_relu_vs_selu.py入門教程:http://www.deeplearningbook.org/contents/mlp.htmlhttp://www.deeplearningbook.org/contents/autoencoders.htmlhttp://www.deeplearningbook.org/contents/representation.html7.卷積神經(jīng)網(wǎng)絡(luò)(Convents)目前,世界上近乎所有基于視覺的機(jī)器學(xué)習(xí)結(jié)果都是使用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的。它們可用于圖像分類、目標(biāo)檢測(cè)及圖像分割。YannLecun于80年代末90年代初提出卷積神經(jīng)網(wǎng)絡(luò),其特征是卷積層,它起著提取分層特征的作用。你可以在文本(甚至圖形)中使用它們。利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像和文本進(jìn)行分類,并進(jìn)行目標(biāo)檢測(cè)和圖像分割。庫:https://developer.nvidia.com/digitshttps://github.com/kuangliu/torchcvhttps://github.com/chainer/chainercvhttps://keras.io/applications/入門教程:http://cs231n.github.io/https://adeshpande3.github.io/A-Beginner%27s-Guide-To-Understanding-Convolutional-Neural-Networks/8.循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)RNNs模型序列通過在時(shí)間t遞歸地對(duì)聚集器狀態(tài)施加相同的權(quán)重集,并且在時(shí)間t輸入(給定一個(gè)序列,在時(shí)間0..t..T處有輸入,并且在每個(gè)時(shí)間t具有隱藏狀態(tài),來自RNN的t-1步驟的輸出)。現(xiàn)在很少使用純RNN(pureRNN),但是像LSTM和GRU這類旗鼓相當(dāng)?shù)乃惴ㄔ诖蠖鄶?shù)序列建模任務(wù)中仍是最先進(jìn)的。RNN(如果這里是密集連接的單元與非線性,那么現(xiàn)在f一般是LSTM或GRU)。LSTM單元用于替代純RNN中的簡單致密層。使用RNN進(jìn)行人物序列建模任務(wù),特別是文本分類、機(jī)器翻譯及語言建模。庫:https://github.com/tensorqow/modelshttps://github.com/wabyking/TextClassiJcationBenchmarkhttp://opennmt.net/入門教程:http://cs224d.stanford.edu/http://www.wildml.com/category/neural-networks/recurrent-neural-networks/http://colah.github.io/posts/2015-08-Understanding-LSTMs/9.條件隨機(jī)場(chǎng)(CRFs)CRFs或許是概率圖形模型(PGMs)中使用頻率最高的模型。它們可用于類似于RNN的序列建模,也可與RNN結(jié)合使用。在神經(jīng)機(jī)器翻譯系統(tǒng)出現(xiàn)之前,CRF是最先進(jìn)的技術(shù),在許多具有小數(shù)據(jù)集的序列標(biāo)注任務(wù)中,它們?nèi)匀粫?huì)比那些需要大量數(shù)據(jù)才能推廣的RNN表現(xiàn)得更好。它們也可被用于其他結(jié)構(gòu)化的預(yù)測(cè)任務(wù),如圖像分割等。CRF對(duì)序列中的每個(gè)元素(例如句子)進(jìn)行建模,這樣近鄰會(huì)影響序列中某個(gè)組件的標(biāo)簽,而不是所有的標(biāo)簽相互獨(dú)立。使用CRFs標(biāo)記序列(如文本、圖像、時(shí)間序列及DNA等)。庫:https://sklearn-crfsuite.readthedocs.io/en/latest/入門教程:http://blog.echen.me/2012/01/03/introduction-to-conditional-random-Jelds/HugoLarochelle在Youtube上的系列講座:https://www.youtube.com/watch?v=GF3iSJkgPbA10.決策樹例如我有一張有關(guān)各種水果數(shù)據(jù)的Excel工作表,我必須標(biāo)明哪些是蘋果。我們需要做的是提出一個(gè)問題“哪些水果是紅的,哪些水果是圓的?”然后根據(jù)答案,將“是”與“否”的水果區(qū)分開。然后,我們得到的紅色和圓形的水果并不一定都是蘋果,所有蘋果也不一定都是紅色和圓形的。因此,我會(huì)面向紅色和圓形的水果提出一個(gè)問題,“哪些水果上有紅色或黃色的標(biāo)記”?向不是紅色和圓形的水果提出一個(gè)問題,“哪些水果是綠色和圓形的”?;谶@些問題,我可以非常準(zhǔn)確的分辨出哪些是蘋果。這一系列的問題展示了什么是決策樹。然而,這是基于我個(gè)人直覺的決策樹。直覺并不能處理高維度和復(fù)雜的問題。我們必須通過查看標(biāo)記的數(shù)據(jù)來自動(dòng)得出問題的級(jí)聯(lián),這就是基于機(jī)器學(xué)習(xí)的決策樹所做的工作。早期的CART樹曾被用于簡單的數(shù)據(jù),但隨著數(shù)據(jù)集的不斷擴(kuò)大,偏差-方差的權(quán)衡需要用更好地算法來解決。目前常用的兩種決策樹算法是隨機(jī)森林(RandomForests)(在屬性的隨機(jī)子集上建立不同的分類器,并將它們結(jié)合起來輸出)和提升樹(Boostingtrees)(在其他樹的基礎(chǔ)上對(duì)樹的級(jí)聯(lián)進(jìn)行訓(xùn)練,糾正它們下面的錯(cuò)誤)決策樹可以用于分類數(shù)據(jù)點(diǎn)(甚至回歸)。庫:http://scikitlearn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassiJer.htmlhttp://scikitlearn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassiJer.htmlhttp://xgboost.readthedocs.io/en/latest/https://catboost.yandex/入門教程:http://xgboost.readthedocs.io/en/latest/model.htmlhttps://arxiv.org/abs/1511.05741https://arxiv.org/abs/1407.7502http://education.parrotprediction.teachable.com/p/practical-xgboost-in-pythonTD算法你不必思考上述哪種算法能夠像DeepMind那樣擊敗圍棋世界冠軍,因?yàn)樗鼈兌疾荒茏龅竭@一點(diǎn)。我們之前談及的10種算法都是模式識(shí)別,而非策略學(xué)習(xí)者。為了學(xué)習(xí)能夠解決多步驟問題的策略,比如贏得一盤棋或玩Atari游戲機(jī),我們需要讓一個(gè)空白的智能體在這世界上根據(jù)其自身面臨的獎(jiǎng)懲進(jìn)行學(xué)習(xí)。這種類型的機(jī)器學(xué)習(xí)被稱為強(qiáng)化學(xué)習(xí)。近期,在這個(gè)領(lǐng)域內(nèi)所取得的很多(并非全部)成果都是通過將convnet或LSTM的感知能力與一組名為時(shí)間差分學(xué)習(xí)算法(TemporalDifferenceLearning)的算法組合而得來的。這其中包括Q-Learning、SARSA及其他算法。這些算法是對(duì)貝爾曼方程的巧妙應(yīng)用,從而得到一個(gè)可以利用智能體從環(huán)境中得到的獎(jiǎng)勵(lì)來訓(xùn)練的損失函數(shù)。這些算法主要用于自動(dòng)運(yùn)行游戲中,并在其他語言生成和目標(biāo)檢測(cè)項(xiàng)目中予以應(yīng)用。庫:https://github.com/keras-rl/keras-rlhttps://github.com/tensorqow/minigo入門教程:Sutton與Barto的免費(fèi)書籍:https://web2.qatar.cmu.edu/~gdicaro/15381/additional/SuttonBarto-RL-5Nov17.pdf觀看DavidSilver的課程:https://www.youtube.com/watch?v=2pWv7GOvuf0我們介紹了可以助你成為數(shù)據(jù)科學(xué)家的10中機(jī)器學(xué)習(xí)算法。你可以在這里瀏覽機(jī)器學(xué)習(xí)庫:https://blog.paralleldots.com/data-science/lesser-known-machine-learning-libraries-part-ii/原文鏈接:https://towardsdatascience.com/ten-machine-learning-algorithms-you-should-know-to-become-a-data-scientist-8dc93d8ca52e?source=userActivityShare-dc302bd40f88-1521164030
第四范式陳雨強(qiáng):提高機(jī)器學(xué)習(xí)維度的兩大法寶 營銷視頻課程
2017年5月27日,由人工智能頂尖媒體“機(jī)器之心”主辦的2017全球機(jī)器智能峰會(huì)(GMIS2017)在京正式召開。大會(huì)邀請(qǐng)了來自中、美、歐等眾多頂級(jí)專家參會(huì),以專業(yè)化及全球化的視角為該領(lǐng)域的從業(yè)者及愛好者奉上了一場(chǎng)人工智能盛宴。第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強(qiáng)受邀出席,并發(fā)表了主題演講、分享了機(jī)器學(xué)習(xí)在工業(yè)界應(yīng)用發(fā)展的新思考。 第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強(qiáng)于全球機(jī)器智能峰會(huì)(GMIS2017)發(fā)表演講陳雨強(qiáng)認(rèn)為,過去五年,人工智能在工業(yè)界的火熱程度正以指數(shù)的方式增長,而“VC維”便是衡量人工智能應(yīng)用水平的關(guān)鍵。VC維理論是由Vapnik和Chervonenkis于1960年代至1990年代建立的統(tǒng)計(jì)學(xué)習(xí)理論,它反映了函數(shù)集的學(xué)習(xí)能力——VC維越大則模型或函數(shù)越復(fù)雜,學(xué)習(xí)能力就越強(qiáng)。舉個(gè)例子,如果人類的智商水平可以用大腦的腦細(xì)胞數(shù)來衡量,那么機(jī)器的智商水平就可以用VC維來衡量,即超高智商的人工智能,需要超高維度的機(jī)器學(xué)習(xí)模型來實(shí)現(xiàn)。陳雨強(qiáng)表示,第四范式在提高模型維度方面可謂下足了功夫,高維度模型在實(shí)際應(yīng)用中的效果亦十分出眾。以第四范式與某銀行信用卡中心的合作案例為例,該銀行需要通過數(shù)據(jù)精準(zhǔn)識(shí)別出所有客戶當(dāng)中的信用卡賬單分期客戶。在短短兩個(gè)月內(nèi),經(jīng)過第四范式和卡中心的共同努力,該信用卡賬單分期模型從此前的兩百多維,提升至“五千萬維”,使賬單分期推薦短信的響應(yīng)率提升了68%,卡中心的賬單分期手續(xù)費(fèi)提升61%。取得如此顯著的效果,陳雨強(qiáng)為與會(huì)者解密了第四范式的機(jī)器學(xué)習(xí)產(chǎn)品前瞻的研發(fā)思路。第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強(qiáng)于全球機(jī)器智能峰會(huì)(GMIS2017)發(fā)表演講
打造深度稀疏網(wǎng)絡(luò)(DSN),兼顧“寬”與“深”的算法眾所周知,機(jī)器學(xué)習(xí)包含數(shù)據(jù)、特征、模型三個(gè)方面。特征分為宏觀(描述的統(tǒng)計(jì)類特征)、微觀(如個(gè)性化ID特征)兩類,模型也分為簡單、復(fù)雜兩類。在數(shù)據(jù)足夠充足的情況下,沿著模型優(yōu)化和特征優(yōu)化的兩條路徑切入,可以有效地提高機(jī)器學(xué)習(xí)的模型維度。沿著模型優(yōu)化——即走“深”的路徑是由學(xué)術(shù)界主導(dǎo),優(yōu)化模型的科學(xué)家們?yōu)榱朔奖銓?shí)驗(yàn),降低了工程實(shí)現(xiàn)能力的要求,大部分模型可單機(jī)加載。工業(yè)界在按照該思路優(yōu)化時(shí),往往采用觀察數(shù)據(jù)、找到規(guī)律、根據(jù)規(guī)律做模型假設(shè)、對(duì)模型假設(shè)中的參數(shù)用數(shù)據(jù)擬合、將擬合的結(jié)果上線測(cè)試等步驟。這條路徑需要解決數(shù)據(jù)分布式以及通訊overhead等問題。沿著特征優(yōu)化——即走“寬”的路徑是由工業(yè)界主導(dǎo),無論是模型還是算法,均采取分布式的策略,在保證高效分布式的同時(shí)兼顧快速收斂。針對(duì)具體問題,采用較為成熟的線性模型,將觀察到的所有微觀特征進(jìn)行建模。該優(yōu)化路徑的模型簡單粗暴,且對(duì)工程挑戰(zhàn)極大。兩種路徑在工業(yè)界都有非常成功的應(yīng)用案例,但雙方的劣勢(shì)同樣明顯。崇尚“寬”路徑的陣營認(rèn)為深度模型在某些問題上從來沒有發(fā)揮出數(shù)據(jù)的全部價(jià)值,離真正的個(gè)性化尚有差距;而寬度模型則在推理能力上略遜一籌。 Wide&DeepModel與DSN對(duì)比近年來,寬與深的結(jié)合已經(jīng)逐漸成為一個(gè)研究熱點(diǎn)。2016年6月,Google研究院發(fā)表論文稱,正在研發(fā)Wide&DeepModel,并表示其在搜索、廣告與推薦等領(lǐng)域均十分有效。同年7月,第四范式發(fā)布了新一代的模型算法——深度稀疏網(wǎng)絡(luò)DSN(DeepSparseNetwork)。Wide&DeepModel利用深度窄網(wǎng)絡(luò)刻畫宏觀特征之間的關(guān)系,利用寬度淺層網(wǎng)絡(luò)記憶微觀特征,但無法刻畫微觀特征之間的復(fù)雜關(guān)系,由于Wide&DeepModel將“寬”和“深”分離,導(dǎo)致微觀和宏觀特征之間的關(guān)系也無法刻畫。與Wide&DeepModel不同,第四范式的DSN將“寬”和“深”做了更全面的融合,算法底層是上千億大小的寬度網(wǎng)絡(luò),上層是一個(gè)全連接的網(wǎng)絡(luò),這樣既可以記住更多信息,又能刻畫所有特征(包括宏觀特征和微觀特征)之間更復(fù)雜的關(guān)系。在參數(shù)規(guī)模上,Wide&DeepModel支持的參數(shù)規(guī)模為十億級(jí),DSN支持的參數(shù)規(guī)模已達(dá)到十萬億級(jí),模型“VC維”更高,這意味著隨著數(shù)據(jù)量的增大,模型效果有更大的提升空間。重塑大規(guī)模分布式機(jī)器學(xué)習(xí)系統(tǒng)架構(gòu),兼顧開發(fā)和執(zhí)行的效率在工業(yè)界應(yīng)用中,由于模型維度的增加,對(duì)機(jī)器學(xué)習(xí)的系統(tǒng)架構(gòu)提出了更高的要求。第一,由于功率墻(PowerWall,即芯片密度不能無限增長)和延遲墻(LatencyWall,即受光速限制,芯片規(guī)模和時(shí)鐘頻率不能無限增長)的限制,摩爾定律正在慢慢失效。目前,提升計(jì)算能力的方式主要是依靠并行計(jì)算,從早期的以降低執(zhí)行延遲為主到現(xiàn)在的以提升吞吐量為主。在模型訓(xùn)練的高性能計(jì)算要求下,單機(jī)在I/O、存儲(chǔ)、計(jì)算等方面顯得力不從心。因此,第四范式針對(duì)此問題設(shè)計(jì)了分布式并行化的機(jī)器學(xué)習(xí)模型訓(xùn)練系統(tǒng)。PowerWall,功耗隨著集成電路密度指數(shù)提升第二,在機(jī)器學(xué)習(xí)的領(lǐng)域中,一個(gè)著名的定理叫NoFreeLunch(Wolpert和Macready于1997年提出),是指任意算法(包括隨機(jī)算法)在所有問題上的期望性能一樣,不存在通用的算法,因此需要針對(duì)不同的實(shí)際問題,研發(fā)出不同的機(jī)器學(xué)習(xí)算法。這對(duì)于機(jī)器學(xué)習(xí)計(jì)算框架的開發(fā)效率要求極高。 典型的機(jī)器學(xué)習(xí)建模過程第三,在面對(duì)實(shí)際問題時(shí),需要對(duì)數(shù)據(jù)、特征表達(dá)、模型、模型參數(shù)等進(jìn)行多種嘗試,且每一次嘗試,都需要單獨(dú)做模型訓(xùn)練。所以,模型訓(xùn)練是整個(gè)機(jī)器學(xué)習(xí)建模過程中被重復(fù)執(zhí)行最多的模塊,執(zhí)行效率也就成為了重中之重。 機(jī)器學(xué)習(xí)核心系統(tǒng)對(duì)計(jì)算資源的需求對(duì)比除此之外,由于對(duì)計(jì)算問題、計(jì)算模式和計(jì)算資源的需求都有所不同,因此在所有問題上,沒有最好的架構(gòu),只有最適合實(shí)際問題的架構(gòu)。針對(duì)機(jī)器學(xué)習(xí)任務(wù)的特性進(jìn)行框架設(shè)計(jì)才能更有效地解決大規(guī)模機(jī)器學(xué)習(xí)模型訓(xùn)練的計(jì)算問題。第四范式的機(jī)器學(xué)習(xí)系統(tǒng)兼顧了開發(fā)效率和執(zhí)行效率,具備高效、智能、易開發(fā)、易部署、易運(yùn)維、易擴(kuò)展、覆蓋場(chǎng)景廣泛等優(yōu)勢(shì),且隨著計(jì)算能力的提升,該架構(gòu)使模型的復(fù)雜度與投入的計(jì)算資源呈線性增長,與以往的架構(gòu)相比,節(jié)省了大量的計(jì)算資源。在通過技術(shù)層面提高模型維度的同時(shí),第四范式也在積極降低機(jī)器學(xué)習(xí)的使用門檻,讓更多的技術(shù)、業(yè)務(wù)等非專業(yè)建模人員能夠使用機(jī)器學(xué)習(xí),建立適合各個(gè)業(yè)務(wù)的高維模型。陳雨強(qiáng)介紹說,2017年初,第四范式內(nèi)部舉行了全球首個(gè)面向非專業(yè)人士的機(jī)器學(xué)習(xí)建模比賽——“一顆賽艇建模大賽”。所有參賽選手均由第四范式內(nèi)部行政、人事、市場(chǎng)、商務(wù)等非機(jī)器學(xué)習(xí)專業(yè)的員工構(gòu)成。比賽結(jié)果按照參賽選手所建模型的AUC(筆者注:AUC是衡量模型準(zhǔn)確度的專業(yè)指標(biāo),取值在0到1之間)指標(biāo)衡量。以往,專業(yè)數(shù)據(jù)科學(xué)家的建模AUC在0.8以上。通過兩周的簡單培訓(xùn),有70%的“業(yè)余”參賽選手的模型AUC達(dá)到了0.8以上的優(yōu)異成績。值得一提的是,在內(nèi)部建模比賽之后,第四范式創(chuàng)立了“范式大學(xué)”人才培養(yǎng)計(jì)劃,通過培養(yǎng)非專業(yè)人士利用“先知”建模,“批量生產(chǎn)”數(shù)據(jù)科學(xué)家,進(jìn)一步解決AI人才高門檻的問題。關(guān)于陳雨強(qiáng)陳雨強(qiáng),第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家,世界級(jí)深度學(xué)習(xí)、遷移學(xué)習(xí)專家。在百度鳳巢期間主持了世界首個(gè)商用深度學(xué)習(xí)系統(tǒng),大幅度提升廣告點(diǎn)擊率的同時(shí),提升用戶滿意度和企業(yè)收入,加入今日頭條后主持了中國用戶量最多的新媒體人工智能推薦系統(tǒng),完成全新的信息流推薦與廣告系統(tǒng)的設(shè)計(jì)。作為第四范式首席研究科學(xué)家,帶領(lǐng)團(tuán)隊(duì)打造專為機(jī)器學(xué)習(xí)而生的計(jì)算框架,實(shí)現(xiàn)人工智能產(chǎn)品化的關(guān)鍵技術(shù)突破,推出的人工智能產(chǎn)品“第四范式·先知”2016年榮獲中國智能科技最高獎(jiǎng)-吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)。陳雨強(qiáng)曾在NIPS,AAAI,ACL,SIGKDD等頂會(huì)上發(fā)表論文,獲APWeb2010BestPaperAward,KDDCup2011名列前三,其學(xué)術(shù)工作在2010年作被全球著名科技雜志MITTechnologyReview報(bào)道。他和第四范式創(chuàng)始團(tuán)隊(duì)開創(chuàng)的“遷移學(xué)習(xí)”被業(yè)界認(rèn)為是“下一代人工智能技術(shù)”。
打造深度稀疏網(wǎng)絡(luò)(DSN),兼顧“寬”與“深”的算法眾所周知,機(jī)器學(xué)習(xí)包含數(shù)據(jù)、特征、模型三個(gè)方面。特征分為宏觀(描述的統(tǒng)計(jì)類特征)、微觀(如個(gè)性化ID特征)兩類,模型也分為簡單、復(fù)雜兩類。在數(shù)據(jù)足夠充足的情況下,沿著模型優(yōu)化和特征優(yōu)化的兩條路徑切入,可以有效地提高機(jī)器學(xué)習(xí)的模型維度。沿著模型優(yōu)化——即走“深”的路徑是由學(xué)術(shù)界主導(dǎo),優(yōu)化模型的科學(xué)家們?yōu)榱朔奖銓?shí)驗(yàn),降低了工程實(shí)現(xiàn)能力的要求,大部分模型可單機(jī)加載。工業(yè)界在按照該思路優(yōu)化時(shí),往往采用觀察數(shù)據(jù)、找到規(guī)律、根據(jù)規(guī)律做模型假設(shè)、對(duì)模型假設(shè)中的參數(shù)用數(shù)據(jù)擬合、將擬合的結(jié)果上線測(cè)試等步驟。這條路徑需要解決數(shù)據(jù)分布式以及通訊overhead等問題。沿著特征優(yōu)化——即走“寬”的路徑是由工業(yè)界主導(dǎo),無論是模型還是算法,均采取分布式的策略,在保證高效分布式的同時(shí)兼顧快速收斂。針對(duì)具體問題,采用較為成熟的線性模型,將觀察到的所有微觀特征進(jìn)行建模。該優(yōu)化路徑的模型簡單粗暴,且對(duì)工程挑戰(zhàn)極大。兩種路徑在工業(yè)界都有非常成功的應(yīng)用案例,但雙方的劣勢(shì)同樣明顯。崇尚“寬”路徑的陣營認(rèn)為深度模型在某些問題上從來沒有發(fā)揮出數(shù)據(jù)的全部價(jià)值,離真正的個(gè)性化尚有差距;而寬度模型則在推理能力上略遜一籌。 Wide&DeepModel與DSN對(duì)比近年來,寬與深的結(jié)合已經(jīng)逐漸成為一個(gè)研究熱點(diǎn)。2016年6月,Google研究院發(fā)表論文稱,正在研發(fā)Wide&DeepModel,并表示其在搜索、廣告與推薦等領(lǐng)域均十分有效。同年7月,第四范式發(fā)布了新一代的模型算法——深度稀疏網(wǎng)絡(luò)DSN(DeepSparseNetwork)。Wide&DeepModel利用深度窄網(wǎng)絡(luò)刻畫宏觀特征之間的關(guān)系,利用寬度淺層網(wǎng)絡(luò)記憶微觀特征,但無法刻畫微觀特征之間的復(fù)雜關(guān)系,由于Wide&DeepModel將“寬”和“深”分離,導(dǎo)致微觀和宏觀特征之間的關(guān)系也無法刻畫。與Wide&DeepModel不同,第四范式的DSN將“寬”和“深”做了更全面的融合,算法底層是上千億大小的寬度網(wǎng)絡(luò),上層是一個(gè)全連接的網(wǎng)絡(luò),這樣既可以記住更多信息,又能刻畫所有特征(包括宏觀特征和微觀特征)之間更復(fù)雜的關(guān)系。在參數(shù)規(guī)模上,Wide&DeepModel支持的參數(shù)規(guī)模為十億級(jí),DSN支持的參數(shù)規(guī)模已達(dá)到十萬億級(jí),模型“VC維”更高,這意味著隨著數(shù)據(jù)量的增大,模型效果有更大的提升空間。重塑大規(guī)模分布式機(jī)器學(xué)習(xí)系統(tǒng)架構(gòu),兼顧開發(fā)和執(zhí)行的效率在工業(yè)界應(yīng)用中,由于模型維度的增加,對(duì)機(jī)器學(xué)習(xí)的系統(tǒng)架構(gòu)提出了更高的要求。第一,由于功率墻(PowerWall,即芯片密度不能無限增長)和延遲墻(LatencyWall,即受光速限制,芯片規(guī)模和時(shí)鐘頻率不能無限增長)的限制,摩爾定律正在慢慢失效。目前,提升計(jì)算能力的方式主要是依靠并行計(jì)算,從早期的以降低執(zhí)行延遲為主到現(xiàn)在的以提升吞吐量為主。在模型訓(xùn)練的高性能計(jì)算要求下,單機(jī)在I/O、存儲(chǔ)、計(jì)算等方面顯得力不從心。因此,第四范式針對(duì)此問題設(shè)計(jì)了分布式并行化的機(jī)器學(xué)習(xí)模型訓(xùn)練系統(tǒng)。PowerWall,功耗隨著集成電路密度指數(shù)提升第二,在機(jī)器學(xué)習(xí)的領(lǐng)域中,一個(gè)著名的定理叫NoFreeLunch(Wolpert和Macready于1997年提出),是指任意算法(包括隨機(jī)算法)在所有問題上的期望性能一樣,不存在通用的算法,因此需要針對(duì)不同的實(shí)際問題,研發(fā)出不同的機(jī)器學(xué)習(xí)算法。這對(duì)于機(jī)器學(xué)習(xí)計(jì)算框架的開發(fā)效率要求極高。 典型的機(jī)器學(xué)習(xí)建模過程第三,在面對(duì)實(shí)際問題時(shí),需要對(duì)數(shù)據(jù)、特征表達(dá)、模型、模型參數(shù)等進(jìn)行多種嘗試,且每一次嘗試,都需要單獨(dú)做模型訓(xùn)練。所以,模型訓(xùn)練是整個(gè)機(jī)器學(xué)習(xí)建模過程中被重復(fù)執(zhí)行最多的模塊,執(zhí)行效率也就成為了重中之重。 機(jī)器學(xué)習(xí)核心系統(tǒng)對(duì)計(jì)算資源的需求對(duì)比除此之外,由于對(duì)計(jì)算問題、計(jì)算模式和計(jì)算資源的需求都有所不同,因此在所有問題上,沒有最好的架構(gòu),只有最適合實(shí)際問題的架構(gòu)。針對(duì)機(jī)器學(xué)習(xí)任務(wù)的特性進(jìn)行框架設(shè)計(jì)才能更有效地解決大規(guī)模機(jī)器學(xué)習(xí)模型訓(xùn)練的計(jì)算問題。第四范式的機(jī)器學(xué)習(xí)系統(tǒng)兼顧了開發(fā)效率和執(zhí)行效率,具備高效、智能、易開發(fā)、易部署、易運(yùn)維、易擴(kuò)展、覆蓋場(chǎng)景廣泛等優(yōu)勢(shì),且隨著計(jì)算能力的提升,該架構(gòu)使模型的復(fù)雜度與投入的計(jì)算資源呈線性增長,與以往的架構(gòu)相比,節(jié)省了大量的計(jì)算資源。在通過技術(shù)層面提高模型維度的同時(shí),第四范式也在積極降低機(jī)器學(xué)習(xí)的使用門檻,讓更多的技術(shù)、業(yè)務(wù)等非專業(yè)建模人員能夠使用機(jī)器學(xué)習(xí),建立適合各個(gè)業(yè)務(wù)的高維模型。陳雨強(qiáng)介紹說,2017年初,第四范式內(nèi)部舉行了全球首個(gè)面向非專業(yè)人士的機(jī)器學(xué)習(xí)建模比賽——“一顆賽艇建模大賽”。所有參賽選手均由第四范式內(nèi)部行政、人事、市場(chǎng)、商務(wù)等非機(jī)器學(xué)習(xí)專業(yè)的員工構(gòu)成。比賽結(jié)果按照參賽選手所建模型的AUC(筆者注:AUC是衡量模型準(zhǔn)確度的專業(yè)指標(biāo),取值在0到1之間)指標(biāo)衡量。以往,專業(yè)數(shù)據(jù)科學(xué)家的建模AUC在0.8以上。通過兩周的簡單培訓(xùn),有70%的“業(yè)余”參賽選手的模型AUC達(dá)到了0.8以上的優(yōu)異成績。值得一提的是,在內(nèi)部建模比賽之后,第四范式創(chuàng)立了“范式大學(xué)”人才培養(yǎng)計(jì)劃,通過培養(yǎng)非專業(yè)人士利用“先知”建模,“批量生產(chǎn)”數(shù)據(jù)科學(xué)家,進(jìn)一步解決AI人才高門檻的問題。關(guān)于陳雨強(qiáng)陳雨強(qiáng),第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家,世界級(jí)深度學(xué)習(xí)、遷移學(xué)習(xí)專家。在百度鳳巢期間主持了世界首個(gè)商用深度學(xué)習(xí)系統(tǒng),大幅度提升廣告點(diǎn)擊率的同時(shí),提升用戶滿意度和企業(yè)收入,加入今日頭條后主持了中國用戶量最多的新媒體人工智能推薦系統(tǒng),完成全新的信息流推薦與廣告系統(tǒng)的設(shè)計(jì)。作為第四范式首席研究科學(xué)家,帶領(lǐng)團(tuán)隊(duì)打造專為機(jī)器學(xué)習(xí)而生的計(jì)算框架,實(shí)現(xiàn)人工智能產(chǎn)品化的關(guān)鍵技術(shù)突破,推出的人工智能產(chǎn)品“第四范式·先知”2016年榮獲中國智能科技最高獎(jiǎng)-吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)。陳雨強(qiáng)曾在NIPS,AAAI,ACL,SIGKDD等頂會(huì)上發(fā)表論文,獲APWeb2010BestPaperAward,KDDCup2011名列前三,其學(xué)術(shù)工作在2010年作被全球著名科技雜志MITTechnologyReview報(bào)道。他和第四范式創(chuàng)始團(tuán)隊(duì)開創(chuàng)的“遷移學(xué)習(xí)”被業(yè)界認(rèn)為是“下一代人工智能技術(shù)”。