狠狠操夜夜甜|人妻在线中文字幕亚洲无码不卡av|一区二区欧美亚洲|日躁夜躁狠狠躁2001|亚洲,超碰,欧美|18AV成人电影|午夜成人免费在线|婷婷激情网深爱五月|色欲综合成人在线|在线美女搞黄大片

中企動力 > 頭條 > 分布式算法

網站性能檢測評分

注:本網站頁面html檢測工具掃描網站中存在的基本問題,僅供參考。

分布式算法

從哲學角度談人工智能為何無法超越人類 人工智能視頻課程

img

何南蓮

關注
AlphaGo在代表最高水平的智力游戲圍棋與人類頂尖選手對決,但凡虛心一點的科學家都明白,這不過是個100萬美金的超值廣告。

而從媒體到普通民眾,都擔心某一天AI具備自我意識后,在高速進化中全面超越人類。

這根本是孤陋寡聞的恐慌。

哲學上有一個懸而未決的問題,意識和智能產生自大腦,但是意識和智能能夠理解大腦本身嗎?

索羅斯在他著名的通俗著作《金融煉金術》開篇提到了一個問題,所有能被人類主觀意識影響的東西,都不具備“客觀性”(這句話請讀三遍想三遍),因為“反身性”原理,所有有人類參與和影響的活動,從金融投機所屬的經濟學到預測社會發(fā)展的歷史和人文類科學,都不具備真正的規(guī)律。某種程度上它們本質上都是偽科學。

這句論斷讓筆者印象尤其深刻。從量子力學主宰的微觀世界被驗證了無數(shù)次的“不確定性原理”,到索羅斯的“反身性”原理,背后揭示了一個深刻的規(guī)則:人不能跳出“人的視角”去驗證人。

“不畏浮云遮望眼,只緣身在此山中”

人工智能大家都在追風談deeplearning,也就是程序員設計算法,訓練計算機群從海量數(shù)據(jù)中習得 “特征”,也是這次AlphaGo不同以往圍棋軟件的地方,它能夠與頂尖高手的大量切磋練習中“自動學習”提高技術。但是AlphaGo習得的那點“人工智能”與人類所真正代表的強人工智能相比,還有兩個巨大的門檻。

第一個問題,歸根結底,人是不是一部自動反應的機器?

《生活大爆炸》里有一個男主角叫SheldonCooper,他很萌,但卻是對情境感知能力較差,并伴隨著嚴重強迫癥。

社交困難、溝通困難、固執(zhí)或狹窄興趣。類似SheldonCooper的人,在幼年時,會經常遇到這樣的尷尬:

–孩子沒有交作業(yè),老師很生氣,便諷刺地說道:

–老師:“狗把你的作業(yè)吃掉了嗎?”

–孩子:“老師的狗會吃掉紙?”

孩童是因為不能理解老師的提問而保持沉默,并會認為老師有養(yǎng)狗、而且狗會吃紙。但老師想要表達的其實是“你忘記交作業(yè)了”,而孩童本身沒有辦法了解這類的隱喻。

世界上真實存在著這樣一群人?,F(xiàn)代精神病學指出,這是一種溫和的自閉癥叫阿斯伯格綜合癥(Aspergersyndrome),不同于一般自閉癥, Aspergersyndrome保有社交的意愿卻缺乏相關的能力,他們看起來像“機器人”,但大多心智正常。

Aspergersyndrome 從某種程度上反映了人類心智并不神圣,是有跡可循的。而認知心理學的發(fā)展,卻越來越向人們揭示一個可能的結論,無論是自閉癥患者、阿斯伯格綜合癥患者、還是普通人,實際上都是基本自動的機器。

神經科學家安東尼奧·R。達馬西奧所著述《SelfComestoMind》(自我在大腦當中是怎么生成的)中認為,通常人們混淆了 emotion(直覺情緒)和feeling(感受)?!拔矣X得怎么樣,我覺得受委屈了,我覺得被尊重了”,這種“我的feeling”是杜撰的、虛假的。

一個比較典型的例子,這也是原來心理學經常引用的故事,在加拿大做的實驗。在一個石橋上和一個鐵橋上招募一幫人去談戀愛,隨機抽取一對一對去談。石橋因為很堅固,有風也不會晃。鐵橋是鐵索橋,是吊橋,有風就會晃。因為一晃就會緊張,緊張恐懼是一個 emotion,恐懼來的時候又帶來什么呢,內部是腎上腺素分泌;外部的表現(xiàn),比如瞳孔放大,面部會發(fā)紅,鼻孔會擴張,有各種各樣的表現(xiàn)。

但是很有意思是,緊張的外在表現(xiàn)和愛情出現(xiàn)的外在表現(xiàn)是一致的。理論上講,環(huán)境不應該對你是不是對對方有好感能夠產生影響,不管你是在石橋上跟人談戀愛,還是在晃動的鐵橋跟人談戀愛,理論上講,你愛上對方的幾率是差不多的。但一個很有意思的現(xiàn)象是,在晃動的鐵橋上愛上對方的幾率大大超過在一個穩(wěn)定的石橋上,因為剛才講的 feeling部分,就是這個自我部分,它不知道emotion 出了什么事兒,它只是去讀取。它讀取的數(shù)據(jù)是,原來所有的征兆,所有的征兆符合談戀愛的特征,我就一定愛上對方了,我既然愛上對方了,我就一定要真的去愛她,因為如果我覺得我是,而又沒有真的去愛的時候,又會出現(xiàn)另一個,叫做認知失調。這樣的話,他就以為自己是這樣的,就那樣去做了。這是真實研究的成果。

之前人們認為emotion就是 feeling,達馬西奧研究發(fā)現(xiàn)不是,emotion不能改變,見到什么樣的情況你就會產生怎樣的反應,是下意識的,是不能控制的。而feeling是“我” 在作怪,受這個所謂的“我”來控制的,它首先讀取emotion的數(shù)據(jù),經過處理之后告訴“我”,我感受到了什么。

“處理”的過程十分關鍵,它能否被模擬,與實現(xiàn)真正的人工智能息息相關,這是人工智能已有部分答案(比如deeplearning )的第一個重大問題。而所謂的“我”,自我意識甚至自由意志都是幻覺,是假的,不存在。我們實際上是個基本自動的機器,99.9% 自動處理的機器,只不過這個機器有一個特別特殊的軟件,就監(jiān)控這個機器本身的“我”。

身體是遍布傳感器(耳鼻口舌目身體,聽覺嗅覺味覺觸覺視覺)的硬件,又運行著一個產生“自我”的軟件,從某種程度上來說,我們確實只是機器人。

但“自我意識”是如何產生的,目前還沒有徹底搞清楚,也是人工智能最重要的、且尚無頭緒的問題。

第二個問題,100%的正確誕生不了真正的智能

所見與真實有很大的狹隘和偏差。

普通人的視力系統(tǒng)就是一種用于獲取和分析可見光的信息接收系統(tǒng),倘若缺少一類,或是性能不足,就會發(fā)生:盲人無法感知光線、色盲缺乏分辨色彩的能力、健全人的眼睛看不見紫外線、紅外線,分辨不出偏振光……但真正的,健全人看待世界的方式其實與盲人摸象別無二致。

一個已知的事實是地球面向太陽的區(qū)域每平方厘米每秒會穿過大約650億個來自太陽的中微子,然而由于缺乏感知能力,不僅人類自身無法察覺。比如我們所謂的 “錯覺”,錯覺是在已獲取信息的基礎上,進行額外加工所獲得的認知,有一個非常著名的例子就是卡尼薩三角形錯覺;錯誤則是計劃之外發(fā)生的隨機突變。一些特殊的神經性疾病將使得我們感知到與常人完全不同的世界,例如擁有斷續(xù)影像視覺(Cinematographic vision,一種罕見的精神異?,F(xiàn)象)體驗的人,大概會認同芝諾關于飛矢不動的論斷所言非虛。

我們所謂的存在皆由我們的觀察而得,而我們的觀察方式存在先天性的漏洞。但奇妙的是,從感知、觀察、形成概念、到邏輯推理均存在缺陷的人類,實現(xiàn)了真正的智能。

圖靈開創(chuàng)了現(xiàn)代意義上的計算機科學,幾乎同時代,美妙而強大的人工智能其實早在50、60 年代就開始研究了,但一直沒有大的進展。之前的研究重點是精確的數(shù)理統(tǒng)計與創(chuàng)新算法,直到人們把眼光從線性系統(tǒng)放到非線性系統(tǒng),從邏輯編排到混沌系統(tǒng),從機器到人。才取得了一些有限的進展。比如模仿大腦神經元多層鏈路循環(huán)遞進處理信息的方式,誕生了時下火熱的深度學習。

計算機的發(fā)展,核心是邏輯門的堆疊帶來的超高效率和超高準確性。100% 正確卻誕生不了智能。非線性系統(tǒng)、混沌理論指導下,即使目前流行的分布式計算、并行計算,還沒有真正有 “容錯”的能力。模擬錯誤的信息輸入,輸出錯誤的模型,能在下一次模型實踐中發(fā)現(xiàn)模型本身的錯誤或局限,在沒有程序員沒有旁人主動干擾指出中習得 “錯誤”,并從中學習進化。這需要部分拋棄冰冷的邏輯和理性,一場真正的哲學革命。

生命體是各種不同細胞的堆疊,涌現(xiàn)了意識、智能、情感、道德、乃至今天人類的一切,以至于反作用于現(xiàn)實世界本身。計算機實現(xiàn)強人工智能的一天,必然也具備意識、情感、道德等表面上與 “智能”無關的東西,那時候恐怕就不是一種機器和工具,變成活生生的生命體,而我們成為了造物主,成為了上帝。

宇宙的圖像和大腦神經元的圖像何其相似,真正人工智能的問世,筆者深信,那就是另一種創(chuàng)世。

作者:青山

破解世界性技術難題! GTS讓分布式事務簡單高效 推廣視頻課程

img

Judith

關注
近日,2017云棲大會·深圳峰會如期舉行,多項阿里云新產品對外發(fā)布。在企業(yè)級互聯(lián)網架構分會場,來自阿里中間件(Aliware)的技術專家及合作伙伴,為現(xiàn)場參會嘉賓帶來最新的傳統(tǒng)IT架構到企業(yè)級互聯(lián)網架構跨越式升級、實現(xiàn)互聯(lián)網轉型的產品及解決方案。其中高級技術專家姜宇在分享中帶來的Aliware新產品—全局事務服務(GlobalTransactionService,簡稱GTS),在分布式事務處理上帶來的高性能和技術創(chuàng)新令到場參會的各路技術專家眼前一亮。

Aliware新成員—全局事務服務GTS技術分享現(xiàn)場

分布式事務背景

OLTP領域中很多業(yè)務場景都會面臨事務一致性的需求,傳統(tǒng)業(yè)務系統(tǒng)常以單體應用形式存在,只需借助特有數(shù)據(jù)訪問技術和框架,結合關系型數(shù)據(jù)庫自帶的事務管理機制來實現(xiàn)事務一致性的要求。而目前大型互聯(lián)網應用和平臺往往是由一系列分布式系統(tǒng)構建而成,平臺和技術架構也是流派紛呈。

尤其是微服務架構盛行的今天,一個看似簡單的功能,內部可能需要調用多個“服務”并操作多個數(shù)據(jù)庫或分片來實現(xiàn),單一技術手段和解決方案已無法滿足這些復雜應用場景。因此,分布式系統(tǒng)架構中分布式事務是一個繞不過去的挑戰(zhàn)。什么是分布式事務?簡單的說,就是一次大操作由不同小操作組成,這些小操作分布在不同服務器上,分布式事務需要保證這些小操作要么全部成功,要么全部失敗。

本質上來說,分布式事務就是為了保證不同數(shù)據(jù)庫或消息系統(tǒng)的數(shù)據(jù)一致性。

分布式事務三大難題:一致性、高性能和易用性

分布式系統(tǒng)的事務一致性本身是一個技術難題,沒有一種簡單完美的方案能夠應對所有場景,很難兼顧事務一致性,高性能與易用性。三者缺一,則適用場景大大受限,實用價值不高。

首先是一致性:要求在各種異常情況下保證數(shù)據(jù)是強一致的。目前最常見的一致性解決方案是最終一致性方案,通常是結合消息中間件實現(xiàn),在互聯(lián)網企業(yè)中廣泛使用。最終一致性實現(xiàn)方案比較復雜,開發(fā)、運維成本高,并且與強一致相比,業(yè)務上是受很多限制的。

其次是高性能:目前基于XA協(xié)議的兩階段提交是最常見的分布式事務解決方案,但XA類產品的典型不足是性能低下,這對于互聯(lián)網大并發(fā)需求下的多數(shù)企業(yè)是無法接受的。國外具有幾十年歷史和技術沉淀的基于XA模型的商用分布式事務產品,在相同軟硬件條件下,開啟分布式事務后吞吐經常有數(shù)量級的下降。

第三是易用性:為了滿足一致性和高性能要求,出現(xiàn)了一些特定場景下的分布式事務方案,但通常會限制用戶用法,對業(yè)務侵入性強,無法做到簡單易用,帶來更多開發(fā)成本。

世界級應用場景,催生世界級分布式事務解決方案

早期的阿里巴巴集團隨著業(yè)務高速發(fā)展,內部不斷涌現(xiàn)各種典型的分布式事務需求,比如阿里內部廣泛使用的TDDL分庫分表所帶來的分庫間數(shù)據(jù)不一致問題,HSF服務化后所帶來的服務鏈路上數(shù)據(jù)不一致問題等。在這個過程中,各業(yè)務技術團隊利用現(xiàn)有中間件技術手段實現(xiàn)分布式事務處理,但這些手段都較為復雜,工作量大,對應用侵入嚴重,有些適用場景還有限制。

2014年5月開始,阿里中間件(Aliware)內部命名為TXC的分布式事務中間件開始研發(fā),同年10月1.0版本發(fā)布,分布式事務功能已經具備,但性能還有局限,只適合于吞吐量較小的場景;2015年12月,TXC2.0版本發(fā)布,相比1.0版本性能提升10倍以上,在阿里內部多條業(yè)務線得到部署。

通過部署TXC,應用只需極少的代碼改造和配置,即可享受分布式事務帶來的便利。TXC作為阿里內部為解決分布式數(shù)據(jù)強一致性問題而研發(fā)的分布式事務中間件,徹底解決了分布式事務數(shù)據(jù)一致性的問題,簡單易用,先后在淘寶,菜鳥,淘票票和村淘等多個業(yè)務的核心系統(tǒng)上得到部署和驗證。

順應云時代潮流,GTS應運而生

從2016年年中開始,在阿里內部一直接受錘煉的分布式事務中間件TXC在2.0版本后,隨著阿里中間件上云熱潮,開始通過專有云輸出,并得到了市場極大認可,適用場景得到進一步拓展,全面涵蓋電商、物流、金融、零售、政企、游戲、文娛等領域。2017年2月,TXC2.0通過阿里云對外公測,外部改名為全局事務服務(GlobalTransactionService,簡稱GTS)。

GTS總體架構圖

在整體架構方面,GTS由三個組件組成:客戶端(GTS-Client),資源管理器(RM),事務協(xié)調器(GTS-Server)??蛻舳伺c事務協(xié)調器間,資源管理器與事務協(xié)調器間都是通過GTS分布式事務協(xié)議進行通信??蛻舳素撠熃缍ㄊ聞者吔纾_啟/提交/回滾全局事務,資源管理器負責管理資源,支持的資源包括:DRDS,Oracle,MySQL,RDS,PostgreSQL,H2,MQ,后續(xù)計劃根據(jù)實際業(yè)務需求支持更多類型資源。事務協(xié)調器,也就是GTS服務器,是分布式事務處理的大腦,負責協(xié)調整個事務過程。GTS事務通過RPC框架和消息中間件進行事務傳遞,把整個業(yè)務調用鏈路或者消息鏈路串成一個分布式事務,極大簡化應用開發(fā)。

在高可用方面,GTS支持同城容災與兩地三中心容災,可保證各種異常情況下的數(shù)據(jù)一致。在易用性方面,GTS對業(yè)務無侵入,真正做到業(yè)務與事務分離,開發(fā)者可以集中精力于業(yè)務本身。在技術創(chuàng)新方面,GTS也走在了行業(yè)前沿。項目負責人阿里高級技術專家姜宇(花名于皋)擁有13項分布式事務的核心技術專利,研發(fā)團隊的技術專家張松樹也有3篇專利。通過大量的專利技術,精妙的算法,與精巧的分布式事務私有協(xié)議,GTS取得了超強的性能。

另外,在部分嚴苛的行業(yè)應用場景,比如金融用戶的資管項目分布式事務場景下,GTS也經歷了嚴格的測試,按照用戶要求順利完成功能性、穩(wěn)定性和性能測試。下圖是一個典型性能測試場景數(shù)據(jù),從實測數(shù)據(jù)可以看出,開啟GTS(TXC)分布式事務后性能下降不明顯。目前GTS已經在資金業(yè)務上有實際應用,線上大量真實數(shù)據(jù)驗證了GTS的高效可靠。

GTS典型性能測試場景數(shù)據(jù)

性能優(yōu)異,業(yè)務場景廣泛

作為新一代企業(yè)級分布式事務服務產品,全局事務服務GTS兼顧了事務一致性,高性能與易用性。在滿足事務ACID的前提下,普通配置的單服務器就可以達到15000TPS以上的超強性能(兩個小時內完成1億多筆業(yè)務),3臺8核16G內存虛機組成的服務器集群可以支撐1萬TPS以上的分布式事務,與同類產品相比,性能優(yōu)勢明顯。另外簡單易用對業(yè)務無侵入,為廣大企業(yè)大幅降低開發(fā)成本,業(yè)務場景非常廣泛:

1、跨多分庫的分布式數(shù)據(jù)庫事務場景:關系型數(shù)據(jù)庫普遍支持事務,能夠滿足事務內的SQL要么全部成功、要么全部失敗。但客戶從單機數(shù)據(jù)庫往分布式數(shù)據(jù)庫遷移的情況下,原有的一個事務往往會被拆分為多個分庫上的事務。由于網絡的不可靠性,容易出現(xiàn)部分分庫上成功,部分分庫上失敗的情況。GTS結合DRDS可徹底解決了這一問題。

2、跨多數(shù)據(jù)庫的事務場景:復雜的業(yè)務系統(tǒng)經常會使用多個數(shù)據(jù)庫,甚至多種類型的數(shù)據(jù)庫,比如企業(yè)中Oracle,MySQL和其他關系型數(shù)據(jù)庫并存的情況時有發(fā)生。業(yè)務同時操作多個數(shù)據(jù)庫的情況下,一旦發(fā)生先提交的事務成功、后提交的事務失敗,就很難解決。GTS支持各種常見關系型數(shù)據(jù)庫,并提供多數(shù)據(jù)庫間的事務保證。

3、跨數(shù)據(jù)庫系統(tǒng)、消息系統(tǒng)的事務場景:消息系統(tǒng)被廣泛地用于系統(tǒng)間解耦,一般先執(zhí)行一段業(yè)務邏輯,執(zhí)行成功會向消息系統(tǒng)發(fā)送一條消息,用于通知或觸發(fā)下游業(yè)務。這個場景下,如果業(yè)務邏輯執(zhí)行成功、消息發(fā)送失敗,則業(yè)務不完整;如果先發(fā)送消息,但執(zhí)行業(yè)務邏輯失敗,同樣存在問題。GTS提供了針對消息系統(tǒng)以及常見關系型數(shù)據(jù)庫的操作入口,保證數(shù)據(jù)庫操作和發(fā)送消息要么同時成功、要么同時失敗。

4、跨服務的事務場景:隨著業(yè)務復雜度提升,大多企業(yè)會對業(yè)務進行服務化改造。可能存在服務一操作MySQL和DRDS,服務二操作Oracle,要求兩個服務操作要么同時成功、要么同時失敗,否則會造成業(yè)務數(shù)據(jù)的不一致。GTS可以很方便地進行跨多個服務的分布式事務。

依托阿里中間件(Aliware),打造世界一流企業(yè)級互聯(lián)網架構平臺

據(jù)GTS項目負責人姜宇介紹,“GTS作為一款高性能、高可靠、接入簡單的分布式事務中間件產品,可與DRDS、RDS、Oracle、MySQL、PostgreSQL、H2等數(shù)據(jù)源,EDAS、Dubbo及多種私有RPC框架,MQ消息隊列等中間件產品配合使用,可輕松實現(xiàn)分布式數(shù)據(jù)庫事務、多庫事務、消息事務、服務鏈路級事務及各種組合。策略豐富,易用性和性能兼顧,將真正完善阿里云中間件產品線?!?/p>GTS(TXC)的研發(fā)依托于阿里中間件(Aliware)團隊,中間件技術部是阿里巴巴集團生態(tài)系統(tǒng)的技術基石,為集團各大業(yè)務群提供可靠、高效、易擴展的技術基礎服務;并在此基礎上打造世界一流的中間件產品、高可用架構基礎設施和企業(yè)級互聯(lián)網架構平臺,為全球企業(yè)和客戶提供服務。

更多AliwareGTS產品服務和技術細節(jié),請訪問官網

相關新聞

2016-04-19

2016-06-13

2016-10-24

2016-11-04

2017-12-29

第四范式陳雨強:提高機器學習維度的兩大法寶 流量視頻課程

img

糜小夏

關注
2017年5月27日,由人工智能頂尖媒體“機器之心”主辦的2017全球機器智能峰會(GMIS2017)在京正式召開。大會邀請了來自中、美、歐等眾多頂級專家參會,以專業(yè)化及全球化的視角為該領域的從業(yè)者及愛好者奉上了一場人工智能盛宴。第四范式聯(lián)合創(chuàng)始人、首席研究科學家陳雨強受邀出席,并發(fā)表了主題演講、分享了機器學習在工業(yè)界應用發(fā)展的新思考。

    第四范式聯(lián)合創(chuàng)始人、首席研究科學家陳雨強于全球機器智能峰會(GMIS2017)發(fā)表演講

陳雨強認為,過去五年,人工智能在工業(yè)界的火熱程度正以指數(shù)的方式增長,而“VC維”便是衡量人工智能應用水平的關鍵。VC維理論是由Vapnik和Chervonenkis于1960年代至1990年代建立的統(tǒng)計學習理論,它反映了函數(shù)集的學習能力——VC維越大則模型或函數(shù)越復雜,學習能力就越強。舉個例子,如果人類的智商水平可以用大腦的腦細胞數(shù)來衡量,那么機器的智商水平就可以用VC維來衡量,即超高智商的人工智能,需要超高維度的機器學習模型來實現(xiàn)。

陳雨強表示,第四范式在提高模型維度方面可謂下足了功夫,高維度模型在實際應用中的效果亦十分出眾。以第四范式與某銀行信用卡中心的合作案例為例,該銀行需要通過數(shù)據(jù)精準識別出所有客戶當中的信用卡賬單分期客戶。在短短兩個月內,經過第四范式和卡中心的共同努力,該信用卡賬單分期模型從此前的兩百多維,提升至“五千萬維”,使賬單分期推薦短信的響應率提升了68%,卡中心的賬單分期手續(xù)費提升61%。取得如此顯著的效果,陳雨強為與會者解密了第四范式的機器學習產品前瞻的研發(fā)思路。

第四范式聯(lián)合創(chuàng)始人、首席研究科學家陳雨強于全球機器智能峰會(GMIS2017)發(fā)表演講

打造深度稀疏網絡(DSN),兼顧“寬”與“深”的算法

眾所周知,機器學習包含數(shù)據(jù)、特征、模型三個方面。特征分為宏觀(描述的統(tǒng)計類特征)、微觀(如個性化ID特征)兩類,模型也分為簡單、復雜兩類。在數(shù)據(jù)足夠充足的情況下,沿著模型優(yōu)化和特征優(yōu)化的兩條路徑切入,可以有效地提高機器學習的模型維度。

沿著模型優(yōu)化——即走“深”的路徑是由學術界主導,優(yōu)化模型的科學家們?yōu)榱朔奖銓嶒?,降低了工程實現(xiàn)能力的要求,大部分模型可單機加載。工業(yè)界在按照該思路優(yōu)化時,往往采用觀察數(shù)據(jù)、找到規(guī)律、根據(jù)規(guī)律做模型假設、對模型假設中的參數(shù)用數(shù)據(jù)擬合、將擬合的結果上線測試等步驟。這條路徑需要解決數(shù)據(jù)分布式以及通訊overhead等問題。

沿著特征優(yōu)化——即走“寬”的路徑是由工業(yè)界主導,無論是模型還是算法,均采取分布式的策略,在保證高效分布式的同時兼顧快速收斂。針對具體問題,采用較為成熟的線性模型,將觀察到的所有微觀特征進行建模。該優(yōu)化路徑的模型簡單粗暴,且對工程挑戰(zhàn)極大。

兩種路徑在工業(yè)界都有非常成功的應用案例,但雙方的劣勢同樣明顯。崇尚“寬”路徑的陣營認為深度模型在某些問題上從來沒有發(fā)揮出數(shù)據(jù)的全部價值,離真正的個性化尚有差距;而寬度模型則在推理能力上略遜一籌。

    Wide&DeepModel與DSN對比

近年來,寬與深的結合已經逐漸成為一個研究熱點。2016年6月,Google研究院發(fā)表論文稱,正在研發(fā)Wide&DeepModel,并表示其在搜索、廣告與推薦等領域均十分有效。同年7月,第四范式發(fā)布了新一代的模型算法——深度稀疏網絡DSN(DeepSparseNetwork)。Wide&DeepModel利用深度窄網絡刻畫宏觀特征之間的關系,利用寬度淺層網絡記憶微觀特征,但無法刻畫微觀特征之間的復雜關系,由于Wide&DeepModel將“寬”和“深”分離,導致微觀和宏觀特征之間的關系也無法刻畫。與Wide&DeepModel不同,第四范式的DSN將“寬”和“深”做了更全面的融合,算法底層是上千億大小的寬度網絡,上層是一個全連接的網絡,這樣既可以記住更多信息,又能刻畫所有特征(包括宏觀特征和微觀特征)之間更復雜的關系。在參數(shù)規(guī)模上,Wide&DeepModel支持的參數(shù)規(guī)模為十億級,DSN支持的參數(shù)規(guī)模已達到十萬億級,模型“VC維”更高,這意味著隨著數(shù)據(jù)量的增大,模型效果有更大的提升空間。

重塑大規(guī)模分布式機器學習系統(tǒng)架構,兼顧開發(fā)和執(zhí)行的效率

在工業(yè)界應用中,由于模型維度的增加,對機器學習的系統(tǒng)架構提出了更高的要求。

第一,由于功率墻(PowerWall,即芯片密度不能無限增長)和延遲墻(LatencyWall,即受光速限制,芯片規(guī)模和時鐘頻率不能無限增長)的限制,摩爾定律正在慢慢失效。目前,提升計算能力的方式主要是依靠并行計算,從早期的以降低執(zhí)行延遲為主到現(xiàn)在的以提升吞吐量為主。在模型訓練的高性能計算要求下,單機在I/O、存儲、計算等方面顯得力不從心。因此,第四范式針對此問題設計了分布式并行化的機器學習模型訓練系統(tǒng)。

PowerWall,功耗隨著集成電路密度指數(shù)提升

第二,在機器學習的領域中,一個著名的定理叫NoFreeLunch(Wolpert和Macready于1997年提出),是指任意算法(包括隨機算法)在所有問題上的期望性能一樣,不存在通用的算法,因此需要針對不同的實際問題,研發(fā)出不同的機器學習算法。這對于機器學習計算框架的開發(fā)效率要求極高。

    典型的機器學習建模過程

第三,在面對實際問題時,需要對數(shù)據(jù)、特征表達、模型、模型參數(shù)等進行多種嘗試,且每一次嘗試,都需要單獨做模型訓練。所以,模型訓練是整個機器學習建模過程中被重復執(zhí)行最多的模塊,執(zhí)行效率也就成為了重中之重。

    機器學習核心系統(tǒng)對計算資源的需求對比

除此之外,由于對計算問題、計算模式和計算資源的需求都有所不同,因此在所有問題上,沒有最好的架構,只有最適合實際問題的架構。針對機器學習任務的特性進行框架設計才能更有效地解決大規(guī)模機器學習模型訓練的計算問題。第四范式的機器學習系統(tǒng)兼顧了開發(fā)效率和執(zhí)行效率,具備高效、智能、易開發(fā)、易部署、易運維、易擴展、覆蓋場景廣泛等優(yōu)勢,且隨著計算能力的提升,該架構使模型的復雜度與投入的計算資源呈線性增長,與以往的架構相比,節(jié)省了大量的計算資源。

在通過技術層面提高模型維度的同時,第四范式也在積極降低機器學習的使用門檻,讓更多的技術、業(yè)務等非專業(yè)建模人員能夠使用機器學習,建立適合各個業(yè)務的高維模型。陳雨強介紹說,2017年初,第四范式內部舉行了全球首個面向非專業(yè)人士的機器學習建模比賽——“一顆賽艇建模大賽”。所有參賽選手均由第四范式內部行政、人事、市場、商務等非機器學習專業(yè)的員工構成。比賽結果按照參賽選手所建模型的AUC(筆者注:AUC是衡量模型準確度的專業(yè)指標,取值在0到1之間)指標衡量。以往,專業(yè)數(shù)據(jù)科學家的建模AUC在0.8以上。通過兩周的簡單培訓,有70%的“業(yè)余”參賽選手的模型AUC達到了0.8以上的優(yōu)異成績。值得一提的是,在內部建模比賽之后,第四范式創(chuàng)立了“范式大學”人才培養(yǎng)計劃,通過培養(yǎng)非專業(yè)人士利用“先知”建模,“批量生產”數(shù)據(jù)科學家,進一步解決AI人才高門檻的問題。

關于陳雨強

陳雨強,第四范式聯(lián)合創(chuàng)始人、首席研究科學家,世界級深度學習、遷移學習專家。在百度鳳巢期間主持了世界首個商用深度學習系統(tǒng),大幅度提升廣告點擊率的同時,提升用戶滿意度和企業(yè)收入,加入今日頭條后主持了中國用戶量最多的新媒體人工智能推薦系統(tǒng),完成全新的信息流推薦與廣告系統(tǒng)的設計。作為第四范式首席研究科學家,帶領團隊打造專為機器學習而生的計算框架,實現(xiàn)人工智能產品化的關鍵技術突破,推出的人工智能產品“第四范式·先知”2016年榮獲中國智能科技最高獎-吳文俊人工智能科學技術獎一等獎。陳雨強曾在NIPS,AAAI,ACL,SIGKDD等頂會上發(fā)表論文,獲APWeb2010BestPaperAward,KDDCup2011名列前三,其學術工作在2010年作被全球著名科技雜志MITTechnologyReview報道。他和第四范式創(chuàng)始團隊開創(chuàng)的“遷移學習”被業(yè)界認為是“下一代人工智能技術”。

img

在線咨詢

建站在線咨詢

img

微信咨詢

掃一掃添加
動力姐姐微信

img
img

TOP