網站性能檢測評分
注:本網站頁面html檢測工具掃描網站中存在的基本問題,僅供參考。
調用者
Alluxio發(fā)布新版本V1.8,加速數據分析和機器學習的云端部署 營銷視頻課程
云端逐漸成為大數據企業(yè)的必爭之地。根據美國媒體報道,7月31日消息,分布式虛擬存儲系統(tǒng)Alluxio發(fā)布1.8版本,加速針對數據分析及機器學習的云端部署。Alluxio是世界上首個能以內存級速度集成數據的軟件系統(tǒng),其技術脫胎于其創(chuàng)始人李浩源博士在加州伯克利AMPLab的博士課題開源研究項目Tachyon——它能夠在大數據應用層及存儲層之間搭建一個虛擬數據層,讓企業(yè)能夠利用這個系統(tǒng)來使用和管理不同的數據應用及存儲方案。此前,全球知名的現(xiàn)象級開源軟件Spark及Mesos同樣出自AMPLab,只是不同于針對存儲的Alluxio,前者專注于計算,后者則專注于資源管理和調度。由于擁有內存級的訪問速度,Alluxio系統(tǒng)比過去的方案快了十倍甚至數十倍。創(chuàng)建五年后,Alluxio是最活躍的數據生態(tài)系統(tǒng)開源項目之一,解決數據問題的能力備受信任。在中國市值排名前十的互聯(lián)網公司中,已經有八家在應用Alluxio的技術方案,管理PB級別的數據。除此之外,華為、聯(lián)想、中國電信、京東等公司也都在用它來管理數據,其他合作伙伴包括英特爾、三星、微軟、Nvidia、Oracle等等。Alluxio經歷了數次版本更替。通過此次更新,這個系統(tǒng)希望能進一步支持不同的云端存儲方案,加速數據儲存、調取和使用的速度,解決深度學習面臨的數據存儲問題;與此同時,給他們非常重視的開源社區(qū)提供更多的支持和幫助。針對云端部署,Alluxio的新版本提供了三個全新的功能:1. 感知定位的數據管理工具。企業(yè)可以為數據應用設置不同的策略,根據數據的位置標記來選定具體的數據調用區(qū)域或者優(yōu)化數據分布,從而降低調用不同存儲位置的數據時的成本、提高效率。2. 針對不同云端存儲方案的優(yōu)化。解決對象存儲或者云端存儲方案和傳統(tǒng)的HDFS(HadoopDistributedFileSystem)方案中的API及執(zhí)行效率的差別帶來的問題;也讓把數據從HDFS轉移到對象存儲時更加容易,真正做到在云端輕便地轉移數據。3. FUSE(FilesysteminUserspace)界面。FUSE能把云上的數據緩存在本地,通過普通的本地文件夾展現(xiàn),以無縫支持現(xiàn)有的機器學習和大數據分析框架來存取云端數據。云端趨勢下,混合云部署的強大需求此次Alluxio版本更新,可以說是順應了企業(yè)“往云上走”的趨勢。近幾年,不僅有層出不窮的云端數據存儲、計算和分析創(chuàng)業(yè)項目提供服務,大公司也在尋求更好的云端部署方案。2018年6月,微軟收購知名開源開發(fā)平臺GitHub后,并表示將進行GitHub與自己的云服務產品AzureCloud的整合。分析報告預測,未來云服務市場將從今年的281億美元增長到2021年的533億美元。“數據分析和機器學習的興起讓云端的計算量大量增長,Alluxio的特性意味著它同樣可以很好地管理混合云的數據?!崩詈圃磳︹伱襟w說道。451Research的報告顯示,預計在2019年,超過66%的企業(yè)會使用一個混合云或者多個云服務方案的架構,它們都可能面對不同云服務上迥異的操作差異,單憑自己很難保證效率,需要第三方服務方案的協(xié)助。更遠的未來里,中小型企業(yè)可能會徹底轉向公有云部署。Gartner預測,到2021年,全球超過50%的企業(yè)會應用純粹的公有云存儲方案,而更大的公司則會應用更多的第三方云端基礎架構來管理混合云。這和李浩源的判斷相符。他認為,對于很多現(xiàn)代企業(yè)來說真正的價值往往在數據里。尤其是對于某些大型企業(yè)來說,最核心的數據管理很難假手于人。2017年馬云接受Bloomberg專訪時曾說出金句,“數據的重要程度堪比上個世紀的石油。”EricAnderson(時任Google產品經理)談Alluxio“總有一些數據他們希望保存在本地服務器上,但全部放在本地成本又太高,所以選折中方案,在一個無縫的架構下管理私有和公有云是一個剛需?!崩詈圃凑f道。除此之外,Alluxio也希望能解決近幾年火熱的數據分析及深度學習面臨的數據存儲問題。對于數據分析來說,已經有了不少使用云上數據的方案,Alluxio只是能幫助提高性能、降低費用。對于深度學習,問題則稍顯復雜。“不是所有的訓練數據都能直接用于像Tensorflow這種深度學習框架,另外各類分布式存儲和云存儲的交互方式和傳統(tǒng)本地交互方式有很大區(qū)別,用戶難以準確地配置和使用新工具。”舉個例子,沒有Alluxio時,讓深度學習框架TensorFlow訪問微軟云服務AzureObjectstore上的數據就是一件難以完成的事情。Alluxio的特性意味著它能整合各類存儲系統(tǒng),縮短各類深度學習框架與存儲層之間的距離,提高效率及彈性、降低成本。另一方面,這次更新里的FUSE工具則讓Alluxio可以掛載本地文件系統(tǒng),讓用戶在使用遠程云端分布式存儲時,擁有和本地數據時相似的交互體驗。關注開源社區(qū)除了針對云端部署及深度學習的更新之外,Alluxio的新版本還有另一個重點:為開發(fā)者提供了更多便利,包括:1.提供針對應用運行的數據服務監(jiān)視工具,包括能夠獲取集群實時數據的web圖形界面以及命令行界面(CommandLineInterface)工具,讓開發(fā)者能夠更好地了解數據的使用情況、分析性能結果并獲得數據洞察。2.更完善的生態(tài)系統(tǒng)集成。把對數據服務的追蹤和洞察擴展到不同的應用層和存儲層,開發(fā)者可以通過新的工具直觀地看到存儲系統(tǒng)中的問題,比如延時的直方圖和存儲空間利用率。3.一個入門套件(StarterKit),其中包括預建的代碼及其他文件和一些簡單的案例展示,包括“如何在本地機器上安裝Alluxio”“如何安裝和設置AWSS3Bucket(存儲桶)及加速遠程讀取”,讓開發(fā)者能更快地上手并使用Alluxio。“開源社區(qū)是我們最珍視的事情之一,所以希望盡可能地幫助開發(fā)者理解和使用這個系統(tǒng)?!崩詈圃凑f道。他認為,自創(chuàng)立之初,這一社區(qū)帶來的活力是推動Alluxio迅速進展的重要推力之一。在2016年接受CSDN采訪時,Alluxio曾表示“Alluxio是史上成長速度最快的開源社區(qū)之一”,如今其貢獻者已經超過800人,在GitHub上星標超過3000個。正在比賽氣泡足球的部分Alluxio團隊成員這個項目里還有不少活躍的公司貢獻者,他們還能提供針對具體產品和應用場景的反饋。英特爾、騰訊、阿里巴巴、百度、京東、陌陌等公司同樣也是這個開源項目的貢獻者之一。比如陌陌的工程師團隊會基于陌陌的應用場景,做出適配和調整,而后經過Alluxio的社區(qū)管理者審核后接納,“最終形成一個正向的反饋,是一個雙向改進的過程”。百度、去哪兒和陌陌都曾經就應用Alluxio之后的經驗做出分享,比如百度此前分享過,在用他們自己開發(fā)的使用SparkSQL作為計算引擎的查詢系統(tǒng)時,單獨一次查詢需要100-150秒;加上作為內存中心的存儲層的Alluxio之后,數據可能會沖擊本地或遠程Alluxio節(jié)點,需要10-15秒;當所有數據儲存在Alluxio本地時,平均只需5秒,速度提升了30倍。測試過后,百度圍繞Alluxio和SparkSQL建立了一個完整的系統(tǒng)。2016年初,Alluxio曾獲得硅谷知名風險投資機構AndressenHorowitz的750萬美元融資。