網(wǎng)站性能檢測評分
注:本網(wǎng)站頁面html檢測工具掃描網(wǎng)站中存在的基本問題,僅供參考。
大數(shù)據(jù)數(shù)據(jù)挖掘
大數(shù)據(jù)挖掘方案 企業(yè)視頻課程
概述
spark是實時大數(shù)據(jù)分析、挖掘的流行方案,hadoop是大數(shù)據(jù)存儲和運行的流行方案,本demo主要表述用spark + hadoop如何做大數(shù)據(jù)挖掘的通用方案,包含了,包括了環(huán)境資源整合、spark和hadoop的整合,各部分模塊的關(guān)系,并給出了可用的java 代碼框架,和可運行的demo代碼。
詳細
代碼下載:http://demodashi/demo/10153.html
一、設(shè)計背景
為了滿足大數(shù)據(jù)實時挖掘的需要
二、設(shè)計要求:
1、數(shù)據(jù)存儲
A、大數(shù)據(jù)存儲標準
系統(tǒng)需要滿足以T基本的數(shù)據(jù)存儲量設(shè)計標準。
B、規(guī)??缮炜s
平臺的規(guī)??梢云胶馍炜s擴展
C、數(shù)據(jù)可以快速運算
數(shù)據(jù)必須是支持快速運算得出結(jié)果的
三、架構(gòu)方案
1、架構(gòu)圖
大數(shù)據(jù)挖掘、分析的的通用流程如下:
1、先是數(shù)據(jù)采集,這里我們叫做原始數(shù)據(jù)
2、采集完之后,數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗模塊,進行清洗
3、清洗完之后,會被數(shù)據(jù)挖掘模塊進行運算
4、數(shù)據(jù)挖掘模塊運行的結(jié)果,會生成相關(guān)的可用模型
5、這些模型對象往往被保存到模型服務(wù)器里面
6、然后業(yè)務(wù)服務(wù)器就從模型服務(wù)器里面獲取相關(guān)的模型進行運算。
2、數(shù)據(jù)清洗模塊
2.1 用途
原始數(shù)據(jù),都是寫雜亂的數(shù)據(jù),沒法進行數(shù)據(jù)分析,和數(shù)據(jù)挖掘,都需要經(jīng)過清洗才能變成可用的數(shù)據(jù),數(shù)據(jù)清洗,一般包含兩部分,第一部分,數(shù)據(jù)純提取,就是把一些沒用的信息屬性,去掉,只留些和我們要分析和挖掘?qū)傩韵嚓P(guān)的屬性,第二部分是建一般的屬性信息轉(zhuǎn)換為可供運算的數(shù)學模型信息,轉(zhuǎn)行為數(shù)學模型才能進行挖掘等運算。
2.2 結(jié)構(gòu)圖
2.3實現(xiàn)方式
數(shù)據(jù)采集,一般采用kafka才做數(shù)據(jù)采集,采集完的數(shù)據(jù)會保存到數(shù)據(jù)中心里面,這個數(shù)據(jù)中心,在我這這里也叫原始數(shù)據(jù)源,因為數(shù)量可能幾大,所以可以采用Hadoop dfs來存放。
有了原始數(shù)據(jù)后,數(shù)據(jù)清洗模塊被業(yè)務(wù)服務(wù)器觸發(fā)運行,它去原始數(shù)據(jù)源那邊獲取原始數(shù)據(jù),然后進行去雜過濾,和轉(zhuǎn)數(shù)字化處理,然后在把這些處理結(jié)果存放到數(shù)據(jù)服務(wù)器里面。
技術(shù)落地如下:
數(shù)據(jù)采集,使用kafka、Flume
原始數(shù)據(jù)源,使用hadoop dfs,或者hadoop hive等都可以
數(shù)據(jù)服務(wù)器,使用 hadoop dfs(parquet) 或者hadoop hive
數(shù)據(jù)清洗模塊,使用spark
2.4擴展
容量擴展:
采用hadoop 系統(tǒng)來做大數(shù)據(jù)存儲,方便橫向擴展
計算能力擴展:
使用spark來做計算能力的橫向擴展
3、數(shù)據(jù)挖掘模塊
3.1 用途
數(shù)據(jù)挖掘模塊,是對清洗后的數(shù)據(jù),運用數(shù)學算法,對其進行數(shù)據(jù)運行,并把運算后的結(jié)果模型保存起來,供業(yè)務(wù)程序的調(diào)用。
3.2 結(jié)構(gòu)圖
3.3實現(xiàn)方式
數(shù)據(jù)挖掘模塊是一個數(shù)據(jù)挖掘的程序集合,這些挖掘程序需要放到算法運行服務(wù)器里面運行。
技術(shù)落地如下:
數(shù)據(jù)服務(wù)器,使用 hadoop dfs(parquet) 或者hadoop hive
數(shù)據(jù)挖掘模塊,使用spark
3.4擴展
容量擴展:
采用hadoop 系統(tǒng)來做大數(shù)據(jù)存儲,方便橫向擴展
計算能力擴展:
使用spark來做計算能力的橫向擴展
4、算法運行服務(wù)器
采集層 主要可以使用Flume, Kafka兩種技術(shù)
4.1 用途:
在spark中要運算某些算,一般的做法是,把算法上傳到spark服務(wù)器中,然后通過腳本來觸發(fā)運行,這樣的方式在我們的項目應(yīng)用中,是可行的,但這樣的方式是封閉式的,不能讓第三方系統(tǒng)觸發(fā)運行,基本上都能夠通過手動觸發(fā)運行,或者給算法加上一個定時器外殼,定時去執(zhí)行XX算法,基于這的特性不方便和我們的業(yè)務(wù)系統(tǒng)集成。
所以提出了算法運行服務(wù)器的需求,這個主要解決了,算法可隨時被業(yè)務(wù)系統(tǒng)觸發(fā),也可以向業(yè)務(wù)系統(tǒng)返回執(zhí)行結(jié)果等。
4.2 結(jié)構(gòu)圖:
4.3實現(xiàn)方式
數(shù)據(jù)挖掘模塊是一個數(shù)據(jù)挖掘的程序集合,這些挖掘程序需要放到算法運行服務(wù)器里面運行。
技術(shù)落地如下:
4.4 運行說明:
算法運行服務(wù)器啟動時,會啟動一個socket監(jiān)聽器,業(yè)務(wù)服務(wù)器要調(diào)用某個算法時,會往這個監(jiān)聽器發(fā)送一個調(diào)用請求,然后監(jiān)聽器接收到調(diào)用請求后,調(diào)用具體的算法(可能是數(shù)據(jù)清洗的算法,也可以是數(shù)據(jù)挖掘等的算法)運算,然后算法運行完畢后,會將運行的結(jié)果,返回給業(yè)務(wù)調(diào)用端。
5、數(shù)據(jù)服務(wù)器
5.1 用途:
存放原始數(shù)據(jù),和清洗后的數(shù)據(jù)。
5.2 結(jié)構(gòu)圖:
5.3 技術(shù)方式:
6、模型服務(wù)器
6.1 用途:
用于存放挖掘運行后的模型,這個模型其實就是一個可用的java對象,這個java對象,會被業(yè)務(wù)端讀取,然后加載后,用于業(yè)務(wù)運行。
6.2 結(jié)構(gòu)圖:
6.2 實現(xiàn)方式:
四、架構(gòu)使用
1、環(huán)境搭建
1.1 Hadoop安裝、配置
A、下載、copy到Linux下、解壓等,以及將hadoop下的bin和sbin目錄都添加到系統(tǒng)path 等這些略過。
添加過程如下:
vi /etc/profile
然后文件末端這樣:
配置這樣的好處就是,以后執(zhí)行一些hadoop的命令,不用直接到XXbin目錄下。
注意編輯后,需要執(zhí)行 source /etc/profile 后才生效
B、主要配置三個文件
core-site.xml 文件,配置如下:
注意:這里要配置一個臨時目錄,一定要注意名稱是hadoop.tmp.dir 以及值路徑是這樣寫:file:/hadoop-data/dfs/tmp (因為每個hadoop的屬性和值得表示方法不一樣)
hdfs-site.xml文件,配置如下:
C、配置完上面的路徑后,先用命令格式化一下文件系統(tǒng):
hdfs namenode -format
這個作用就是建立一個臨時temp目錄,以及相關(guān)的臨時庫。
注意:每次在修改了和路徑有關(guān)的配置后,都必須執(zhí)行一次
D、設(shè)置免密碼登錄
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >>~/.ssh/authorized_keys
E、到shin目錄下,執(zhí)行啟動命令, start-dfs.sh 即可(關(guān)閉則是 stop-dfs.sh)
F、有問題記得查看log文件。
G、請后,可以用命令查看相關(guān)端口:
H、可以打開網(wǎng)頁看看
XXX:50070 即可
1.2 spark安裝、配置
略
2、程序開發(fā)與實現(xiàn)
2.1 項目搭建
以test-salesRunInspark-project項目為基礎(chǔ),或者重命名該項目即可,大數(shù)據(jù)挖掘的項目搭建。
2.2 項目開發(fā)
程序開發(fā)主要涉及到:清洗算法的開發(fā),和挖掘算法的開發(fā),其他部分不需要。
然后清洗算法、挖掘算法的開發(fā),需要遵從2.1算法編寫 規(guī)則。
需要開發(fā)的部分為紅色標識的部分:
2.3 算法編寫規(guī)則
算法(包含數(shù)據(jù)清洗算法、挖掘算法等)都是只需要遵從以下規(guī)則即可:
必須規(guī)則:
定義一個普通class,然后為這個類加入精通的job方法即可
可選規(guī)則:
也可以定義一個main方法,這個主要作為單獨運行的入口(即不是通過運算服務(wù)器調(diào)用)
2.4 api使用
Api的使用主要涉及到以下兩個方面:
1、在spark中如何hadoop集成通訊,如何讀取hadoop中的數(shù)據(jù)和將結(jié)果保存到hadoop中
2、清洗的算法如何實現(xiàn)、挖掘的算法如何編寫
具體參考項目代碼中的:
數(shù)據(jù)清洗和轉(zhuǎn)換算法參考:UserJsonLog2Parquet.java
數(shù)據(jù)挖掘算法參考:UserClassModel.java
3、程序發(fā)布
數(shù)據(jù)挖掘項目以java項目方式存在,程序發(fā)布只需要將程序?qū)С鰹閖ar包,當然換個jar包,也把所依賴的jar包也打包進去,然后把這個jar包,一起拷貝到 spark環(huán)境下面即可。
步驟如下:
代碼下載:http://demodashi/demo/10153.html
注:本文著作權(quán)歸作者,由demo大師發(fā)表,拒絕轉(zhuǎn)載,轉(zhuǎn)載需要作者授權(quán)
作為數(shù)據(jù)挖掘師,去大數(shù)據(jù)公司還是傳統(tǒng)行業(yè)單位,這樣選! 流量視頻課程
作為剛畢業(yè)的大學生程序員,對大數(shù)據(jù)非常感興趣,想從事大數(shù)據(jù)挖掘的工作,不知道未來前景如何,而且面臨選擇是去純大數(shù)據(jù)公司還是傳統(tǒng)行業(yè)單位的大數(shù)據(jù)分析部門。目前大數(shù)據(jù)和人工智能、物聯(lián)網(wǎng)一樣可以說是大熱門。根據(jù)中國商業(yè)聯(lián)合會數(shù)據(jù)分析專業(yè)委員會統(tǒng)計,隨著大數(shù)據(jù)及AI等新興業(yè)務(wù)的發(fā)展,未來中國基礎(chǔ)性數(shù)據(jù)分析人才缺口將達到1400萬。這是一個很大數(shù)量的缺口,所以選擇大數(shù)據(jù)方向應(yīng)該是不錯的選擇。而數(shù)據(jù)挖掘這種比較偏應(yīng)用的就業(yè)前景也應(yīng)該不錯。
數(shù)據(jù)挖掘工程師大數(shù)據(jù)挖掘人員,要做的事情就是從數(shù)據(jù)庫或其它形態(tài)的數(shù)據(jù)文檔中發(fā)掘出顯性或隱性的有價值的數(shù)據(jù)。除了有一定的數(shù)學統(tǒng)計知識等之外,還要具備一定的編程能力,熟悉開發(fā)環(huán)境等,比如Hadoop、NoSQL、Python、Java等。至于就業(yè)去向可以根據(jù)自己的性格及發(fā)展方向來確定。大數(shù)據(jù)公司、傳統(tǒng)行業(yè)的大數(shù)據(jù)部門各有優(yōu)點。
大數(shù)據(jù)大數(shù)據(jù)挖掘技術(shù)在哪里都是差不多的。大數(shù)據(jù)公司一般會承接各種行業(yè)的數(shù)據(jù)分析,從個人見多識廣或大多數(shù)人的選擇來說可能到大數(shù)據(jù)公司應(yīng)該是比較好的選擇。長期下去各行各業(yè)的數(shù)據(jù)以及業(yè)務(wù)形態(tài)等等都能夠見得到,都會了解一些,而且大數(shù)據(jù)公司里收入來說相對會高一些。而且對于大數(shù)據(jù)技術(shù)的前沿知識也是很快會接觸到,學得到,同行之間交流也多,成長可能更快。但除了幾個規(guī)模比較大的數(shù)據(jù)分析公司之外,大部分還是比較新比較小,可能穩(wěn)定性并不是太好。對于那些有沖勁,不怕冒險的人員來說是個不錯的選擇。
大數(shù)據(jù)另一方面如果想成為某一個行業(yè)內(nèi)的專家,那么到某一個傳統(tǒng)行業(yè)單位也許是一個好的選擇。傳統(tǒng)行業(yè)單位數(shù)據(jù)更細分,而且更專一。每天接觸的,研究的都是這個行業(yè)里的數(shù)據(jù),長久下去對這個行業(yè)更深入,通過數(shù)據(jù)更能夠看到本質(zhì),更容易成為某個行業(yè)里的專家。比如衛(wèi)生領(lǐng)域、金融領(lǐng)域、零售領(lǐng)域等等,每一個領(lǐng)域都會有很深的業(yè)務(wù)知識。這種大數(shù)據(jù)分析部門依附在傳統(tǒng)行業(yè)企業(yè)里,相對來說可能收入稍低,但穩(wěn)定性不錯。如果人年輕把數(shù)據(jù)挖掘作為一份工作,有更高一些的收入,想學到更多的知識提升自己,或者覺得一個行業(yè)的數(shù)據(jù)太單調(diào),那么到大數(shù)據(jù)公司也就是比較好的選擇。
2018年大數(shù)據(jù)專業(yè)就業(yè)前景怎么樣? 公司視頻課程
2018年大數(shù)據(jù)專業(yè)就業(yè)前景
大數(shù)據(jù)人才稀缺
據(jù)數(shù)聯(lián)尋英發(fā)布《大數(shù)據(jù)人才報告》顯示,目前全國的大數(shù)據(jù)人才僅46萬,未來3-5年內(nèi)大數(shù)據(jù)人才的缺口將高達150萬。
據(jù)職業(yè)社交平臺LinkedIn發(fā)布的《2016年中國互聯(lián)網(wǎng)最熱職位人才報告》顯示,研發(fā)工程師、產(chǎn)品經(jīng)理、人力資源、市場營銷、運營和數(shù)據(jù)分析是當下中國互聯(lián)網(wǎng)行業(yè)需求最旺盛的六類人才職位。其中研發(fā)工程師需求量最大,而數(shù)據(jù)分析人才最為稀缺。領(lǐng)英報告表明,數(shù)據(jù)分析人才的供給指數(shù)最低,僅為0.05,屬于高度稀缺。數(shù)據(jù)分析人才跳槽速度也最快,平均跳槽速度為19.8個月。
根據(jù)中國商業(yè)聯(lián)合會數(shù)據(jù)分析專業(yè)委員會統(tǒng)計,未來中國基礎(chǔ)性數(shù)據(jù)分析人才缺口將達到1400萬,而在BAT企業(yè)招聘的職位里,60%以上都在招大數(shù)據(jù)人才。
大數(shù)據(jù)專業(yè)就業(yè)三大方向
大數(shù)據(jù)主要的三大就業(yè)方向:大數(shù)據(jù)系統(tǒng)研發(fā)類人才、大數(shù)據(jù)應(yīng)用開發(fā)類人才和大數(shù)據(jù)分析類人才。
在此三大方向中,各自的基礎(chǔ)崗位一般為大數(shù)據(jù)系統(tǒng)研發(fā)工程師、大數(shù)據(jù)應(yīng)用開發(fā)工程師和數(shù)據(jù)分析師。
大數(shù)據(jù)專業(yè)人才就業(yè)薪資
1基礎(chǔ)人才:數(shù)據(jù)分析師
北京數(shù)據(jù)分析平均工資: 10630/月,取自 15526 份樣本,較 2016 年,增長 9.4%。
數(shù)據(jù)分析師崗位職責
業(yè)務(wù)類別:技術(shù)
業(yè)務(wù)方向:數(shù)據(jù)分析
工作職責:
1. 根據(jù)公司產(chǎn)品和業(yè)務(wù)需求,利用數(shù)據(jù)挖掘等工具對多種數(shù)據(jù)源進行診斷分析,建設(shè)征信分析模型并優(yōu)化,為公司征信運營決策、產(chǎn)品設(shè)計等方面提供數(shù)據(jù)支持;
2. 負責項目的需求調(diào)研、數(shù)據(jù)分析、商業(yè)分析和數(shù)據(jù)挖掘模型等,通過對運行數(shù)據(jù)進行分析挖掘背后隱含的規(guī)律及對未來的預(yù)測;
3. 參與數(shù)據(jù)挖掘模型的構(gòu)建、維護、部署和評估;
4. 整理編寫商業(yè)數(shù)據(jù)分析報告,及時發(fā)現(xiàn)和分析其中變化和問題,為業(yè)務(wù)發(fā)展提供決策支持;
5. 獨立完成項目需求管理、方案設(shè)計、實施管理和項目成果質(zhì)量的把控;
6. 參與編寫項目相關(guān)文檔。
教育背景:
學歷:本科其它:
經(jīng)驗要求:工作經(jīng)驗:3-5年
任職要求:
1. 統(tǒng)計學、數(shù)學或計算機、數(shù)理統(tǒng)計或數(shù)據(jù)挖掘?qū)I(yè)方向相關(guān)專業(yè)本科或以上學歷;有扎實的數(shù)據(jù)統(tǒng)計和數(shù)據(jù)挖掘?qū)I(yè)知識;
2. 熟練使用數(shù)理統(tǒng)計、數(shù)據(jù)分析、數(shù)據(jù)挖掘工具軟件(SAS、R、Python等的一種或多種),能熟練使用SQL讀取數(shù)據(jù);
3. 使用過 邏輯回歸、神經(jīng)網(wǎng)絡(luò)、決策樹、聚類 等的一種或多種建模方法;
4. 3年以上數(shù)據(jù)分析工作經(jīng)驗,征信從業(yè)背景人員優(yōu)先;
5. 具有金融行業(yè)項目經(jīng)驗的相關(guān)經(jīng)驗者優(yōu)先考慮;
6. 主動性強,有較強的責任心,積極向上的工作態(tài)度,有團隊協(xié)作精神。
能力素養(yǎng):
良好的分析、歸納和總結(jié)能力,善于分析、解決實際問題; 主動性強,有較強的責任心,積極向上的工作態(tài)度,有團隊協(xié)作精神。
2大數(shù)據(jù)開發(fā)工程師
北京大數(shù)據(jù)開發(fā)平均工資: 30230/月。
大數(shù)據(jù)開發(fā)工程師/專家 崗位指責(引自 滴滴出行):
職位描述:
1、構(gòu)建分布式大數(shù)據(jù)服務(wù)平臺,參與和構(gòu)建公司包括海量數(shù)據(jù)存儲、離線/實時計算、實時查詢,大數(shù)據(jù)系統(tǒng)運維等系統(tǒng);
2、服務(wù)各種業(yè)務(wù)需求,服務(wù)日益增長的業(yè)務(wù)和數(shù)據(jù)量;
3、深入源碼內(nèi)核改進優(yōu)化開源項目,解決各種hadoop、spark、hbase疑難問題,參與到開源社區(qū)建設(shè)和代碼貢獻;
崗位要求:
1、計算機或相關(guān)專業(yè)本科以上學歷(3年以上工作經(jīng)驗);
2、精通C++/Java/Scala程序開發(fā)(至少一種),熟悉Linux/Unix開發(fā)環(huán)境;
3、熟悉常用開源分布式系統(tǒng),精通Hadoop/Hive/Spark/Storm/Flink/HBase之一源代碼;
4、有大規(guī)模分布式系統(tǒng)開發(fā)、維護經(jīng)驗,有故障處理能力,源碼級開發(fā)能力;
5、具有良好的溝通協(xié)作能力,具有較強的分享精神;
6、對Kudu、Kylin、Impala、ElasticSearch,github等系統(tǒng)有深入使用和底層研究者加分;
3Hadoop開發(fā)工程師
北京hadoop平均工資: 20130/月,取自 1734 份樣本。
Hadoop開發(fā)工程師崗位職責(引自新浪網(wǎng)):
職位描述:
1.參與優(yōu)化改進新浪集團數(shù)據(jù)平臺基礎(chǔ)服務(wù),參與日傳輸量超過百TB的數(shù)據(jù)傳輸體系優(yōu)化,日處理量超過PB級別的數(shù)據(jù)處理平臺改進,多維實時查詢分析系統(tǒng)的構(gòu)建優(yōu)化;
2.分布式機器學習算法在數(shù)據(jù)平臺的構(gòu)建與優(yōu)化(包括常見的LR、GBDT、FM、LDA、Word2Vec及DNN等);
3.深入源碼改進各種開源大數(shù)據(jù)項目(包括Hadoop、Spark、Kafka、HBase等)。
任職要求:
1.計算機或相關(guān)專業(yè)本科以上學歷;
2.熟悉Linux環(huán)境下開發(fā),熟練掌握C++/Java/Scala等一種以上編程語言;
3.熟悉Hadoop生態(tài)系統(tǒng)相關(guān)項目,精通以下項目之一的源碼(Hadoop/Spark/Kafka/HBase/Flume/ElasticSearch/Druid/Kylin);
4.具備良好的學習能力、分析能力和解決問題的能力。
4數(shù)據(jù)挖掘工程師
北京數(shù)據(jù)挖掘平均工資: 21740/月,取自 3449 份樣本,較 2016 年,增長 20.3%;
數(shù)據(jù)挖掘工程師招聘要求(引自螞蟻金服集團技術(shù)部):
工作職責:
1、在分布式系統(tǒng)上進行數(shù)據(jù)計算、挖掘、和實現(xiàn)算法;
2、數(shù)據(jù)倉庫模型設(shè)計和建立;
3、數(shù)據(jù)梳理流程的實現(xiàn)和維護;
4、物流場景下的地址文本、空間屬性研究和分析。
任職資格:
1、本科以上學歷,有扎實的統(tǒng)計學,數(shù)據(jù)挖掘,機器學習,自然語言識別理論基礎(chǔ),一種或幾種以上的實際使用經(jīng)驗。
2、熟悉聚類、分類、回歸等機器學習算法和實現(xiàn),對常見的核心算法和數(shù)據(jù)挖掘方法有透徹的理解和實際經(jīng)驗。
3、深入理解Map-Reduce模型,對Hadoop、Hive、Spark、Storm等大規(guī)模數(shù)據(jù)存儲于運算平臺有實踐經(jīng)驗。
4、有扎實的計算機理論基礎(chǔ),至少熟悉一種編程語言,Java優(yōu)先。
5、有三年以上互聯(lián)網(wǎng)公司或者海量數(shù)據(jù)處理工作經(jīng)驗,大數(shù)據(jù)挖掘、分析、建模經(jīng)驗
5算法工程師
北京算法工程師平均工資: 22640/月,取自 10176 份樣本。
算法工程師 招聘要求(引自美團點評數(shù)據(jù)平臺部):
職位描述:
互聯(lián)網(wǎng)公司背景優(yōu)先
A、廣告算法
崗位職責:
1.負責點擊率預(yù)估等主要廣告算法的技術(shù)選型;
2.負責核心算法的開發(fā);
3.負責廣告大數(shù)據(jù)處理流程的建設(shè)及相關(guān)工具的研發(fā);
4.負責廣告技術(shù)研究項目的推進與管理;
職位需求:
1.計算機或相關(guān)專業(yè)本科以上學歷,3年以上相關(guān)工作經(jīng)驗;
2.熟練掌握一門開發(fā)語言;
3.有機器學習、數(shù)據(jù)挖掘相關(guān)知識;
4.在廣告、搜索、推薦等相關(guān)領(lǐng)域之一有技術(shù)研究工作經(jīng)驗;
5.有較強的溝通協(xié)調(diào)能力;
B、推薦算法
職位描述:
1. 參與各個產(chǎn)品線的個性化推薦系統(tǒng)的研發(fā);
2. 分析用戶行為數(shù)據(jù),并設(shè)計合理的推薦算法模型及策略,并優(yōu)化推薦排序;
3. 通過對用戶行為數(shù)據(jù)的挖掘,對用戶進行建模,精準刻畫用戶各種屬性;
職位要求:
1. 全日制本科及以上學歷,計算機相關(guān)專業(yè);
2. 熟練掌握各類個性化推薦算法,并有開發(fā)個性化推薦系統(tǒng)的實際項目經(jīng)驗;熟練掌握各類回歸及排序算法,能夠利用相關(guān)算法進行推薦排序的優(yōu)化;
3. 熟練掌握分類、聚類、回歸、降維等經(jīng)典機器學習算法和技術(shù),能夠根據(jù)實際問題選擇合適的模型和算法并進行相應(yīng)的開發(fā);
4. 有較強的工程架構(gòu)和開發(fā)能力,能夠?qū)崿F(xiàn)支撐千萬級用戶和TB級用戶行為數(shù)據(jù)的推薦系統(tǒng)或算法;
5. 掌握python、matlab等腳本語言,熟悉各類數(shù)據(jù)挖掘工具(如weka、Mahout),能夠快速建立模型并進行驗證;
C、算法工程師
崗位職責:
1、開發(fā)和優(yōu)化用戶行為數(shù)據(jù)挖掘,文本分類和語義理解,社交網(wǎng)絡(luò)分析,網(wǎng)頁搜索,推薦系統(tǒng)等領(lǐng)域的特定算法
2、能夠很快學習和利用state-of-the-art的算法解決實際產(chǎn)品問題,提升產(chǎn)品用戶體驗
任職資格:
1、有一定的研究、實驗的能力,優(yōu)秀的分析問題和解決問題的能力
2、理解自然語言處理、機器學習、網(wǎng)頁搜索,推薦系統(tǒng),用戶數(shù)據(jù)分析和建模的基本概念和常用方法,有相關(guān)領(lǐng)域的實際項目研發(fā)或者實習經(jīng)歷者優(yōu)先。
3、熟悉C++, Java或Python,熟悉Linux或類Unix系統(tǒng)開發(fā),有較強的編程能力。 能獨立實現(xiàn)線上算法模塊者優(yōu)先。
4、對大數(shù)據(jù)處理平臺和工具有一定經(jīng)驗者優(yōu)先, 包括: Hadoop, Hive, Pig, Spark 等
最后一個問題,哪些公司需求大數(shù)據(jù)人才?
答:所有的公司。大到世界500強,BAT這樣的公司,小到創(chuàng)業(yè)公司,他們都需求數(shù)據(jù)人才。
馬云爸爸說“我們已從IT時代進入了DT時代,未來我們的汽車、電燈泡、電視機、電冰箱等將全部裝上操作系統(tǒng),并進行數(shù)據(jù)集成,數(shù)據(jù)將會讓機器更“聰明”。DT時代,數(shù)據(jù)將成為主要的能源,離開了數(shù)據(jù),任何組織的創(chuàng)新都基本上是空殼。”
數(shù)據(jù),未來的一切。