網(wǎng)站性能檢測(cè)評(píng)分
注:本網(wǎng)站頁(yè)面html檢測(cè)工具掃描網(wǎng)站中存在的基本問題,僅供參考。
企業(yè)數(shù)據(jù)平臺(tái)
簡(jiǎn)單概述企業(yè)級(jí)大數(shù)據(jù)云平臺(tái)該如何規(guī)劃 企業(yè)視頻課程
一、大數(shù)據(jù)云平臺(tái)應(yīng)當(dāng)具備
Real time 實(shí)時(shí)
海量實(shí)時(shí)計(jì)算
數(shù)據(jù)實(shí)時(shí)錄入
動(dòng)態(tài)實(shí)時(shí)標(biāo)簽
平臺(tái)實(shí)時(shí)監(jiān)控
數(shù)據(jù)實(shí)時(shí)應(yīng)用
Efficient 高效
一鍵高效部署
數(shù)據(jù)高效整合
資源高效分配
模型高效計(jì)算
Control 監(jiān)控
硬件監(jiān)控
系統(tǒng)監(jiān)控
數(shù)據(jù)監(jiān)控
安全監(jiān)控
權(quán)限監(jiān)控
Value 價(jià)值
數(shù)據(jù)安全高
軟硬件成本低
執(zhí)行時(shí)間少
數(shù)據(jù)價(jià)值大
二、分布式數(shù)據(jù)系統(tǒng)
以數(shù)據(jù)價(jià)值和平臺(tái)服務(wù)為導(dǎo)向,集成數(shù)據(jù)接入、整合、存儲(chǔ)、計(jì)算和監(jiān)控的分布式數(shù)據(jù)系統(tǒng)。
三、體現(xiàn)核心優(yōu)勢(shì)
數(shù)據(jù)接入
快速地整合同步存儲(chǔ)在不同類型數(shù)據(jù)庫(kù)中的數(shù)據(jù),解決生產(chǎn)環(huán)境中ORACLE、MYSQL、文本、日志等主流數(shù)據(jù)庫(kù)的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的同步問題。
數(shù)據(jù)存儲(chǔ)
建立分布式存儲(chǔ)、分布式內(nèi)存計(jì)算、分布式索引等技術(shù),解決傳統(tǒng)數(shù)據(jù)庫(kù)面臨的數(shù)據(jù)增長(zhǎng)問題,可不停機(jī)情況下動(dòng)態(tài)擴(kuò)容。所有數(shù)據(jù)自動(dòng)備份,不再需要混合架構(gòu),不再需要多數(shù)據(jù)庫(kù)集群。
平臺(tái)管理
為了更好地讓開發(fā)及業(yè)務(wù)人員操作方便,提供數(shù)據(jù)查詢、算法倉(cāng)庫(kù)、數(shù)據(jù)脫敏、監(jiān)控預(yù)警、系統(tǒng)管理等可視化配置界面。
計(jì)算平臺(tái)
集成交互式SQL、實(shí)時(shí)數(shù)據(jù)檢索、機(jī)器學(xué)習(xí)、內(nèi)存計(jì)算、流式計(jì)算、全文檢索等技術(shù),實(shí)現(xiàn)多數(shù)據(jù)源、多數(shù)據(jù)場(chǎng)景及多數(shù)據(jù)模型的聯(lián)合計(jì)算平臺(tái),比傳統(tǒng)型數(shù)據(jù)倉(cāng)庫(kù)和開源版分布式架構(gòu)計(jì)算效率提升5-10倍。
四、技術(shù)提升點(diǎn)
批量數(shù)據(jù)導(dǎo)入效率
多線程并發(fā)抽取,縮短抽取時(shí)間,抽取效率提升約100%。如:400張表(5G數(shù)據(jù)容量),單線程串行抽取耗時(shí)約2個(gè)小時(shí),8-16線程并發(fā)抽取耗時(shí)約1小時(shí)10分鐘;
數(shù)據(jù)庫(kù)整庫(kù)抽取,數(shù)據(jù)源統(tǒng)一配置修改,提升部署效率(五分鐘即可完成整庫(kù)的數(shù)據(jù)抽取任務(wù)與定時(shí)調(diào)度任務(wù)的部署)。
流數(shù)據(jù)效率
支持按時(shí)間與按大小分隔當(dāng)前輸出日志,實(shí)現(xiàn)準(zhǔn)實(shí)時(shí)的讀寫分離,提升日志提取實(shí)時(shí)率??蓪⑷罩緦?shí)時(shí)同步率由T+1提升至毫秒級(jí)。
數(shù)據(jù)同步
支持Oracle數(shù)據(jù)庫(kù)到Hdfs、Hbase的實(shí)時(shí)數(shù)據(jù)同步,同步時(shí)間可達(dá)到毫秒級(jí),對(duì)Oracle源系統(tǒng)性能影響在0.01%以下;
支持Mysql數(shù)據(jù)庫(kù)到Hdfs、Hbase的實(shí)時(shí)數(shù)據(jù)同步,同步時(shí)間可達(dá)到毫秒級(jí),對(duì)Mysql源系統(tǒng)性能不受任何影響;
支持Nosql、內(nèi)存數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)爬蟲、文件數(shù)據(jù)、第三方數(shù)據(jù)的同步及導(dǎo)入功能。
SQOOP功能
處理原sqoop組件無(wú)法抽取的oracle含有clob與blob字段的數(shù)據(jù)表的問題。抽取數(shù)據(jù)覆蓋率提升至98%;
自動(dòng)化重啟因?yàn)閖obFailed引起的抽取報(bào)錯(cuò)的數(shù)據(jù)表的抽取進(jìn)程。數(shù)據(jù)抽取容錯(cuò)率提升10%;
同時(shí)支持Hive與hbase兩種導(dǎo)入格式,可配置具體抽取方案。抽取數(shù)據(jù)的準(zhǔn)確率提升至97%。
Flume功能
支持多臺(tái)服務(wù)器日志,以及同臺(tái)服務(wù)器多份日志的同時(shí)收集功能;
提供小文件的自動(dòng)合并功能。優(yōu)化HDFS文件存儲(chǔ),與任務(wù)執(zhí)行效率,存儲(chǔ)優(yōu)化約節(jié)約90%的文件存儲(chǔ)空間,降低90%的mapReduce任務(wù)數(shù)。
Hcinload功能
支持Oracle、Mysql、MongoDB、DB2、Txt、Csv、Http等多數(shù)據(jù)源批量、實(shí)時(shí)同步功能,并實(shí)現(xiàn)多數(shù)據(jù)源、多數(shù)據(jù)格式同時(shí)并發(fā)的實(shí)時(shí)導(dǎo)入;
支持百度統(tǒng)計(jì)、GA、微信等第三發(fā)平臺(tái)的數(shù)據(jù)對(duì)接和導(dǎo)入;
支持WEB、APP端采集的網(wǎng)頁(yè)數(shù)據(jù)、網(wǎng)站行為數(shù)據(jù)、APP數(shù)據(jù)的采集、實(shí)時(shí)同步功能。
Yarn
提升mapReduce運(yùn)行效率;
提升資源調(diào)度效率;
提高磁盤容錯(cuò)率;
提升metadata的穩(wěn)定性。
HDFS
提升hadoop原生系統(tǒng)穩(wěn)定性,有連續(xù)有效運(yùn)行時(shí)間超過700天的實(shí)施案例。
優(yōu)化HDFS中文件塊的存儲(chǔ)規(guī)則,系統(tǒng)整體容錯(cuò)性提升10%、任務(wù)運(yùn)行效率約提升15%、網(wǎng)絡(luò)傳輸消耗約降低15%。
HIVE
提供穩(wěn)定的hive-jdbc程序調(diào)用接口,解決原h(huán)ive-jdbc接口12次調(diào)用約有一次失敗的問題,容錯(cuò)率提升8%;
與Hbase進(jìn)行整合,hive-sql的數(shù)據(jù)結(jié)果準(zhǔn)確度提升至95%;
根據(jù)不同情況分配不同的mapReduce設(shè)置參數(shù),提升hive-sql運(yùn)行效率,運(yùn)行效率約提升20%。
Hbase
提升高效的key-value形式的數(shù)據(jù)調(diào)用效率,支撐大并發(fā)的前臺(tái)應(yīng)用??芍С置棵胧f(wàn)并發(fā)調(diào)用下的毫秒級(jí)數(shù)據(jù)返回;
提供較高數(shù)據(jù)完整性與一致性的數(shù)據(jù)存放,與hive整合,提供hive調(diào)用hbase數(shù)據(jù)功能,數(shù)據(jù)準(zhǔn)確率提升至97%,hive-sql的數(shù)據(jù)結(jié)果準(zhǔn)確度提升至95%;
根據(jù)需求提供高效的hbase二級(jí)索引功能。提高復(fù)雜查詢需求的查詢效率。約提升查詢效率40%。
Hcupload
支持60M/S的HDFS、HIVE、Hbase、Mysql、Redis等多數(shù)據(jù)載體的數(shù)據(jù)寫入效率;
按時(shí)間、大小、行業(yè)及職能等不同方式分隔當(dāng)前數(shù)據(jù),實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)分類后上傳;
提供小文件的自動(dòng)合并功能。
ZooKeeper
優(yōu)化zookeeper主從選舉機(jī)制;
提升分布式數(shù)據(jù)更新效率與一致性。
Gum
適用所有類型樣本分布規(guī)律,包括非高斯分布、不均勻密度、復(fù)雜高維空間的模型支持;
提升算法在不同類型樣本下的魯棒性、抗噪音和異常值,算法適用性和穩(wěn)定性提升10倍;
算法準(zhǔn)確率提升85%;
算法運(yùn)行時(shí)間平均縮短46%。
五、核心能力目標(biāo)
日均10億條數(shù)據(jù)實(shí)時(shí)處理能力;
累計(jì)5PB數(shù)據(jù)存儲(chǔ)與計(jì)算能力;
上千臺(tái)分布式集群連續(xù)3年不間斷運(yùn)行能力
謝謝!
集客分享重磅推出企業(yè)大數(shù)據(jù)平臺(tái) 企業(yè)視頻課程
億歐近日消息,集客分享重磅推出企業(yè)大數(shù)據(jù)平臺(tái)。集客分享認(rèn)為目前企業(yè)面臨諸多痛點(diǎn),限制了企業(yè)業(yè)績(jī)的快速增長(zhǎng)。例如,①獲客渠道少成本高效率低;②無(wú)法甄別優(yōu)質(zhì)銷售線索;③銷售線索缺乏有效管理;④無(wú)法開展專業(yè)營(yíng)銷工作;⑤企業(yè)內(nèi)部業(yè)務(wù)流程割裂。針對(duì)企業(yè)面臨的前2大痛點(diǎn),2018年7月11日,集客分享歷經(jīng)了為期半年的研發(fā),重大產(chǎn)品“企業(yè)大數(shù)據(jù)”發(fā)布上線,為ToB企業(yè)量身打造的海量?jī)?yōu)質(zhì)銷售線索獲取平臺(tái),助ToB企業(yè)實(shí)現(xiàn)“線索輕松找,業(yè)績(jī)成倍增”。據(jù)億歐了解,集客分享(北京品客互動(dòng)科技有限公司)是一家營(yíng)銷技術(shù)解決方案服務(wù)公司,致力于為企業(yè)提供“技術(shù)+數(shù)據(jù)+內(nèi)容”的智能營(yíng)銷解決方案,系統(tǒng)解決企業(yè)的獲客難題,提高營(yíng)銷轉(zhuǎn)化效果。
如何設(shè)計(jì)企業(yè)內(nèi)部的數(shù)據(jù)平臺(tái)? 企業(yè)視頻課程
數(shù)據(jù)平臺(tái)的建設(shè)可以當(dāng)做一個(gè)產(chǎn)品來(lái)設(shè)計(jì)。從廣義上來(lái)講,所有以數(shù)據(jù)驅(qū)動(dòng)為核心的都可以稱為數(shù)據(jù)產(chǎn)品(如數(shù)據(jù)報(bào)表平臺(tái),DMP,BI平臺(tái)),從狹義上來(lái)講,就是公司內(nèi)部的數(shù)據(jù)平臺(tái)。今天我們要討論的,主要是在公司內(nèi)部搭建數(shù)據(jù)平臺(tái)。
公司的內(nèi)部數(shù)據(jù)平臺(tái),主要是給各業(yè)務(wù)提供數(shù)據(jù)處理、分析、展示,供內(nèi)部所有部門人員使用的,涉及數(shù)據(jù)的收集(填報(bào))、數(shù)據(jù)的整合、業(yè)務(wù)報(bào)表制作、業(yè)務(wù)員數(shù)據(jù)分析以及可視化數(shù)據(jù)展示,目的是讓公司內(nèi)部的所有業(yè)務(wù)都能通過數(shù)據(jù)來(lái)驅(qū)動(dòng)和輔助決策。簡(jiǎn)單點(diǎn)講就是通過數(shù)據(jù)平臺(tái)來(lái)驅(qū)動(dòng)公司內(nèi)部的數(shù)據(jù)化運(yùn)營(yíng)。
那么如何設(shè)計(jì)符合企業(yè)實(shí)情并能解決實(shí)際問題的數(shù)據(jù)平臺(tái)呢?
1. 平臺(tái)建設(shè)主導(dǎo)人需要對(duì)每一塊業(yè)務(wù)需求有深刻的了解,知道每個(gè)業(yè)務(wù)部門想要看什么樣的數(shù)據(jù),需要什么樣的分析報(bào)表;這些數(shù)據(jù)是否現(xiàn)在就可以獲取到,是否需要收集;業(yè)務(wù)部門通過這些數(shù)據(jù)分析,是如何推進(jìn)和改善業(yè)務(wù),是否有提升的價(jià)值意義。
2. 平臺(tái)的設(shè)計(jì)需要根據(jù)業(yè)務(wù)的要求設(shè)計(jì)符合使用者需要的內(nèi)容,產(chǎn)品要有層級(jí)和結(jié)構(gòu)。如果設(shè)計(jì)的一張數(shù)據(jù)報(bào)表既要滿足管理層的需求又要滿足一線業(yè)務(wù)人員的需要,那么這樣的數(shù)據(jù)產(chǎn)品體驗(yàn)很大可能是比較差的。因?yàn)轭I(lǐng)導(dǎo)和業(yè)務(wù)人員的關(guān)注點(diǎn)不一樣,看數(shù)據(jù)的視角也不一樣。領(lǐng)導(dǎo)往往需要一些能幫助把握大方向的關(guān)鍵指標(biāo),并且希望知道這些指標(biāo)之后的問題是什么?原因是什么?所以給領(lǐng)導(dǎo)設(shè)計(jì)的報(bào)表需要直觀易懂,并且能夠基于這些指標(biāo)的一場(chǎng)定位到問題。而業(yè)務(wù)人員更在乎業(yè)務(wù)的執(zhí)行,關(guān)注的數(shù)據(jù)往往粒度很細(xì),需要知道各項(xiàng)指標(biāo)的明細(xì)。
領(lǐng)導(dǎo)關(guān)注的報(bào)表(FineReport制作)
銷售領(lǐng)導(dǎo)關(guān)注的指標(biāo)明細(xì)(FineReport制作)
3. 數(shù)據(jù)平臺(tái)一定要注意數(shù)據(jù)質(zhì)量、規(guī)范、統(tǒng)一。因?yàn)閿?shù)據(jù)平臺(tái)是面向所有業(yè)務(wù)的,怎么保證公司的所有部門人員對(duì)于數(shù)據(jù)的理解是一致的,這點(diǎn)特別難。(比如服裝行業(yè)的“斷碼”,從領(lǐng)導(dǎo)層來(lái)講,公司倉(cāng)儲(chǔ)的服裝全部尺碼如果不完整就是斷碼;從倉(cāng)庫(kù)的倉(cāng)管員角度來(lái)講,倉(cāng)庫(kù)內(nèi)的服裝尺碼不全就是斷碼;從門店的業(yè)務(wù)員角度來(lái)講,客戶需要的尺碼當(dāng)前門店無(wú)貨就是斷碼)。公司的業(yè)務(wù)系統(tǒng)各有不同,數(shù)據(jù)口徑不一,數(shù)據(jù)孤島問題,導(dǎo)致數(shù)據(jù)的質(zhì)量和結(jié)構(gòu)也千差萬(wàn)別,越是這樣,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)建設(shè)就顯得尤為重要。平臺(tái)的數(shù)據(jù)質(zhì)量依賴于數(shù)據(jù)倉(cāng)庫(kù)底層的數(shù)據(jù)模型,所以一個(gè)好的數(shù)據(jù)倉(cāng)庫(kù)很大程度上決定了數(shù)據(jù)平臺(tái)的數(shù)據(jù)質(zhì)量。
4. 工具選型上,有報(bào)表平臺(tái)、BI。報(bào)表平臺(tái)適合構(gòu)建基礎(chǔ)的規(guī)范化的數(shù)據(jù)平臺(tái),從明細(xì)報(bào)表(表格類)的,項(xiàng)目檔案,文件報(bào)備,數(shù)據(jù)填報(bào),數(shù)據(jù)報(bào)表,業(yè)務(wù)主題分析,文中的所有demo就是用FineReport制作,側(cè)重于展示和報(bào)表管理。BI側(cè)重于分析,拿到數(shù)據(jù)可以自己拖拽維度來(lái)分析,不同于報(bào)表受模板框架的限制,涵蓋簡(jiǎn)單的明細(xì)報(bào)表、分析報(bào)表和主題分析,制作要簡(jiǎn)單很多,大數(shù)據(jù)量的處理性能也強(qiáng)勁很多,代表:FineBI、Tableau.
下面我們就從實(shí)戰(zhàn)的角度來(lái)加以闡述。
某公司是一家電商公司,那么該公司的各部門需要看哪些數(shù)據(jù)呢?首先收集日常常用的數(shù)據(jù)指標(biāo),哪些是經(jīng)常要查詢的,哪些是要日常填報(bào)的,這些在過往的經(jīng)營(yíng)中都有備案,好收集。這就構(gòu)成了日常的基礎(chǔ)查詢類報(bào)表,這類報(bào)表最占大頭。
其次,我們可以觀察一下各部門的KPI是什么?下放到團(tuán)隊(duì)以及個(gè)人的KPI是什么?是否能以具體的數(shù)字來(lái)量化?如果對(duì)負(fù)責(zé)支持的部門的KPI不了解,就去尋求部門領(lǐng)導(dǎo)幫助(使用者最懂要什么),不落實(shí)指標(biāo)如何能設(shè)計(jì)出好的數(shù)據(jù)報(bào)表?通常粗略的,例如采購(gòu)部門的KPI基本就是銷售額、訂單數(shù)、銷售毛利潤(rùn)、采購(gòu)成本;運(yùn)營(yíng)部門的KPI就是新老用戶述、留存率、復(fù)購(gòu)率、用戶流失、轉(zhuǎn)化率,市場(chǎng)部門的KPI就是PV/UV、新客數(shù),這就構(gòu)成了各部門日常管理的報(bào)表。
那么知道各個(gè)部門的核心KPI后,下一步就是針對(duì)一些特定場(chǎng)景的主題報(bào)表。主題報(bào)表往往是記錄某一事件,其中的指標(biāo)都是相互關(guān)聯(lián)的。
比如,我希望知道這個(gè)月我的績(jī)效完成的怎么樣?在團(tuán)隊(duì)內(nèi)排名是提升還是下降?每個(gè)人的績(jī)效結(jié)果明細(xì)是怎樣的?——這就構(gòu)成了日??己藞?bào)表。
又比如在分析產(chǎn)品時(shí),需要重點(diǎn)關(guān)注某些產(chǎn)品的相對(duì)市場(chǎng)份額和市場(chǎng)增長(zhǎng)率,則要建立波士頓矩陣分析,以便讓資源有效地分配到合理的產(chǎn)品結(jié)構(gòu)中(當(dāng)然還有其他分析角度)——這就是品類分析。
產(chǎn)品分析(FineReport制作)
再?gòu)臉I(yè)務(wù)分析和使用場(chǎng)景入手,拿采購(gòu)部門的小王來(lái)說(shuō),他是怎樣看數(shù)據(jù)的呢?
每天早上,我希望知道昨天的銷售情況怎么樣?所以這時(shí)候應(yīng)該設(shè)計(jì)一張基礎(chǔ)查詢報(bào)表給到他,這張數(shù)據(jù)報(bào)表應(yīng)該具有以下功能和內(nèi)容:
1.能夠查看昨天以及過去各時(shí)段的數(shù)據(jù);能夠按照產(chǎn)品、地域來(lái)統(tǒng)計(jì);能夠與過往的平均值做比較,看看是不是某區(qū)域某產(chǎn)品的趨勢(shì)上有大的變化,是不是廣告投放,活動(dòng)推廣帶來(lái)的,影響大不大。其次,每個(gè)月,每季度的數(shù)據(jù)是多少,能夠選定時(shí)間段自動(dòng)展示。
請(qǐng)點(diǎn)擊此處輸入圖片描述
2. 指標(biāo)越豐富越好,如果銷售額下降了,看看是不是訂單數(shù)下降了,訂單數(shù)沒變是不是客單價(jià)的問題,是由于商品結(jié)構(gòu)的原因還是活動(dòng)門檻調(diào)整導(dǎo)致的。
3. 數(shù)據(jù)分析的能夠下達(dá)的粒度越細(xì)越好。比如數(shù)據(jù)粒度可以從全國(guó)下鉆到省份,從省份下鉆到城市,這樣交易額下降了就能知道是哪個(gè)省哪個(gè)城市出了問題?就能針對(duì)性的解決。
請(qǐng)點(diǎn)擊此處輸入圖片描述
經(jīng)過以上幾個(gè)步驟,即可形成平臺(tái)雛形,形成規(guī)劃文檔。但一個(gè)數(shù)據(jù)平臺(tái),無(wú)論前期規(guī)劃得多么豐富,也不可能一蹴而就。公司的業(yè)務(wù)在不斷變化,分析的內(nèi)容也越來(lái)越豐富,在這過程中總需要不斷磨合和調(diào)整,只有不斷完善之后,才能形成一個(gè)更加量身定制的實(shí)用平臺(tái)。
企業(yè)大數(shù)據(jù)綜合監(jiān)控平臺(tái) 企業(yè)視頻課程
企業(yè)大數(shù)據(jù)的核心價(jià)值:事件的分析、預(yù)測(cè)。從事情的本質(zhì)出發(fā),從事情各個(gè)微觀(屬性數(shù)據(jù)、行為數(shù)據(jù)、 數(shù)據(jù)潛在相關(guān)性、分析結(jié)果)層面,為我們挖掘出事情未來(lái)的發(fā)展趨勢(shì)是什么樣?我們應(yīng)該這么做?
企業(yè)大數(shù)據(jù)綜合監(jiān)控平臺(tái) 企業(yè)視頻課程
企業(yè)大數(shù)據(jù)的核心價(jià)值:事件的分析、預(yù)測(cè)。從事情的本質(zhì)出發(fā),從事情各個(gè)微觀(屬性數(shù)據(jù)、行為數(shù)據(jù)、 數(shù)據(jù)潛在相關(guān)性、分析結(jié)果)層面,為我們挖掘出事情未來(lái)的發(fā)展趨勢(shì)是什么樣?我們應(yīng)該這么做?