網(wǎng)站性能檢測評(píng)分
注:本網(wǎng)站頁面html檢測工具掃描網(wǎng)站中存在的基本問題,僅供參考。
企業(yè)級(jí)大數(shù)據(jù)
Hadoop 企業(yè)級(jí)大數(shù)據(jù)管理平臺(tái)CDH 安裝Hadoop組件 企業(yè)視頻課程
一 , 主機(jī)agent安裝配置
原作者開源中國“”喵了_個(gè)咪“”
填入主機(jī)的名稱或在已托管主機(jī)選擇一下主機(jī)
cmmaster-1master-2slave-1slave-2slave-3
下一步選擇我們之前下載好的parcel
等待系統(tǒng)自動(dòng)分發(fā)
完成之后在進(jìn)行下一步
檢查集群正確性
以上的幾個(gè)提示不解決也可以,為了美觀我們還是處理掉上面的問題
用戶和用戶組
useradd cloudera-scm
swappiness
echo 10 >/proc/sys/vm/swappiness
透明頁面
echo never > /sys/kernel/mm/transparent_hugepage/defragecho never >/sys/kernel/mm/transparent_hugepage/enabled
點(diǎn)擊頁面頭部的重新運(yùn)行,我們就得到一個(gè)干凈的主機(jī)檢查了
二, 大數(shù)據(jù)組件安裝
主要組件分布
cm cloudManageService oozie HUEmaster-1 Zookeeper NameNode HbaseMaster YARN HiveMetastore master-2 Zookeeper NameNode HbaseMaster YARN HiveMetastore slave-1 Zookeeper DataNode HbaseRegion NodeMangerslave-2 Zookeeper DataNode HbaseRegion NodeMangerslave-3 Zookeeper DataNode HbaseRegion NodeManger
選擇創(chuàng)建集群:
勾選我們需要的組件
對組件中的各個(gè)實(shí)例修改安裝的主機(jī)實(shí)例
PS:如果大家發(fā)現(xiàn)安裝完成之后有組件掛掉,并且不能解決可以嘗試減少安裝的組件數(shù)量,比如oozie和hue可以在后面安裝,先安裝好核心組件
數(shù)據(jù)庫配置(先去MYSQL創(chuàng)建好對應(yīng)的數(shù)據(jù)庫)
配置修改(先使用默認(rèn)配置)
開始安裝運(yùn)行組件
愉快的開始使用了
三 , HUE load balancer 啟動(dòng)失敗問題解決
需要先安裝一下下面兩個(gè)包之后在重啟
yum install httpd mod_ssl
簡單概述企業(yè)級(jí)大數(shù)據(jù)云平臺(tái)該如何規(guī)劃 企業(yè)視頻課程
一、大數(shù)據(jù)云平臺(tái)應(yīng)當(dāng)具備
Real time 實(shí)時(shí)
海量實(shí)時(shí)計(jì)算
數(shù)據(jù)實(shí)時(shí)錄入
動(dòng)態(tài)實(shí)時(shí)標(biāo)簽
平臺(tái)實(shí)時(shí)監(jiān)控
數(shù)據(jù)實(shí)時(shí)應(yīng)用
Efficient 高效
一鍵高效部署
數(shù)據(jù)高效整合
資源高效分配
模型高效計(jì)算
Control 監(jiān)控
硬件監(jiān)控
系統(tǒng)監(jiān)控
數(shù)據(jù)監(jiān)控
安全監(jiān)控
權(quán)限監(jiān)控
Value 價(jià)值
數(shù)據(jù)安全高
軟硬件成本低
執(zhí)行時(shí)間少
數(shù)據(jù)價(jià)值大
二、分布式數(shù)據(jù)系統(tǒng)
以數(shù)據(jù)價(jià)值和平臺(tái)服務(wù)為導(dǎo)向,集成數(shù)據(jù)接入、整合、存儲(chǔ)、計(jì)算和監(jiān)控的分布式數(shù)據(jù)系統(tǒng)。
三、體現(xiàn)核心優(yōu)勢
數(shù)據(jù)接入
快速地整合同步存儲(chǔ)在不同類型數(shù)據(jù)庫中的數(shù)據(jù),解決生產(chǎn)環(huán)境中ORACLE、MYSQL、文本、日志等主流數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的同步問題。
數(shù)據(jù)存儲(chǔ)
建立分布式存儲(chǔ)、分布式內(nèi)存計(jì)算、分布式索引等技術(shù),解決傳統(tǒng)數(shù)據(jù)庫面臨的數(shù)據(jù)增長問題,可不停機(jī)情況下動(dòng)態(tài)擴(kuò)容。所有數(shù)據(jù)自動(dòng)備份,不再需要混合架構(gòu),不再需要多數(shù)據(jù)庫集群。
平臺(tái)管理
為了更好地讓開發(fā)及業(yè)務(wù)人員操作方便,提供數(shù)據(jù)查詢、算法倉庫、數(shù)據(jù)脫敏、監(jiān)控預(yù)警、系統(tǒng)管理等可視化配置界面。
計(jì)算平臺(tái)
集成交互式SQL、實(shí)時(shí)數(shù)據(jù)檢索、機(jī)器學(xué)習(xí)、內(nèi)存計(jì)算、流式計(jì)算、全文檢索等技術(shù),實(shí)現(xiàn)多數(shù)據(jù)源、多數(shù)據(jù)場景及多數(shù)據(jù)模型的聯(lián)合計(jì)算平臺(tái),比傳統(tǒng)型數(shù)據(jù)倉庫和開源版分布式架構(gòu)計(jì)算效率提升5-10倍。
四、技術(shù)提升點(diǎn)
批量數(shù)據(jù)導(dǎo)入效率
多線程并發(fā)抽取,縮短抽取時(shí)間,抽取效率提升約100%。如:400張表(5G數(shù)據(jù)容量),單線程串行抽取耗時(shí)約2個(gè)小時(shí),8-16線程并發(fā)抽取耗時(shí)約1小時(shí)10分鐘;
數(shù)據(jù)庫整庫抽取,數(shù)據(jù)源統(tǒng)一配置修改,提升部署效率(五分鐘即可完成整庫的數(shù)據(jù)抽取任務(wù)與定時(shí)調(diào)度任務(wù)的部署)。
流數(shù)據(jù)效率
支持按時(shí)間與按大小分隔當(dāng)前輸出日志,實(shí)現(xiàn)準(zhǔn)實(shí)時(shí)的讀寫分離,提升日志提取實(shí)時(shí)率??蓪⑷罩緦?shí)時(shí)同步率由T+1提升至毫秒級(jí)。
數(shù)據(jù)同步
支持Oracle數(shù)據(jù)庫到Hdfs、Hbase的實(shí)時(shí)數(shù)據(jù)同步,同步時(shí)間可達(dá)到毫秒級(jí),對Oracle源系統(tǒng)性能影響在0.01%以下;
支持Mysql數(shù)據(jù)庫到Hdfs、Hbase的實(shí)時(shí)數(shù)據(jù)同步,同步時(shí)間可達(dá)到毫秒級(jí),對Mysql源系統(tǒng)性能不受任何影響;
支持Nosql、內(nèi)存數(shù)據(jù)庫、網(wǎng)絡(luò)爬蟲、文件數(shù)據(jù)、第三方數(shù)據(jù)的同步及導(dǎo)入功能。
SQOOP功能
處理原sqoop組件無法抽取的oracle含有clob與blob字段的數(shù)據(jù)表的問題。抽取數(shù)據(jù)覆蓋率提升至98%;
自動(dòng)化重啟因?yàn)閖obFailed引起的抽取報(bào)錯(cuò)的數(shù)據(jù)表的抽取進(jìn)程。數(shù)據(jù)抽取容錯(cuò)率提升10%;
同時(shí)支持Hive與hbase兩種導(dǎo)入格式,可配置具體抽取方案。抽取數(shù)據(jù)的準(zhǔn)確率提升至97%。
Flume功能
支持多臺(tái)服務(wù)器日志,以及同臺(tái)服務(wù)器多份日志的同時(shí)收集功能;
提供小文件的自動(dòng)合并功能。優(yōu)化HDFS文件存儲(chǔ),與任務(wù)執(zhí)行效率,存儲(chǔ)優(yōu)化約節(jié)約90%的文件存儲(chǔ)空間,降低90%的mapReduce任務(wù)數(shù)。
Hcinload功能
支持Oracle、Mysql、MongoDB、DB2、Txt、Csv、Http等多數(shù)據(jù)源批量、實(shí)時(shí)同步功能,并實(shí)現(xiàn)多數(shù)據(jù)源、多數(shù)據(jù)格式同時(shí)并發(fā)的實(shí)時(shí)導(dǎo)入;
支持百度統(tǒng)計(jì)、GA、微信等第三發(fā)平臺(tái)的數(shù)據(jù)對接和導(dǎo)入;
支持WEB、APP端采集的網(wǎng)頁數(shù)據(jù)、網(wǎng)站行為數(shù)據(jù)、APP數(shù)據(jù)的采集、實(shí)時(shí)同步功能。
Yarn
提升mapReduce運(yùn)行效率;
提升資源調(diào)度效率;
提高磁盤容錯(cuò)率;
提升metadata的穩(wěn)定性。
HDFS
提升hadoop原生系統(tǒng)穩(wěn)定性,有連續(xù)有效運(yùn)行時(shí)間超過700天的實(shí)施案例。
優(yōu)化HDFS中文件塊的存儲(chǔ)規(guī)則,系統(tǒng)整體容錯(cuò)性提升10%、任務(wù)運(yùn)行效率約提升15%、網(wǎng)絡(luò)傳輸消耗約降低15%。
HIVE
提供穩(wěn)定的hive-jdbc程序調(diào)用接口,解決原h(huán)ive-jdbc接口12次調(diào)用約有一次失敗的問題,容錯(cuò)率提升8%;
與Hbase進(jìn)行整合,hive-sql的數(shù)據(jù)結(jié)果準(zhǔn)確度提升至95%;
根據(jù)不同情況分配不同的mapReduce設(shè)置參數(shù),提升hive-sql運(yùn)行效率,運(yùn)行效率約提升20%。
Hbase
提升高效的key-value形式的數(shù)據(jù)調(diào)用效率,支撐大并發(fā)的前臺(tái)應(yīng)用。可支持每秒十萬并發(fā)調(diào)用下的毫秒級(jí)數(shù)據(jù)返回;
提供較高數(shù)據(jù)完整性與一致性的數(shù)據(jù)存放,與hive整合,提供hive調(diào)用hbase數(shù)據(jù)功能,數(shù)據(jù)準(zhǔn)確率提升至97%,hive-sql的數(shù)據(jù)結(jié)果準(zhǔn)確度提升至95%;
根據(jù)需求提供高效的hbase二級(jí)索引功能。提高復(fù)雜查詢需求的查詢效率。約提升查詢效率40%。
Hcupload
支持60M/S的HDFS、HIVE、Hbase、Mysql、Redis等多數(shù)據(jù)載體的數(shù)據(jù)寫入效率;
按時(shí)間、大小、行業(yè)及職能等不同方式分隔當(dāng)前數(shù)據(jù),實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)分類后上傳;
提供小文件的自動(dòng)合并功能。
ZooKeeper
優(yōu)化zookeeper主從選舉機(jī)制;
提升分布式數(shù)據(jù)更新效率與一致性。
Gum
適用所有類型樣本分布規(guī)律,包括非高斯分布、不均勻密度、復(fù)雜高維空間的模型支持;
提升算法在不同類型樣本下的魯棒性、抗噪音和異常值,算法適用性和穩(wěn)定性提升10倍;
算法準(zhǔn)確率提升85%;
算法運(yùn)行時(shí)間平均縮短46%。
五、核心能力目標(biāo)
日均10億條數(shù)據(jù)實(shí)時(shí)處理能力;
累計(jì)5PB數(shù)據(jù)存儲(chǔ)與計(jì)算能力;
上千臺(tái)分布式集群連續(xù)3年不間斷運(yùn)行能力
謝謝!