本期導(dǎo)讀 :【阿里云 CDP 公開(kāi)課】第二講
主題:CDH/HDP 何去何從
講師:王雪峰,Cloudera 生態(tài)資深解決方案工程師
內(nèi)容框架:
直播回放鏈接:(第2講)
https://developer.aliyun.com/live/247950
CDH/HDP 產(chǎn)品公司合并
CDH/HDP 這兩個(gè)產(chǎn)品比他們的公司在市場(chǎng)上更加廣為流傳。大部分用戶可能只知道 CDH 或者 HDP,而不知道 Cloudera 或者 Hortonworks,實(shí)際上 CDH 是 Cloudera 公司的代表產(chǎn)品,HDP 是 Hortonworks 公司的代表產(chǎn)品。兩家公司都是圍繞著大數(shù)據(jù)平臺(tái)去做發(fā)行版,他們?cè)?019年1月進(jìn)行了合并,形成了新的 Cloudera 公司。
合并之后,兩家公司的能力也做了一些整合。首先兩家公司的平臺(tái)能力都是圍繞著中間的數(shù)據(jù)工程和數(shù)據(jù)倉(cāng)庫(kù)的,他們都具有大數(shù)據(jù)平臺(tái)的存儲(chǔ)和計(jì)算能力。如上圖,綠色的 IoT 互聯(lián)網(wǎng)是 Hortonworks 另外一款產(chǎn)品提供的能力,主要做實(shí)時(shí)數(shù)據(jù)的采集和處理分析。藍(lán)色的是 Cloudera 的另一個(gè)產(chǎn)品 CDSW 提供的,來(lái)幫助加速機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)的一些應(yīng)用。這幾款產(chǎn)品都可以部署在企業(yè)的客戶邊緣計(jì)算、私有云、公有云和混合云上。
兩家公司在合并之后,首先把這4個(gè)產(chǎn)品進(jìn)行打通,客戶可以根據(jù)自己的生態(tài)選擇從邊緣計(jì)算到人工智能的處理流程。兩家公司合并完成之后,緊接著就進(jìn)行了產(chǎn)品整合,為什么?
在兩家公司合并前,Cloudera 當(dāng)時(shí)有兩個(gè)主推的大數(shù)據(jù)平臺(tái)產(chǎn)品:CDH5 和 CDH6。Hortonworks 有兩個(gè)主推的平臺(tái)產(chǎn)品:HDP2 和 HDP3。這兩家公司的產(chǎn)品分別對(duì)應(yīng) Hadoop2 和 Hadoop3 的發(fā)行版,合并成新的 Cloudera 之后,一家公司維護(hù)4個(gè)同質(zhì)性的平臺(tái)產(chǎn)品負(fù)荷是比較重的,再加上外部技術(shù)的發(fā)展變化(云計(jì)算、計(jì)算和存儲(chǔ)分離、容器和K8S等),Cloudera 最終選擇進(jìn)行平臺(tái)整合,形成新的產(chǎn)品 CDP。
CDH/HDP 的產(chǎn)品生命周期
CDP 的全稱是 Cloudera Data Platform。Cloudera 公司的 CDP 推出之后,首先支持了 CDH5 和 HDP2 兩個(gè)平臺(tái)的直接升級(jí)。隨著技術(shù)的發(fā)展,今年也支持了 CDH6 和 HDP3 的直接升級(jí)。在 CDP 推出之后,HDP 和 CDH 兩個(gè)平臺(tái)都可以遷移升級(jí)到 CDP 平臺(tái)上,兩個(gè)產(chǎn)品也在逐漸退出市場(chǎng),產(chǎn)品進(jìn)入了 EOS 階段,其中 CDH5 和 HDP2 在2020年12月底已經(jīng)不再進(jìn)行售后支持,CDH6 和 HDP3 也分別在2021年底和2022年3月結(jié)束它的支持生命周期。
兩家公司合并推出 CDP 之后,CDH 和 HDP 產(chǎn)品已經(jīng)不再增加新的功能,僅是一些維護(hù)式的更新,使得已有用戶沒(méi)辦法在老的 CDH/HDP 平臺(tái)上繼續(xù)獲取新的功能和性能提升。
這一張圖是 Cloudera 官網(wǎng)給出的 Cloudera 支持的產(chǎn)品生命周期,主要列出了 CDH 和 HDP。其中 Cloudera Enterprise 對(duì)應(yīng)的是 CDH 企業(yè)版??梢钥吹?Cloudera 最新的產(chǎn)品 CDH6 系列和 HDP3 系列,分別在今年年底和明年3月份全部 EOS。老產(chǎn)品CDH5和HDP2也在2020年12月EoS了,不再進(jìn)行支持。
Cloudera 產(chǎn)品許可證變化
Cloudera 在兩家公司合并完之后,將產(chǎn)品許可證也做了一些調(diào)整,使得它更加類似于成熟的 Red Hat 的開(kāi)源模型。
首先,所有的產(chǎn)品源都是符合 OSI 批準(zhǔn)的許可證,包括 Apache 的開(kāi)源許可和 AGPL 的許可證。其次,從2019年11月 Cloudera 再發(fā)布的所有產(chǎn)品不再提供社區(qū)版,只有企業(yè)版,用戶需要訂閱才能正常使用 Cloudera 發(fā)布的產(chǎn)品。但它還是會(huì)提供試用版,60天的試用期,使得用戶可以做功能的驗(yàn)證和嘗試。
從今年1月份開(kāi)始,Cloudera 還把以前對(duì)外公開(kāi)的 CDH/HDP 所有版本都拿到了 Paywall,使得用戶都需要訂閱 Cloudera 產(chǎn)品,獲取到對(duì)應(yīng)的授權(quán)才能下載。
對(duì)大家來(lái)說(shuō),這聽(tīng)起來(lái)是一個(gè)壞消息,其實(shí)也不盡然。為什么那?接下來(lái)我們講來(lái)分析一下國(guó)內(nèi)大數(shù)據(jù)生態(tài)的供應(yīng)商情況。
國(guó)內(nèi)大數(shù)據(jù)生態(tài)挑戰(zhàn)
大家對(duì) Hadoop 已經(jīng)比較熟悉了,大家可以到 Hadoop 官網(wǎng)隨便下載和使用,在我們的傳統(tǒng)思維中,門檻很低,基本上是免費(fèi)。但大家只考慮了軟件獲取成本,而忽略了軟件使用成本和后續(xù)的運(yùn)營(yíng)成本。
據(jù)信通院在2019年6月數(shù)據(jù)整理,當(dāng)時(shí)國(guó)內(nèi)有39家基于 Hadoop 的平臺(tái)供應(yīng)商,這些供應(yīng)商里面有70%多是基于 Cloudera 的 CDH 和 HDP 的社區(qū)版封裝成產(chǎn)品來(lái)提供給用戶的,有24%是基于 Apache 封裝,還有一家自研的產(chǎn)品。大部分供應(yīng)商基本都是在 CDH/HDP 社區(qū)版進(jìn)一步封裝,同時(shí)替換掉 CDH/HDP 的 Logo,就發(fā)布出來(lái)自己的版本。這種行為對(duì)用戶和這些供應(yīng)商有什么挑戰(zhàn)?Cloudera 的許可證模式變更之后,再把 CDH/HDP 的 logo 替換掉,是商業(yè)盜版行為,面臨商業(yè)合規(guī)的風(fēng)險(xiǎn)。
那么,直接使用Apache的版本進(jìn)行封裝是否可以?可以,但可能存在如下風(fēng)險(xiǎn):
風(fēng)險(xiǎn)1,在于國(guó)內(nèi)大部分供應(yīng)商沒(méi)有足夠的 Apache 的 PMC 和 Committer 資源,導(dǎo)致出現(xiàn)問(wèn)題之后不能夠快速定位問(wèn)題,只能依靠自己的經(jīng)驗(yàn)去猜,或到社區(qū)上去獲取對(duì)應(yīng)的支持,這必然沒(méi)辦法滿足企業(yè)對(duì)應(yīng)用 SLA 的需求。
風(fēng)險(xiǎn)2,這些供應(yīng)商沒(méi)有足夠的 Hadoop 平臺(tái)開(kāi)發(fā)的資源,也就沒(méi)有足夠的能力和權(quán)限進(jìn)行 Apache 社區(qū)的代碼修復(fù)。為了維護(hù)產(chǎn)品,就會(huì)出現(xiàn)產(chǎn)品分支,供應(yīng)商需要維護(hù)多個(gè)不同的版本,容易造成維護(hù)混亂和功能不一致。使用這樣的產(chǎn)品,使得大部分非互聯(lián)網(wǎng)企業(yè)需要享受互聯(lián)網(wǎng)企業(yè)的試錯(cuò)待遇,而同時(shí)又沒(méi)有辦法滿足他們的 SLA,導(dǎo)致他們沒(méi)有辦法去上A類應(yīng)用來(lái)滿足它的使用需求。
同時(shí)隨著國(guó)家對(duì)安全漏洞的安全要求增強(qiáng),大部分企業(yè)沒(méi)有辦法跟蹤和解決 CVE 相關(guān)的安全審計(jì),因?yàn)檫@些廠商不了解第三方庫(kù)如何引用,不知道下一代產(chǎn)品如何更新。特別重要的是,金融業(yè)客戶沒(méi)有辦法面對(duì)“護(hù)網(wǎng)”的工作需求。
我們時(shí)不時(shí)會(huì)接觸到護(hù)網(wǎng)行動(dòng),在護(hù)網(wǎng)行動(dòng)中會(huì)掃描出一大堆安全漏洞。而這些安全漏洞是需要對(duì)應(yīng)廠商來(lái)提供解決方案的,不了解CVE的廠家是沒(méi)有辦法對(duì)此提供支持的。最近爆發(fā)的 Log4J 的 CVE-2021-44228 對(duì)于這類供應(yīng)商就是一個(gè)巨大的挑戰(zhàn)。
把整個(gè)中國(guó)大數(shù)據(jù)生態(tài)分析下來(lái),我們會(huì)發(fā)現(xiàn),Hadoop 使用的門檻很低,但是我們沒(méi)辦法真正把它運(yùn)用到生產(chǎn)上,因?yàn)閲?guó)內(nèi)的廠商,沒(méi)有辦法去提供足夠的支撐該平臺(tái)可以運(yùn)行在生產(chǎn)上??墒?,Hadoop 平臺(tái)作為比 RDBMS 更新的一代平臺(tái),能夠解決我們很多問(wèn)題,這時(shí)候我們要怎么辦?是不是就放棄?答案是:否。
我們還有 Global 公司可以來(lái)提供支持,例如 Cloudera 就可以提供這種專業(yè)的平臺(tái)服務(wù)支持。Cloudera 的 CDP 里面涉及39+個(gè) Apache 的開(kāi)源組件,擁有超過(guò)30個(gè)組件的控制權(quán),使得 Cloudera 可以修改里面的一些安全漏洞 CVE 和 bug,也可以增加新功能和性能增強(qiáng)等等。對(duì)于其他組件,也有 PMC 和 Committer 來(lái)保證代碼修復(fù)的權(quán)利。
第二,我們可以決定未來(lái)產(chǎn)品發(fā)展的路線。我們會(huì)根據(jù)社區(qū)的反饋,和對(duì)新產(chǎn)品新功能研究創(chuàng)新,來(lái)決定對(duì)哪一些組件進(jìn)行引入,對(duì)哪些組件選擇廢棄。
第三,Cloudera 因?yàn)橛凶銐虻?PMC 和 Committer,可以自行決定第三方庫(kù)的引用和替換,使得用戶可以放心地使用。當(dāng)然這只是產(chǎn)品平臺(tái)的一個(gè)能力,只有這些還不夠。
此外,它還有完善的400售后支持體系,Cloudera 在中國(guó)有30多人的中文售后支持團(tuán)隊(duì),可以支持整個(gè)中國(guó)甚至包括部分東南亞的售后。同時(shí) Cloudera 在全球有10來(lái)個(gè)售后支持中心可以提供7×24小時(shí)售后服務(wù)。
對(duì)于企業(yè)來(lái)講,要把關(guān)鍵的應(yīng)用上到生產(chǎn)里,也需要完善的安全解決方案。Cloudera為此提供了業(yè)界最完整最成熟的安全解決方案,來(lái)幫助用戶滿足安全合規(guī)需求。
自研用戶的壓力
大數(shù)據(jù)平臺(tái)除了向第三方廠商購(gòu)買之外,還可以進(jìn)行自研。那么自研的成本或者價(jià)值估算怎么樣,我們這里用一張圖表來(lái)進(jìn)行說(shuō)明。
自研的話,需要30到50人來(lái)完成整個(gè)平臺(tái)的構(gòu)建、組件的升級(jí)、安全的實(shí)施以及平臺(tái)使用的支持。目前國(guó)內(nèi)有這種能力的工程師成本需要人民幣30~50萬(wàn)元左右/人/年,每年會(huì)需要200~400萬(wàn)美金的人工成本,這對(duì)于大部分企業(yè)來(lái)說(shuō)還是比較高的。
如果使用 Cloudera 訂閱,費(fèi)用會(huì)是怎么樣?
假設(shè)我們使用50個(gè)節(jié)點(diǎn)的列表價(jià)來(lái)計(jì)算,差不多是一年50萬(wàn)美元左右。在這每年50萬(wàn)美元的訂閱費(fèi)用里面我們能獲取到什么?第一個(gè)是產(chǎn)品的使用支持,Cloudera 有龐大的工程師團(tuán)隊(duì)和 Apache 的 PMC、Committer 能夠支持企業(yè)產(chǎn)品的創(chuàng)新和更新;同時(shí)還有300多個(gè)技術(shù)支持專家可以提供7×24小時(shí)售后支持,有專業(yè)的知識(shí)庫(kù)幫助我們快速解決問(wèn)題,還提供了知識(shí)庫(kù)等其他增值服務(wù)。這對(duì)于大部分廠商來(lái)說(shuō)這是一個(gè)成本更低、風(fēng)險(xiǎn)更小的解決方案,同時(shí)讓員工主要做業(yè)務(wù)應(yīng)用,可以創(chuàng)造更大的業(yè)務(wù)價(jià)值。
什么是 CDP?
相對(duì)于 CDH/HDP,CDP 有什么改進(jìn)
CDP 是原先兩個(gè)最好的企業(yè)級(jí)數(shù)據(jù)分析平臺(tái) CDH 和 HDP 融合在一起,同時(shí)增加一些新的功能,形成的一個(gè)新平臺(tái)。這個(gè)平臺(tái)有40多個(gè)組件,是可以提供更多功能的企業(yè)級(jí)分析平臺(tái)。
這個(gè)平臺(tái)集合了 CDH 和 HDP 的精華來(lái)創(chuàng)建,把一些過(guò)時(shí)的技術(shù)淘汰掉,再融合新的技術(shù),把雙方差異性的技術(shù)保留下來(lái),同時(shí)升級(jí)共享一些技術(shù)得到最新版本。
整個(gè)CDP平臺(tái)主要有兩塊功能。
第一塊是通過(guò) Cloudera Manager 負(fù)責(zé)整個(gè)平臺(tái)的運(yùn)營(yíng)和管理工作,上圖中間這部分是 CDP 的主要功能,是 CDP 平臺(tái)具有的功能和能力。最下面支持各種各樣的存儲(chǔ),HDFS、Ozone、kudu、云對(duì)象存儲(chǔ)等。它還有數(shù)據(jù)移動(dòng)功能,任務(wù)編排和用戶接口的功能、有運(yùn)營(yíng)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)的能力,搜索、安全和治理的能力,同時(shí)還有數(shù)據(jù)的加密和密鑰管理的功能。Cloudera 還有的其他應(yīng)用,比如 CDSW 或 Cloudera Data Flow,也可以被 Cloudera manage 來(lái)管理和支持,來(lái)滿足企業(yè)更廣泛的應(yīng)用和使用能力。
對(duì)于已有的 CDH 用戶,他們會(huì)獲得哪些能力?我們從整個(gè)大方向來(lái)講,它在授權(quán)和策略管理上面做得更好,支持行過(guò)濾和動(dòng)態(tài)列掩碼,支持 SparkSQL 細(xì)粒度的訪問(wèn)控制,提供跨生態(tài)的授權(quán)和策略管理。
在數(shù)據(jù)治理上,它采用了 Atlas,可以更好地管理元數(shù)據(jù)、數(shù)據(jù)血緣和監(jiān)管鏈,同時(shí)支持業(yè)務(wù)數(shù)據(jù)等等應(yīng)用。在實(shí)時(shí)數(shù)據(jù)上,對(duì) Kafka 做了很多增強(qiáng),支持連接不同存儲(chǔ)的 Kafka connect,支持 Kafka 集群的管理和數(shù)據(jù)復(fù)制,以及集群的運(yùn)維。在運(yùn)營(yíng)數(shù)據(jù)庫(kù)上支持了完整的 ACID SQL 標(biāo)準(zhǔn),支持二級(jí)索引,支持星型 Schema 等等。
在數(shù)據(jù)倉(cāng)庫(kù)上,把 Hive 引擎用 Hive-on-Tez 替代來(lái)提供更好的ETL性能,同時(shí)支持 ACID 事務(wù)支持 ANSI 2016 SQL 標(biāo)準(zhǔn),也做了很多性能的優(yōu)化。
在存儲(chǔ)上,通過(guò) Ozone 可以提供 HDFS 30倍的擴(kuò)展性,對(duì) S3 原生遠(yuǎn)程支持,同時(shí)可以和 Kafka、Nifi 集成。
在安全上,提供了基于 Knox 的網(wǎng)關(guān) SSO,同時(shí)支持密鑰管理等等。
對(duì)于 HDP用戶來(lái)說(shuō),也獲取了大量的新功能。包括管理支持了計(jì)算和存儲(chǔ)分離的體系架構(gòu),支持自動(dòng)傳輸加密以及針對(duì)管理員的細(xì)粒度 RBAC。
前面簡(jiǎn)單說(shuō)了一下 CDP 平臺(tái)相對(duì)于 CDH/HDP 平臺(tái)增加的功能, CDP 平臺(tái)更多的價(jià)值,可以用這一張圖表來(lái)表示。
它提供了更高的分析性能,相對(duì)于以前的 CDH/HDP 平臺(tái)產(chǎn)品,它通過(guò)集成最新版的 Impala、Hive 和 Spark,可以帶給用戶兩倍的分析性能提升。同時(shí)通過(guò) Cloudera Manager 的集群管理,來(lái)提供增強(qiáng)的集群管理和資源調(diào)度,減少了20%的資源使用。
通過(guò)在 CDP 平臺(tái)引入 Ozone 對(duì)象存儲(chǔ)和 HDFS 糾刪碼,可以提供5倍的存儲(chǔ)密度,使得用戶的存儲(chǔ)更具有成本效益。對(duì)于安全合規(guī)比較敏感的用戶,CDP 把已知的 CVE 都解決了。在最新的 CDP7.1.7里,有個(gè)用戶前一段時(shí)間剛進(jìn)行了安全漏洞的掃描,沒(méi)有在 CDP 平臺(tái)上發(fā)現(xiàn)任何 CVE。發(fā)現(xiàn)的CVE基本上都是在上下游上面,該產(chǎn)品更符合用戶對(duì)安全合規(guī)的訴求。
最后一點(diǎn)是數(shù)據(jù)的安全治理,在 CDP 中通過(guò)引入新的 SDX 控制,包括默認(rèn)拒絕、最低權(quán)限,策略標(biāo)簽、可擴(kuò)展審計(jì)、一致執(zhí)行等等,使得用戶減少50%的工作量,來(lái)緩解監(jiān)管合規(guī)性,大幅度降低任務(wù)、重載。
Cloudera 提供的安全解決方案是業(yè)界最完整最成熟的,它主要由4部分組成。第一塊是用戶的訪問(wèn)邊界,通過(guò)認(rèn)證、網(wǎng)絡(luò)隔離、用戶組映射等技術(shù)來(lái)決定用戶是否能夠訪問(wèn)平臺(tái),進(jìn)到集群訪問(wèn)之后的用戶可以根據(jù)他擁有的權(quán)限去訪問(wèn)數(shù)據(jù)和應(yīng)用,這主要是涉及到權(quán)限和授權(quán)相關(guān)的技術(shù)。當(dāng)然,企業(yè)里面的數(shù)據(jù)要有可視性和可見(jiàn)性,需要知道數(shù)據(jù)從哪里來(lái)到哪里去,需要知道誰(shuí)訪問(wèn)了什么,這就是審計(jì)和血緣相關(guān)的概念。還有一塊就是數(shù)據(jù)的保護(hù),防止不該訪問(wèn)的人訪問(wèn),這里對(duì)應(yīng)的是數(shù)據(jù)加密、數(shù)據(jù)標(biāo)簽、數(shù)據(jù)掩碼等技術(shù)概念。
通過(guò)這樣4個(gè)模塊,Cloudera 提供了業(yè)界最完整最成熟的安全解決方案,使得企業(yè)可以更合規(guī)地去使用數(shù)據(jù)。
為什么選擇基于阿里云部署的 CDP
今年 Cloudera 已經(jīng)和阿里云兩家公司強(qiáng)強(qiáng)合作,推出了基于阿里云部署的 CDP 平臺(tái)。這個(gè)平臺(tái)除了具有 CDP 平臺(tái)的所有優(yōu)勢(shì)之外,還增加了阿里云公有云相關(guān)的一些優(yōu)勢(shì)。
首先是產(chǎn)品核心方面。第一,阿里云提供的 CDP 版本,是包含完整的CDP能力的 。第二,它基于多種規(guī)格,使得用戶可以選擇不同的套餐去構(gòu)建使用。第三,Cloudera CDP 平臺(tái)和阿里云平臺(tái)產(chǎn)品集成互通,用戶可以在阿里云上直接一起使用阿里云其他的產(chǎn)品,同時(shí)它還提供了開(kāi)箱即用的安全平臺(tái),可以降低它的使用復(fù)雜度,也降低了運(yùn)維成本。
其次是產(chǎn)品引擎與服務(wù)方面。第一,百分百兼容開(kāi)源的 Hadoop,同時(shí)又通過(guò)兩家公司的聯(lián)合調(diào)優(yōu),使性能最優(yōu)。第二,它能提供給客戶7×24小時(shí)的專家支持服務(wù)和專業(yè)保障,使用戶可以輕松地對(duì)已有的 CDH/HDP 這些平臺(tái)來(lái)進(jìn)行遷移,進(jìn)行版本升級(jí),參數(shù)調(diào)優(yōu)等工作。
基于阿里云部署的 CDP 平臺(tái)的整體架構(gòu)是這樣的——底層平臺(tái)會(huì)使用阿里云的云盤、基于大數(shù)據(jù)的本地存儲(chǔ)、數(shù)據(jù)湖等數(shù)據(jù)存儲(chǔ)方式,計(jì)算層通過(guò)阿里云的 ECS 來(lái)擴(kuò)展。在這之上,它通過(guò) SDX 來(lái)管理所有數(shù)據(jù)的狀態(tài),通過(guò) Cloudera Manager 來(lái)管理整個(gè)平臺(tái),在上面提供基于數(shù)倉(cāng)、數(shù)據(jù)湖、數(shù)據(jù)工程、流計(jì)算、運(yùn)營(yíng)數(shù)據(jù)庫(kù)等業(yè)務(wù)場(chǎng)景的能力。
客戶會(huì)問(wèn),我為什么要選擇基于阿里云部署的 CDP平臺(tái)?從成本上來(lái)講,用戶是有一定的成本支出,20%的成本增加帶來(lái)下列收益:
第一,用戶可以使用最新版的CDP平臺(tái),這個(gè)平臺(tái)可以提供給用戶更多的開(kāi)源組件,更高的版本,更穩(wěn)定可靠的軟件版本支持,同時(shí)覆蓋客戶從邊緣計(jì)算到人工智能的數(shù)據(jù)分析的應(yīng)用場(chǎng)景。
第二,這個(gè)平臺(tái)可以提供給用戶企業(yè)級(jí)的服務(wù)支持,包括大數(shù)據(jù)專家服務(wù),開(kāi)箱即用的使用來(lái)降低運(yùn)維成本。
第三,這個(gè)平臺(tái)可以提供更完整更成熟的安全治理管理方案,滿足企業(yè)的安全合規(guī)訴求。
同時(shí),穩(wěn)定可靠的產(chǎn)品,還大大降低了運(yùn)維的復(fù)雜度和成本,使得企業(yè)可以聚焦到業(yè)務(wù)應(yīng)用,增強(qiáng)企業(yè)的業(yè)務(wù)領(lǐng)先性。
到達(dá) CDP 有哪些路徑
到達(dá)CDP主要有兩種方式,一種是原地升級(jí),一種是遷移升級(jí)。
如何選擇使用自己的升級(jí)路徑
原地升級(jí)就是在原有的集群上直接做升級(jí),優(yōu)點(diǎn)是不需要額外的硬件資源,缺點(diǎn)是升級(jí)過(guò)程中停機(jī)時(shí)間可能會(huì)比較長(zhǎng),有時(shí)候會(huì)影響客戶的 SLA。 第二原地升級(jí)所有的應(yīng)用都要去驗(yàn)證,相對(duì)來(lái)講比較復(fù)雜。哪一類客戶比較適合這種方式呢?一是沒(méi)有富余的主機(jī)資源,二是平臺(tái)上面的租戶比較少,可以接受較長(zhǎng)時(shí)間的服務(wù)停機(jī)時(shí)間。
遷移升級(jí)是新搭建一個(gè)集群,然后把業(yè)務(wù)的老集群數(shù)據(jù)和應(yīng)用分別拷貝到新集群上,最后把應(yīng)用切換到新集群上。遷移升級(jí)有什么優(yōu)點(diǎn)?第一是不會(huì)產(chǎn)生數(shù)據(jù)丟失,不會(huì)影響已有的業(yè)務(wù),它的服務(wù)停機(jī)時(shí)間較短,只會(huì)在兩者最終交接的瞬間發(fā)生停機(jī),可能導(dǎo)致數(shù)據(jù)的不一致。缺點(diǎn)是它需要額外的硬件資源,同時(shí)需要遷移數(shù)據(jù),整體的遷移升級(jí)時(shí)間周期會(huì)比較長(zhǎng)。
遷移升級(jí)比較適合的用戶,一是有豐富富余主機(jī)資源,例如阿里云上的用戶,通過(guò)這些主機(jī)資源,可以很容易地去做中間的集群。二是租戶多,時(shí)間難以協(xié)調(diào)一致的情況。對(duì)于云上的用戶或者線下用戶計(jì)劃向云上轉(zhuǎn)換的用戶也都比較合適這種用戶。
CDH/HDP 目前的版本支持了 CDH 和 HDP 所有版本,他們可以原地升級(jí)和遷移升級(jí)到CDP平臺(tái)。如果客戶不愿意選擇最新版本,就需要看一下對(duì)應(yīng)版本的支持情況。
升級(jí)有哪些資源支持
現(xiàn)在在阿里云上推出來(lái)的是7.1.7版本,絕大部分用戶都可以來(lái)遷移和本地升級(jí)。那么升級(jí)的主要任務(wù)是什么?
先說(shuō)一下原地升級(jí)。首先它是集群的本質(zhì)升級(jí),會(huì)把已有的數(shù)據(jù)和 Schema 一次性升級(jí)到新的平臺(tái) CDP 上。第二平臺(tái)上的應(yīng)用腳本要做一些代碼改造,需要在新平臺(tái)上驗(yàn)證使用確保沒(méi)問(wèn)題,然后一起做代碼的改造替換,在新平臺(tái)上運(yùn)行。原地升級(jí)支持 CDH5.1.3以上和 HDP2.6.5 以上的版本。
遷移升級(jí)和本地升級(jí)一樣,也涉及到歷史數(shù)據(jù)、Schema、批量腳本和外部應(yīng)用四部分。但遷移升級(jí)的時(shí)候建議按照一個(gè)一個(gè)應(yīng)用的方式來(lái)分批次進(jìn)行遷移,而不需要一次性把所有東西都改造完然后一次性都遷移到新平臺(tái)上,可以按照應(yīng)用分批進(jìn)行。同時(shí)遷移升級(jí)的時(shí)候會(huì)把數(shù)據(jù)對(duì)應(yīng)的腳本和外部應(yīng)用做改造,使得它能夠在新平臺(tái)上使用。
Cloudera 在官網(wǎng)提供了很多升級(jí)指南,在一些公眾號(hào)宣傳材料里也有升級(jí)材料。它里面有安全安裝升級(jí)指南、升級(jí)的 companion、在線升級(jí)指南、遷移工作負(fù)載指南等等,同時(shí)用戶還可以和 Cloudera 的咨詢顧問(wèn)來(lái)一起構(gòu)建升級(jí)的規(guī)劃和實(shí)施。
如何申請(qǐng)基于阿里云部署的 CDP 測(cè)試
在阿里云的官網(wǎng)的路徑為:產(chǎn)品->大數(shù)據(jù)->相關(guān)解決方案和生態(tài)產(chǎn)品->Cloudera企業(yè)數(shù)據(jù)云,這是Cloudera和阿里云合作平臺(tái)的入口。
阿里云上的CDP是基于阿里云部署的CDP平臺(tái)的半托管產(chǎn)品,用戶可以在上面管理整個(gè)平臺(tái)運(yùn)用。
阿里云的 CDP 產(chǎn)品還能提供免費(fèi)測(cè)試和試用。
鏈接如下:https://survey.aliyun.com/apps/zhiliao/owtTaIQU3
點(diǎn)擊之后會(huì)跳轉(zhuǎn)到產(chǎn)品免費(fèi)試用申請(qǐng),填寫對(duì)應(yīng)的信息之后,阿里云的同事會(huì)來(lái)負(fù)責(zé)后續(xù)的申請(qǐng)審批,審批通過(guò)之后就可以獲取代金券來(lái)進(jìn)行 CDP產(chǎn)品的試用。
基于阿里云部署的 CDP 開(kāi)通流程
下面介紹一下阿里云CDP的使用方法。首先打開(kāi)阿里云官網(wǎng),按照以下路徑:產(chǎn)品-大數(shù)據(jù)-相關(guān)解決方案和生態(tài)產(chǎn)品-cloudera企業(yè)數(shù)據(jù)云,點(diǎn)擊之后會(huì)跳轉(zhuǎn)到Cloudera產(chǎn)品頁(yè),這里有產(chǎn)品的試用說(shuō)明開(kāi)通。后面需要填寫對(duì)應(yīng)的信息來(lái)獲得試用產(chǎn)品資格,完成之后就可以開(kāi)通使用它。
測(cè)試開(kāi)通流程演示
在開(kāi)通試用時(shí),每個(gè)企業(yè)有一次試用的機(jī)會(huì),可以在試用之后再選擇購(gòu)買。購(gòu)買支付完成以后,就能看到產(chǎn)品的管理頁(yè),可以在已購(gòu)買的產(chǎn)品服務(wù)里面找到我們剛購(gòu)買的產(chǎn)品。
管理頁(yè)每個(gè)產(chǎn)品的右邊有一個(gè)免登按鈕,點(diǎn)擊免登就能進(jìn)入 Cloudera 心選市場(chǎng)管理器,然后進(jìn)入集群管理來(lái)配置整個(gè)集群。在集群配置里面,我們可以通過(guò)輸入一些信息來(lái)完成整個(gè)集群的環(huán)境搭建。例如集群的一些實(shí)例名稱,集群所在的區(qū)域,目前支持了華東、上海、北京、深圳4個(gè)區(qū)域。
然后配置整個(gè)集群的網(wǎng)絡(luò)環(huán)境,包括 VPC、安全組等信息。用戶可以選擇集成高安全和非安全的集群,根據(jù)自己的需求來(lái)選擇。
接下來(lái)部署 Cloudera Manager 管理員的登錄賬戶信息,輸入對(duì)應(yīng)的賬戶和密碼登錄。然后選擇同意產(chǎn)品服務(wù)協(xié)議,確認(rèn)創(chuàng)建集群。接下來(lái)系統(tǒng)會(huì)創(chuàng)建一個(gè)硬件的訂單,完成支付以后可以看到里面有5臺(tái)機(jī)器,3臺(tái)數(shù)據(jù)節(jié)點(diǎn),1臺(tái)管理節(jié)點(diǎn),1臺(tái)工具節(jié)點(diǎn)。刷新一下就可以看到整個(gè)集群的進(jìn)程,它會(huì)自動(dòng)部署,整個(gè)部署大概需要30分鐘。大家在部署過(guò)程中可以通過(guò)查看詳情來(lái)獲取進(jìn)展,也可以看到整個(gè)集群的信息和主機(jī)列表等內(nèi)容。
部署完成以后,登錄控制臺(tái)來(lái)進(jìn)行配置。將7180添加到安全組里面,也可以參考安全組的配置文檔來(lái)配置。完成之后,點(diǎn)擊確認(rèn),就可以通過(guò)端口登錄。
但此時(shí)用戶還沒(méi)有配置當(dāng)前IP的訪問(wèn),所以用戶需要去做一點(diǎn)修改或新加一個(gè)安全規(guī)則,將7180賦給當(dāng)前的IP段。我們這里賦給了0.0.0.0,使得所有用戶都可以訪問(wèn)。最后刷新7180訪問(wèn)入口,輸入 admin 用戶和密碼來(lái)使用集群。
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
]]>