cdh平臺簡介(大數(shù)據(jù)cdp平臺是什么意思)
簡介:Hadoop社區(qū)版CDH/HDP已經(jīng)不再更新,也將終止服務。后續(xù)的平臺路線圖怎么規(guī)劃?cloudera CDP整合了CDH和HDP,有哪些性能提升和功能增強?如何平滑的進行遷移?本文結合CDH/HDP平臺現(xiàn)狀,詳細介紹了CDP以及如何到達CDP。
本期導讀 :【阿里云 CDP 公開課】第二講
主題:CDH/HDP 何去何從
講師:王雪峰,Cloudera 生態(tài)資深解決方案工程師
內(nèi)容框架:
- CDH/HDP 平臺現(xiàn)狀
- 為什么選擇 CDP
- 怎么到達 CDP
- CDP 測試驗證和使用
直播回放鏈接:(第2講)
https://developer.aliyun.com/live/247950
一、CDH/HDP 平臺現(xiàn)狀
CDH/HDP 產(chǎn)品公司合并
CDH/HDP 這兩個產(chǎn)品比他們的公司在市場上更加廣為流傳。大部分用戶可能只知道 CDH 或者 HDP,而不知道 Cloudera 或者 Hortonworks,實際上 CDH 是 Cloudera 公司的代表產(chǎn)品,HDP 是 Hortonworks 公司的代表產(chǎn)品。兩家公司都是圍繞著大數(shù)據(jù)平臺去做發(fā)行版,他們在2019年1月進行了合并,形成了新的 Cloudera 公司。

合并之后,兩家公司的能力也做了一些整合。首先兩家公司的平臺能力都是圍繞著中間的數(shù)據(jù)工程和數(shù)據(jù)倉庫的,他們都具有大數(shù)據(jù)平臺的存儲和計算能力。如上圖,綠色的 IoT 互聯(lián)網(wǎng)是 Hortonworks 另外一款產(chǎn)品提供的能力,主要做實時數(shù)據(jù)的采集和處理分析。藍色的是 Cloudera 的另一個產(chǎn)品 CDSW 提供的,來幫助加速機器學習、數(shù)據(jù)科學的一些應用。這幾款產(chǎn)品都可以部署在企業(yè)的客戶邊緣計算、私有云、公有云和混合云上。
兩家公司在合并之后,首先把這4個產(chǎn)品進行打通,客戶可以根據(jù)自己的生態(tài)選擇從邊緣計算到人工智能的處理流程。兩家公司合并完成之后,緊接著就進行了產(chǎn)品整合,為什么?

在兩家公司合并前,Cloudera 當時有兩個主推的大數(shù)據(jù)平臺產(chǎn)品:CDH5 和 CDH6。Hortonworks 有兩個主推的平臺產(chǎn)品:HDP2 和 HDP3。這兩家公司的產(chǎn)品分別對應 Hadoop2 和 Hadoop3 的發(fā)行版,合并成新的 Cloudera 之后,一家公司維護4個同質(zhì)性的平臺產(chǎn)品負荷是比較重的,再加上外部技術的發(fā)展變化(云計算、計算和存儲分離、容器和K8S等),Cloudera 最終選擇進行平臺整合,形成新的產(chǎn)品 CDP。
CDH/HDP 的產(chǎn)品生命周期
CDP 的全稱是 Cloudera Data Platform。Cloudera 公司的 CDP 推出之后,首先支持了 CDH5 和 HDP2 兩個平臺的直接升級。隨著技術的發(fā)展,今年也支持了 CDH6 和 HDP3 的直接升級。在 CDP 推出之后,HDP 和 CDH 兩個平臺都可以遷移升級到 CDP 平臺上,兩個產(chǎn)品也在逐漸退出市場,產(chǎn)品進入了 EOS 階段,其中 CDH5 和 HDP2 在2020年12月底已經(jīng)不再進行售后支持,CDH6 和 HDP3 也分別在2021年底和2022年3月結束它的支持生命周期。
兩家公司合并推出 CDP 之后,CDH 和 HDP 產(chǎn)品已經(jīng)不再增加新的功能,僅是一些維護式的更新,使得已有用戶沒辦法在老的 CDH/HDP 平臺上繼續(xù)獲取新的功能和性能提升。

這一張圖是 Cloudera 官網(wǎng)給出的 Cloudera 支持的產(chǎn)品生命周期,主要列出了 CDH 和 HDP。其中 Cloudera Enterprise 對應的是 CDH 企業(yè)版??梢钥吹?Cloudera 最新的產(chǎn)品 CDH6 系列和 HDP3 系列,分別在今年年底和明年3月份全部 EOS。老產(chǎn)品CDH5和HDP2也在2020年12月EoS了,不再進行支持。
Cloudera 產(chǎn)品許可證變化
Cloudera 在兩家公司合并完之后,將產(chǎn)品許可證也做了一些調(diào)整,使得它更加類似于成熟的 Red Hat 的開源模型。

首先,所有的產(chǎn)品源都是符合 OSI 批準的許可證,包括 Apache 的開源許可和 AGPL 的許可證。其次,從2019年11月 Cloudera 再發(fā)布的所有產(chǎn)品不再提供社區(qū)版,只有企業(yè)版,用戶需要訂閱才能正常使用 Cloudera 發(fā)布的產(chǎn)品。但它還是會提供試用版,60天的試用期,使得用戶可以做功能的驗證和嘗試。
從今年1月份開始,Cloudera 還把以前對外公開的 CDH/HDP 所有版本都拿到了 Paywall,使得用戶都需要訂閱 Cloudera 產(chǎn)品,獲取到對應的授權才能下載。
對大家來說,這聽起來是一個壞消息,其實也不盡然。為什么那?接下來我們講來分析一下國內(nèi)大數(shù)據(jù)生態(tài)的供應商情況。
國內(nèi)大數(shù)據(jù)生態(tài)挑戰(zhàn)

大家對 Hadoop 已經(jīng)比較熟悉了,大家可以到 Hadoop 官網(wǎng)隨便下載和使用,在我們的傳統(tǒng)思維中,門檻很低,基本上是免費。但大家只考慮了軟件獲取成本,而忽略了軟件使用成本和后續(xù)的運營成本。
據(jù)信通院在2019年6月數(shù)據(jù)整理,當時國內(nèi)有39家基于 Hadoop 的平臺供應商,這些供應商里面有70%多是基于 Cloudera 的 CDH 和 HDP 的社區(qū)版封裝成產(chǎn)品來提供給用戶的,有24%是基于 Apache 封裝,還有一家自研的產(chǎn)品。大部分供應商基本都是在 CDH/HDP 社區(qū)版進一步封裝,同時替換掉 CDH/HDP 的 Logo,就發(fā)布出來自己的版本。這種行為對用戶和這些供應商有什么挑戰(zhàn)?Cloudera 的許可證模式變更之后,再把 CDH/HDP 的 logo 替換掉,是商業(yè)盜版行為,面臨商業(yè)合規(guī)的風險。
那么,直接使用Apache的版本進行封裝是否可以?可以,但可能存在如下風險:
風險1,在于國內(nèi)大部分供應商沒有足夠的 Apache 的 PMC 和 Committer 資源,導致出現(xiàn)問題之后不能夠快速定位問題,只能依靠自己的經(jīng)驗去猜,或到社區(qū)上去獲取對應的支持,這必然沒辦法滿足企業(yè)對應用 SLA 的需求。
風險2,這些供應商沒有足夠的 Hadoop 平臺開發(fā)的資源,也就沒有足夠的能力和權限進行 Apache 社區(qū)的代碼修復。為了維護產(chǎn)品,就會出現(xiàn)產(chǎn)品分支,供應商需要維護多個不同的版本,容易造成維護混亂和功能不一致。使用這樣的產(chǎn)品,使得大部分非互聯(lián)網(wǎng)企業(yè)需要享受互聯(lián)網(wǎng)企業(yè)的試錯待遇,而同時又沒有辦法滿足他們的 SLA,導致他們沒有辦法去上A類應用來滿足它的使用需求。
同時隨著國家對安全漏洞的安全要求增強,大部分企業(yè)沒有辦法跟蹤和解決 CVE 相關的安全審計,因為這些廠商不了解第三方庫如何引用,不知道下一代產(chǎn)品如何更新。特別重要的是,金融業(yè)客戶沒有辦法面對“護網(wǎng)”的工作需求。
我們時不時會接觸到護網(wǎng)行動,在護網(wǎng)行動中會掃描出一大堆安全漏洞。而這些安全漏洞是需要對應廠商來提供解決方案的,不了解CVE的廠家是沒有辦法對此提供支持的。最近爆發(fā)的 Log4J 的 CVE-2021-44228 對于這類供應商就是一個巨大的挑戰(zhàn)。
把整個中國大數(shù)據(jù)生態(tài)分析下來,我們會發(fā)現(xiàn),Hadoop 使用的門檻很低,但是我們沒辦法真正把它運用到生產(chǎn)上,因為國內(nèi)的廠商,沒有辦法去提供足夠的支撐該平臺可以運行在生產(chǎn)上??墒牵琀adoop 平臺作為比 RDBMS 更新的一代平臺,能夠解決我們很多問題,這時候我們要怎么辦?是不是就放棄?答案是:否。

我們還有 Global 公司可以來提供支持,例如 Cloudera 就可以提供這種專業(yè)的平臺服務支持。Cloudera 的 CDP 里面涉及39+個 Apache 的開源組件,擁有超過30個組件的控制權,使得 Cloudera 可以修改里面的一些安全漏洞 CVE 和 bug,也可以增加新功能和性能增強等等。對于其他組件,也有 PMC 和 Committer 來保證代碼修復的權利。
第二,我們可以決定未來產(chǎn)品發(fā)展的路線。我們會根據(jù)社區(qū)的反饋,和對新產(chǎn)品新功能研究創(chuàng)新,來決定對哪一些組件進行引入,對哪些組件選擇廢棄。
第三,Cloudera 因為有足夠的 PMC 和 Committer,可以自行決定第三方庫的引用和替換,使得用戶可以放心地使用。當然這只是產(chǎn)品平臺的一個能力,只有這些還不夠。
此外,它還有完善的400售后支持體系,Cloudera 在中國有30多人的中文售后支持團隊,可以支持整個中國甚至包括部分東南亞的售后。同時 Cloudera 在全球有10來個售后支持中心可以提供7×24小時售后服務。
對于企業(yè)來講,要把關鍵的應用上到生產(chǎn)里,也需要完善的安全解決方案。Cloudera為此提供了業(yè)界最完整最成熟的安全解決方案,來幫助用戶滿足安全合規(guī)需求。
自研用戶的壓力
大數(shù)據(jù)平臺除了向第三方廠商購買之外,還可以進行自研。那么自研的成本或者價值估算怎么樣,我們這里用一張圖表來進行說明。

自研的話,需要30到50人來完成整個平臺的構建、組件的升級、安全的實施以及平臺使用的支持。目前國內(nèi)有這種能力的工程師成本需要人民幣30~50萬元左右/人/年,每年會需要200~400萬美金的人工成本,這對于大部分企業(yè)來說還是比較高的。
如果使用 Cloudera 訂閱,費用會是怎么樣?
假設我們使用50個節(jié)點的列表價來計算,差不多是一年50萬美元左右。在這每年50萬美元的訂閱費用里面我們能獲取到什么?第一個是產(chǎn)品的使用支持,Cloudera 有龐大的工程師團隊和 Apache 的 PMC、Committer 能夠支持企業(yè)產(chǎn)品的創(chuàng)新和更新;同時還有300多個技術支持專家可以提供7×24小時售后支持,有專業(yè)的知識庫幫助我們快速解決問題,還提供了知識庫等其他增值服務。這對于大部分廠商來說這是一個成本更低、風險更小的解決方案,同時讓員工主要做業(yè)務應用,可以創(chuàng)造更大的業(yè)務價值。
二、為什么選擇 CDP
什么是 CDP?

相對于 CDH/HDP,CDP 有什么改進
CDP 是原先兩個最好的企業(yè)級數(shù)據(jù)分析平臺 CDH 和 HDP 融合在一起,同時增加一些新的功能,形成的一個新平臺。這個平臺有40多個組件,是可以提供更多功能的企業(yè)級分析平臺。

這個平臺集合了 CDH 和 HDP 的精華來創(chuàng)建,把一些過時的技術淘汰掉,再融合新的技術,把雙方差異性的技術保留下來,同時升級共享一些技術得到最新版本。

整個CDP平臺主要有兩塊功能。
第一塊是通過 Cloudera Manager 負責整個平臺的運營和管理工作,上圖中間這部分是 CDP 的主要功能,是 CDP 平臺具有的功能和能力。最下面支持各種各樣的存儲,HDFS、Ozone、kudu、云對象存儲等。它還有數(shù)據(jù)移動功能,任務編排和用戶接口的功能、有運營數(shù)據(jù)庫、數(shù)據(jù)倉庫的能力,搜索、安全和治理的能力,同時還有數(shù)據(jù)的加密和密鑰管理的功能。Cloudera 還有的其他應用,比如 CDSW 或 Cloudera Data Flow,也可以被 Cloudera manage 來管理和支持,來滿足企業(yè)更廣泛的應用和使用能力。

對于已有的 CDH 用戶,他們會獲得哪些能力?我們從整個大方向來講,它在授權和策略管理上面做得更好,支持行過濾和動態(tài)列掩碼,支持 SparkSQL 細粒度的訪問控制,提供跨生態(tài)的授權和策略管理。
在數(shù)據(jù)治理上,它采用了 Atlas,可以更好地管理元數(shù)據(jù)、數(shù)據(jù)血緣和監(jiān)管鏈,同時支持業(yè)務數(shù)據(jù)等等應用。在實時數(shù)據(jù)上,對 Kafka 做了很多增強,支持連接不同存儲的 Kafka connect,支持 Kafka 集群的管理和數(shù)據(jù)復制,以及集群的運維。在運營數(shù)據(jù)庫上支持了完整的 ACID SQL 標準,支持二級索引,支持星型 Schema 等等。
在數(shù)據(jù)倉庫上,把 Hive 引擎用 Hive-on-Tez 替代來提供更好的ETL性能,同時支持 ACID 事務支持 ANSI 2016 SQL 標準,也做了很多性能的優(yōu)化。
在存儲上,通過 Ozone 可以提供 HDFS 30倍的擴展性,對 S3 原生遠程支持,同時可以和 Kafka、Nifi 集成。
在安全上,提供了基于 Knox 的網(wǎng)關 SSO,同時支持密鑰管理等等。

對于 HDP用戶來說,也獲取了大量的新功能。包括管理支持了計算和存儲分離的體系架構,支持自動傳輸加密以及針對管理員的細粒度 RBAC。
- 搜索上,提供了非結構化數(shù)據(jù)的搜索,比如文本圖像等等。
- 數(shù)據(jù)倉庫上,引入了 Impala 來提供交互式 BI 查詢的使用場景。
- 編輯控制器上,通過內(nèi)置 SQL 編輯器來自動完成智能查詢使用。
- 存儲上,引入了 Kudu 和 Ozone,Kudu 可以支持快速變化的數(shù)據(jù)的快速更新,以及更好的交互式查詢。
- 加密上,引入了自動傳輸加密以及 Ranger KMS 等能力。
前面簡單說了一下 CDP 平臺相對于 CDH/HDP 平臺增加的功能, CDP 平臺更多的價值,可以用這一張圖表來表示。

它提供了更高的分析性能,相對于以前的 CDH/HDP 平臺產(chǎn)品,它通過集成最新版的 Impala、Hive 和 Spark,可以帶給用戶兩倍的分析性能提升。同時通過 Cloudera Manager 的集群管理,來提供增強的集群管理和資源調(diào)度,減少了20%的資源使用。
通過在 CDP 平臺引入 Ozone 對象存儲和 HDFS 糾刪碼,可以提供5倍的存儲密度,使得用戶的存儲更具有成本效益。對于安全合規(guī)比較敏感的用戶,CDP 把已知的 CVE 都解決了。在最新的 CDP7.1.7里,有個用戶前一段時間剛進行了安全漏洞的掃描,沒有在 CDP 平臺上發(fā)現(xiàn)任何 CVE。發(fā)現(xiàn)的CVE基本上都是在上下游上面,該產(chǎn)品更符合用戶對安全合規(guī)的訴求。
最后一點是數(shù)據(jù)的安全治理,在 CDP 中通過引入新的 SDX 控制,包括默認拒絕、最低權限,策略標簽、可擴展審計、一致執(zhí)行等等,使得用戶減少50%的工作量,來緩解監(jiān)管合規(guī)性,大幅度降低任務、重載。

Cloudera 提供的安全解決方案是業(yè)界最完整最成熟的,它主要由4部分組成。第一塊是用戶的訪問邊界,通過認證、網(wǎng)絡隔離、用戶組映射等技術來決定用戶是否能夠訪問平臺,進到集群訪問之后的用戶可以根據(jù)他擁有的權限去訪問數(shù)據(jù)和應用,這主要是涉及到權限和授權相關的技術。當然,企業(yè)里面的數(shù)據(jù)要有可視性和可見性,需要知道數(shù)據(jù)從哪里來到哪里去,需要知道誰訪問了什么,這就是審計和血緣相關的概念。還有一塊就是數(shù)據(jù)的保護,防止不該訪問的人訪問,這里對應的是數(shù)據(jù)加密、數(shù)據(jù)標簽、數(shù)據(jù)掩碼等技術概念。
通過這樣4個模塊,Cloudera 提供了業(yè)界最完整最成熟的安全解決方案,使得企業(yè)可以更合規(guī)地去使用數(shù)據(jù)。
為什么選擇基于阿里云部署的 CDP
今年 Cloudera 已經(jīng)和阿里云兩家公司強強合作,推出了基于阿里云部署的 CDP 平臺。這個平臺除了具有 CDP 平臺的所有優(yōu)勢之外,還增加了阿里云公有云相關的一些優(yōu)勢。

首先是產(chǎn)品核心方面。第一,阿里云提供的 CDP 版本,是包含完整的CDP能力的 。第二,它基于多種規(guī)格,使得用戶可以選擇不同的套餐去構建使用。第三,Cloudera CDP 平臺和阿里云平臺產(chǎn)品集成互通,用戶可以在阿里云上直接一起使用阿里云其他的產(chǎn)品,同時它還提供了開箱即用的安全平臺,可以降低它的使用復雜度,也降低了運維成本。
其次是產(chǎn)品引擎與服務方面。第一,百分百兼容開源的 Hadoop,同時又通過兩家公司的聯(lián)合調(diào)優(yōu),使性能最優(yōu)。第二,它能提供給客戶7×24小時的專家支持服務和專業(yè)保障,使用戶可以輕松地對已有的 CDH/HDP 這些平臺來進行遷移,進行版本升級,參數(shù)調(diào)優(yōu)等工作。
基于阿里云部署的 CDP 平臺的整體架構是這樣的——底層平臺會使用阿里云的云盤、基于大數(shù)據(jù)的本地存儲、數(shù)據(jù)湖等數(shù)據(jù)存儲方式,計算層通過阿里云的 ECS 來擴展。在這之上,它通過 SDX 來管理所有數(shù)據(jù)的狀態(tài),通過 Cloudera Manager 來管理整個平臺,在上面提供基于數(shù)倉、數(shù)據(jù)湖、數(shù)據(jù)工程、流計算、運營數(shù)據(jù)庫等業(yè)務場景的能力。

客戶會問,我為什么要選擇基于阿里云部署的 CDP平臺?從成本上來講,用戶是有一定的成本支出,20%的成本增加帶來下列收益:
第一,用戶可以使用最新版的CDP平臺,這個平臺可以提供給用戶更多的開源組件,更高的版本,更穩(wěn)定可靠的軟件版本支持,同時覆蓋客戶從邊緣計算到人工智能的數(shù)據(jù)分析的應用場景。
第二,這個平臺可以提供給用戶企業(yè)級的服務支持,包括大數(shù)據(jù)專家服務,開箱即用的使用來降低運維成本。
第三,這個平臺可以提供更完整更成熟的安全治理管理方案,滿足企業(yè)的安全合規(guī)訴求。
同時,穩(wěn)定可靠的產(chǎn)品,還大大降低了運維的復雜度和成本,使得企業(yè)可以聚焦到業(yè)務應用,增強企業(yè)的業(yè)務領先性。
三、怎樣到達 CDP
到達 CDP 有哪些路徑
到達CDP主要有兩種方式,一種是原地升級,一種是遷移升級。
如何選擇使用自己的升級路徑

原地升級就是在原有的集群上直接做升級,優(yōu)點是不需要額外的硬件資源,缺點是升級過程中停機時間可能會比較長,有時候會影響客戶的 SLA。 第二原地升級所有的應用都要去驗證,相對來講比較復雜。哪一類客戶比較適合這種方式呢?一是沒有富余的主機資源,二是平臺上面的租戶比較少,可以接受較長時間的服務停機時間。
遷移升級是新搭建一個集群,然后把業(yè)務的老集群數(shù)據(jù)和應用分別拷貝到新集群上,最后把應用切換到新集群上。遷移升級有什么優(yōu)點?第一是不會產(chǎn)生數(shù)據(jù)丟失,不會影響已有的業(yè)務,它的服務停機時間較短,只會在兩者最終交接的瞬間發(fā)生停機,可能導致數(shù)據(jù)的不一致。缺點是它需要額外的硬件資源,同時需要遷移數(shù)據(jù),整體的遷移升級時間周期會比較長。
遷移升級比較適合的用戶,一是有豐富富余主機資源,例如阿里云上的用戶,通過這些主機資源,可以很容易地去做中間的集群。二是租戶多,時間難以協(xié)調(diào)一致的情況。對于云上的用戶或者線下用戶計劃向云上轉換的用戶也都比較合適這種用戶。

CDH/HDP 目前的版本支持了 CDH 和 HDP 所有版本,他們可以原地升級和遷移升級到CDP平臺。如果客戶不愿意選擇最新版本,就需要看一下對應版本的支持情況。
升級有哪些資源支持
現(xiàn)在在阿里云上推出來的是7.1.7版本,絕大部分用戶都可以來遷移和本地升級。那么升級的主要任務是什么?

先說一下原地升級。首先它是集群的本質(zhì)升級,會把已有的數(shù)據(jù)和 Schema 一次性升級到新的平臺 CDP 上。第二平臺上的應用腳本要做一些代碼改造,需要在新平臺上驗證使用確保沒問題,然后一起做代碼的改造替換,在新平臺上運行。原地升級支持 CDH5.1.3以上和 HDP2.6.5 以上的版本。
遷移升級和本地升級一樣,也涉及到歷史數(shù)據(jù)、Schema、批量腳本和外部應用四部分。但遷移升級的時候建議按照一個一個應用的方式來分批次進行遷移,而不需要一次性把所有東西都改造完然后一次性都遷移到新平臺上,可以按照應用分批進行。同時遷移升級的時候會把數(shù)據(jù)對應的腳本和外部應用做改造,使得它能夠在新平臺上使用。

Cloudera 在官網(wǎng)提供了很多升級指南,在一些公眾號宣傳材料里也有升級材料。它里面有安全安裝升級指南、升級的 companion、在線升級指南、遷移工作負載指南等等,同時用戶還可以和 Cloudera 的咨詢顧問來一起構建升級的規(guī)劃和實施。
四、基于阿里云部署的 CDP 的測試和使用
如何申請基于阿里云部署的 CDP 測試

在阿里云的官網(wǎng)的路徑為:產(chǎn)品->大數(shù)據(jù)->相關解決方案和生態(tài)產(chǎn)品->Cloudera企業(yè)數(shù)據(jù)云,這是Cloudera和阿里云合作平臺的入口。

阿里云上的CDP是基于阿里云部署的CDP平臺的半托管產(chǎn)品,用戶可以在上面管理整個平臺運用。

阿里云的 CDP 產(chǎn)品還能提供免費測試和試用。
鏈接如下:https://survey.aliyun.com/apps/zhiliao/owtTaIQU3
點擊之后會跳轉到產(chǎn)品免費試用申請,填寫對應的信息之后,阿里云的同事會來負責后續(xù)的申請審批,審批通過之后就可以獲取代金券來進行 CDP產(chǎn)品的試用。
基于阿里云部署的 CDP 開通流程
下面介紹一下阿里云CDP的使用方法。首先打開阿里云官網(wǎng),按照以下路徑:產(chǎn)品-大數(shù)據(jù)-相關解決方案和生態(tài)產(chǎn)品-cloudera企業(yè)數(shù)據(jù)云,點擊之后會跳轉到Cloudera產(chǎn)品頁,這里有產(chǎn)品的試用說明開通。后面需要填寫對應的信息來獲得試用產(chǎn)品資格,完成之后就可以開通使用它。
測試開通流程演示
在開通試用時,每個企業(yè)有一次試用的機會,可以在試用之后再選擇購買。購買支付完成以后,就能看到產(chǎn)品的管理頁,可以在已購買的產(chǎn)品服務里面找到我們剛購買的產(chǎn)品。

管理頁每個產(chǎn)品的右邊有一個免登按鈕,點擊免登就能進入 Cloudera 心選市場管理器,然后進入集群管理來配置整個集群。在集群配置里面,我們可以通過輸入一些信息來完成整個集群的環(huán)境搭建。例如集群的一些實例名稱,集群所在的區(qū)域,目前支持了華東、上海、北京、深圳4個區(qū)域。
然后配置整個集群的網(wǎng)絡環(huán)境,包括 VPC、安全組等信息。用戶可以選擇集成高安全和非安全的集群,根據(jù)自己的需求來選擇。
接下來部署 Cloudera Manager 管理員的登錄賬戶信息,輸入對應的賬戶和密碼登錄。然后選擇同意產(chǎn)品服務協(xié)議,確認創(chuàng)建集群。接下來系統(tǒng)會創(chuàng)建一個硬件的訂單,完成支付以后可以看到里面有5臺機器,3臺數(shù)據(jù)節(jié)點,1臺管理節(jié)點,1臺工具節(jié)點。刷新一下就可以看到整個集群的進程,它會自動部署,整個部署大概需要30分鐘。大家在部署過程中可以通過查看詳情來獲取進展,也可以看到整個集群的信息和主機列表等內(nèi)容。
部署完成以后,登錄控制臺來進行配置。將7180添加到安全組里面,也可以參考安全組的配置文檔來配置。完成之后,點擊確認,就可以通過端口登錄。

但此時用戶還沒有配置當前IP的訪問,所以用戶需要去做一點修改或新加一個安全規(guī)則,將7180賦給當前的IP段。我們這里賦給了0.0.0.0,使得所有用戶都可以訪問。最后刷新7180訪問入口,輸入 admin 用戶和密碼來使用集群。
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉載。

如若轉載,請注明出處:http://www.qjsdgw.cn/78612.html