亚洲 欧洲 日韩 综合色天使,久久国产Av无码一区二区老太,人妻醉酒被下药迷昏带到诊所 ,亚州老熟女A片AV色欲小说

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

螞蟻集團(tuán)的業(yè)務(wù)種類繁多,兼具金融級(jí)的“穩(wěn)” 和互聯(lián)網(wǎng)的 “快”,支撐又快又穩(wěn)的業(yè)務(wù)發(fā)展需要完善的穩(wěn)定性保障體系, 這個(gè)體系的基石就是可觀測(cè)性平臺(tái)-AntMonitor

早在2011年前,監(jiān)控平臺(tái)就已經(jīng)完成初代建設(shè),在2012到2017年這五年間,螞蟻監(jiān)控技術(shù)團(tuán)隊(duì)抽象出了業(yè)務(wù)視角監(jiān)控牽引的模式,大大提升了核心業(yè)務(wù)的故障發(fā)現(xiàn)能力,同期研發(fā)了可視化引擎與易用的配置系統(tǒng)。為了支撐雙11等大規(guī)模海量計(jì)算場(chǎng)景,在底層數(shù)據(jù)技術(shù)上做到了實(shí)時(shí)穩(wěn)定的大規(guī)模日志和指標(biāo)處理能力。隨著這些能力的完成,可觀測(cè)平臺(tái)的產(chǎn)品也逐漸成熟。

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

2017年后,整個(gè)螞蟻集團(tuán) 可觀測(cè)性能力逐步走向了全息化、數(shù)據(jù)化和智能化 。這一代整個(gè)團(tuán)隊(duì)除了繼承前幾年的平臺(tái)建設(shè)優(yōu)點(diǎn)之外,還著力解決了幾個(gè)方面的問(wèn)題,包括:

  • 完成從客戶端到服務(wù)端,從業(yè)務(wù)應(yīng)用到基礎(chǔ)設(shè)施的 一站式全場(chǎng)景監(jiān)控
  • 基于監(jiān)控的海量數(shù)據(jù), 實(shí)時(shí)數(shù)據(jù)探查和分析
  • AIOps 智能場(chǎng)景化 落地
螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

#1 特色產(chǎn)品能力

1. 全息可觀測(cè)

所謂的全息觀測(cè)能力, 能力上 融合各項(xiàng)可觀測(cè)能力(如指標(biāo)、trace、日志、性能分析); 覆蓋面上 可以做到一站式解決端到端的各類組件。這兩點(diǎn)共同解決了數(shù)據(jù)孤島的問(wèn)題。以前觀測(cè)類平臺(tái)往往是四分五裂的狀態(tài),所有平臺(tái)都嘗試從自身的角度出發(fā),去解決業(yè)務(wù)系統(tǒng)的觀測(cè)問(wèn)題。但是這樣最終帶來(lái)的是“斷頭路”的效果,數(shù)據(jù)只有真正能相互流通關(guān)聯(lián)的時(shí)候,才能真正發(fā)揮其作用。Google也在其論文中披露,其內(nèi)部監(jiān)控平臺(tái)也是從各個(gè)團(tuán)隊(duì)自行運(yùn)維的borgmon逐漸收攏到統(tǒng)一的平臺(tái)Monarch上,以解決在應(yīng)急和數(shù)據(jù)分析過(guò)程中跨組件,跨部門的隔閡。

就觀測(cè)能力而言, 每類觀測(cè)能力均有其優(yōu)勢(shì)與不足 。比如,指標(biāo)類數(shù)據(jù)是可以方便地展現(xiàn)一個(gè)實(shí)體(或大或?。╇S時(shí)間變化的趨勢(shì)。而日志能獲取明細(xì)數(shù)據(jù),在排查具體問(wèn)題的時(shí)候非常有用。trace的話往往是站在業(yè)務(wù)請(qǐng)求的角度,可以串聯(lián)這一次請(qǐng)求中的上下文。螞蟻在統(tǒng)一的觀測(cè)平臺(tái)上,逐步建立了以指標(biāo)和日志為主,trace為輔助的各種能力。并且更為關(guān)鍵的是,平臺(tái)很好地融合了這三方面的能力,使之能夠各取所長(zhǎng)。除了業(yè)界強(qiáng)調(diào)的可觀測(cè)能力三大支柱外,螞蟻的可觀測(cè)平臺(tái)還深度建設(shè)了性能分析能力和線上單機(jī)程序診斷能力。

1)日志、指標(biāo)和trace的融合產(chǎn)品

下圖上,我們可以看到底層的表格上均是關(guān)于錯(cuò)誤量級(jí)的指標(biāo)監(jiān)控,同時(shí)點(diǎn)開也能看到錯(cuò)誤的具體日志詳情,這里對(duì)日志做了大量的模式歸類、運(yùn)維維度的聚合。這極大提升了業(yè)務(wù)排障的效率。

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

2)一體化的性能分析產(chǎn)品

螞蟻的一線研發(fā)運(yùn)維,可以在平臺(tái)上直接或間接(通過(guò)告警自動(dòng)觸發(fā))做CPU的細(xì)粒度分析?;旧希脩艨梢詮暮暧^的指標(biāo)到精確的代碼行,都能得到定量分析。圖示為on cpu的火焰圖分析。

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

3)客戶端監(jiān)控能力 ,以某個(gè)小程序?yàn)槔?,端到端的?shí)現(xiàn)全面可觀測(cè)性覆蓋:

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

4)高效的觀測(cè)能力接入

在長(zhǎng)期的發(fā)展中,螞蟻監(jiān)控技術(shù)團(tuán)隊(duì)也發(fā)現(xiàn)需要被監(jiān)控的技術(shù)產(chǎn)品多種多樣,每次都單獨(dú)適配成本非常之高,因此通過(guò)定義一套通用的模型體系,滿足不同用戶需要,不僅能解決效能的提升,還可以建立統(tǒng)一的監(jiān)控?cái)?shù)據(jù)模型體系。技術(shù)上來(lái)講,主要是通過(guò)標(biāo)準(zhǔn)化、實(shí)體化和拓?fù)浠瘉?lái)解決這個(gè)問(wèn)題的。

首先是標(biāo)準(zhǔn)化 。技術(shù)棧模型方案,通過(guò)讓用戶自主的,標(biāo)準(zhǔn)的接入一個(gè)新產(chǎn)品,將所有能力開放給用戶,化被動(dòng)為主動(dòng),一方面為用戶提供豐富的開放性能力,另一方面也以一定的標(biāo)準(zhǔn)規(guī)范約束用戶。

第二是實(shí)體化 。平臺(tái)有能力讓了解每一個(gè)組件結(jié)構(gòu)模型的人,為每一個(gè)實(shí)體建立所需要的實(shí)體采集模板、展現(xiàn)模版和告警模版。下圖以內(nèi)部的分布式數(shù)據(jù)庫(kù) oceanbase 舉例,通過(guò)定義不同的實(shí)體模型就可以很清晰的了解它的拓?fù)淠P停ㄈ缦聢D),然后根據(jù)用戶的需要對(duì)不同的實(shí)體采集指標(biāo)數(shù)據(jù),并匯聚成不同維度的數(shù)據(jù)源,然后根據(jù)數(shù)據(jù)源定義不同的展現(xiàn)模版。

第三是拓?fù)潢P(guān)聯(lián)的處理 。不同的產(chǎn)品都有一定的依賴關(guān)系,我們?cè)跇?gòu)建實(shí)體模型的時(shí)候就已經(jīng)有能力做到這一點(diǎn)了。

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

有了前面幾點(diǎn)能力,具體操作層面用戶在接入一個(gè)新類型異構(gòu)的觀測(cè)實(shí)體的時(shí)候, 僅僅需要做三件事 :包括定義被觀測(cè)實(shí)體與它們之間的關(guān)系、定義實(shí)體之上的采集與計(jì)算規(guī)則、基于實(shí)體與其關(guān)系定義展現(xiàn)與告警模板。

2. 內(nèi)置數(shù)據(jù)智能

監(jiān)控的實(shí)時(shí)數(shù)據(jù)是實(shí)現(xiàn)AIOps的基礎(chǔ),在有了實(shí)時(shí)、全面、精準(zhǔn)的監(jiān)控?cái)?shù)據(jù)后,就可以在傳統(tǒng)監(jiān)控的基礎(chǔ)上構(gòu)建AIOps的數(shù)據(jù)平臺(tái),實(shí)現(xiàn)智能化應(yīng)用。

1)靈活的數(shù)據(jù)探索分析

數(shù)據(jù)分析視角中,最直觀的其實(shí)就是 查詢語(yǔ)言 。可觀測(cè)平臺(tái)內(nèi)部,對(duì)所有的結(jié)構(gòu)化數(shù)據(jù)分成了兩大類表: 時(shí)序表和維度表 。針對(duì)時(shí)序表,螞蟻監(jiān)控技術(shù)團(tuán)隊(duì)兼容了業(yè)界在指標(biāo)監(jiān)控領(lǐng)域比較流行的promQL,用戶可以直接提交進(jìn)行查詢。對(duì)于需要更豐富表達(dá)能力的分析訴求,平臺(tái)上針對(duì)維度表和時(shí)序表都可以執(zhí)行SQL查詢,包括復(fù)雜的互相join操作等均支持。

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

技術(shù)實(shí)現(xiàn)上,平臺(tái)對(duì)SQL和promQL的執(zhí)行在架構(gòu)上實(shí)現(xiàn)了“ 多模輸入、統(tǒng)一執(zhí)行 ”的結(jié)構(gòu)。首先在api層面,用戶對(duì)一個(gè)表(或者稱之為指標(biāo))既可以提交SQL 查詢和promQL查詢。兩者在語(yǔ)法解析層有各自獨(dú)立的實(shí)現(xiàn),但是在執(zhí)行層,都統(tǒng)一共享底層的spark、flink以及團(tuán)隊(duì)自研的時(shí)序數(shù)據(jù)庫(kù)CeresDB等基礎(chǔ)設(shè)施。

2)算法工程平臺(tái)

有了強(qiáng)大的數(shù)據(jù)能力后,監(jiān)控團(tuán)隊(duì)針對(duì)性地建設(shè)了重點(diǎn)的業(yè)務(wù)場(chǎng)景,同時(shí)也在領(lǐng)域內(nèi)落地了算法實(shí)驗(yàn)室,完成了整個(gè)數(shù)據(jù)算法智能化的內(nèi)部閉環(huán),包括算法的部署、訓(xùn)練、回歸,外部場(chǎng)景的管理和樣本數(shù)據(jù)的管理,以及用戶打標(biāo)數(shù)據(jù)的回流等。

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

3)技術(shù)風(fēng)險(xiǎn)場(chǎng)景智能化

在Antmonitor的提供的實(shí)時(shí)數(shù)據(jù)和AI工程能力之上,螞蟻監(jiān)控團(tuán)隊(duì)深度構(gòu)建了技術(shù)風(fēng)險(xiǎn)的各種場(chǎng)景智能化防控能力,為提升支付寶全局系統(tǒng)穩(wěn)定性做出了重要貢獻(xiàn)。

a.智能變更防御場(chǎng)景

經(jīng)過(guò)對(duì)螞蟻多年的故障分析,可以發(fā)現(xiàn)60%以上的故障都是人為變更導(dǎo)致的,因此沉淀了 智能分批監(jiān)控、錯(cuò)誤碼檢測(cè)、跨鏈路檢測(cè)、變更資損檢測(cè)、變更窗口檢測(cè) 等多種防御微服務(wù),包含6000多個(gè)防御規(guī)則,每天256萬(wàn)次自動(dòng)化的防御風(fēng)險(xiǎn)校驗(yàn),自從有了這套架構(gòu),每年變更故障下降50%左右。

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

b. 智能應(yīng)急定位場(chǎng)景

由于支付寶分布式系統(tǒng)規(guī)模龐大,一筆業(yè)務(wù)可能經(jīng)過(guò)數(shù)十個(gè)系統(tǒng),依賴的基礎(chǔ)設(shè)施也非常復(fù)雜,涉及相關(guān)人員很多,當(dāng)出現(xiàn)業(yè)務(wù)失敗時(shí),如何快速定位到具體的問(wèn)題節(jié)點(diǎn)并協(xié)調(diào)相關(guān)人員助力 解決問(wèn)題 ,就成為重要命題。因此產(chǎn)品基于監(jiān)控指標(biāo)和異常檢測(cè)算法,在檢測(cè)故障后在釘釘群自動(dòng)提示、展示故障信息、展示輔助定位信息、組織相關(guān)人員進(jìn)行相應(yīng)的應(yīng)急處理及善后,在部分場(chǎng)景實(shí)現(xiàn)了故障自愈。

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

c. 智能彈性容量場(chǎng)景

在螞蟻金融屬性業(yè)務(wù)高穩(wěn)定性和互聯(lián)網(wǎng)的業(yè)務(wù)復(fù)雜性要求下,往往造成經(jīng)典在線應(yīng)用利用率長(zhǎng)期低下,資源成本浪費(fèi)嚴(yán)重。但是 經(jīng)典的彈性伸縮無(wú)法滿足螞蟻的業(yè)務(wù)要求 ,主要原因之一是經(jīng)典彈性在線資源使用和利用率是無(wú)法通過(guò)簡(jiǎn)單的線性折算出來(lái),之二是彈性伸縮變更風(fēng)險(xiǎn)高,無(wú)技術(shù)風(fēng)險(xiǎn)控制手段,特別是縮容無(wú)風(fēng)控手段,異常會(huì)直接引發(fā)故障,之三是經(jīng)典在線的擴(kuò)縮容速度是需要十分鐘以上,擴(kuò)縮容無(wú)法滿足快速?gòu)椥缘脑V求。

經(jīng)過(guò)多年的摸索和落地實(shí)踐,螞蟻彈性容量 基于技術(shù)風(fēng)險(xiǎn)防控體系+云原生統(tǒng)一資源調(diào)度+數(shù)據(jù)智能 ,三者組充分結(jié)合,實(shí)現(xiàn)在穩(wěn)定性和成本優(yōu)化中取最大值。基于監(jiān)控大數(shù)據(jù)和機(jī)器學(xué)習(xí)算法、K8S、erviceMesh和技術(shù)風(fēng)險(xiǎn)防控技術(shù),建設(shè)了適合螞蟻的全局在線資源利用率無(wú)風(fēng)險(xiǎn)精確管理和全局容量異常自適應(yīng)體系。主要的核心技術(shù)有多階段伸縮、預(yù)測(cè)式伸縮、云原生分時(shí)調(diào)度技術(shù),這也是螞蟻綠色計(jì)算的核心技術(shù),目前 已經(jīng)將7件 “綠色計(jì)算” 相關(guān)專利無(wú)償開放。

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

3. Monitoring as a Service 能力開放

AntMonitor在針對(duì)可觀測(cè)性這個(gè)領(lǐng)域,在解決一些已知的、有共性的需求的時(shí)候,都產(chǎn)出了對(duì)應(yīng)產(chǎn)品能力。但是如何承載一些和外部系統(tǒng)(通常是SRE團(tuán)隊(duì))聯(lián)動(dòng)型的需求、偏領(lǐng)域定制需求等“未知”的需求,如何協(xié)同平臺(tái)生態(tài)仍然是巨大的問(wèn)題。

為此,在產(chǎn)品層面提出了建議 MaaS 的設(shè)想(Monitoring as a Service), 監(jiān)控能力服務(wù)化,開放、融合監(jiān)控能力到SRE各個(gè)領(lǐng)域,快速完成 SRE 場(chǎng)景建設(shè),沉淀可復(fù)用能力,主要包含以下 3 個(gè)業(yè)務(wù)目標(biāo):

  • 開放服務(wù)把監(jiān)控的計(jì)算、存儲(chǔ)、算法、視圖等等能力開放出來(lái)。
  • 促進(jìn)分析服務(wù)的標(biāo)準(zhǔn)化沉淀,讓更多的場(chǎng)景可以復(fù)用、共同建設(shè)這部分的能力。
  • 解決“監(jiān)”與“控”之間的鏈接問(wèn)題。
螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

技術(shù)實(shí)現(xiàn)層面,螞蟻監(jiān)控技術(shù)團(tuán)隊(duì)主要基于serverless能力,做了一個(gè)領(lǐng)域性的研發(fā)與運(yùn)行平臺(tái),讓用戶的定制化訴求能直接在這個(gè)平臺(tái)通過(guò)寫一段代碼的方式得到滿足。這里可以直觀地看到一個(gè)檢查變更的服務(wù)函數(shù)的產(chǎn)品效果:

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

螞蟻技術(shù)內(nèi)部的SRE、研發(fā)、質(zhì)量都可以在這樣的開放技術(shù)體系下,基于監(jiān)控的數(shù)據(jù)和智能化能力快速實(shí)現(xiàn)自己的個(gè)性化需求,目前平臺(tái)已經(jīng)有3萬(wàn)個(gè)API持續(xù)為各種應(yīng)用場(chǎng)景持續(xù)提供服務(wù)。

#2 平臺(tái)核心技術(shù)

1. 融合的時(shí)序數(shù)據(jù)平臺(tái)

前面敘述的整個(gè)螞蟻可觀測(cè)性平臺(tái)AntMonitor的所有產(chǎn)品功能均是基于團(tuán)隊(duì)研發(fā)的底層時(shí)序數(shù)據(jù)平臺(tái)pontus。這里的時(shí)序數(shù)據(jù)平臺(tái)是一個(gè)廣義的時(shí)序數(shù)據(jù)的綜合解決方案,可以看做是傳統(tǒng)的CMDB和時(shí)序數(shù)據(jù)的融合平臺(tái)。這個(gè)解決方案中,包括了對(duì)結(jié)構(gòu)化時(shí)序數(shù)據(jù)的統(tǒng)一建模,數(shù)據(jù)的采集、計(jì)算、存儲(chǔ)能力,以及數(shù)據(jù)的管理能力。具體可以參考如下大圖:

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

1)數(shù)據(jù)管理能力

在整個(gè)平臺(tái)僅面對(duì)指標(biāo)監(jiān)控的固定需求時(shí),對(duì)數(shù)據(jù)的管控訴求并沒有這么大。但是隨著上層觀測(cè)產(chǎn)品的日益豐富、數(shù)據(jù)冗余、數(shù)據(jù)口徑定義不清、數(shù)據(jù)的來(lái)源和存儲(chǔ)引擎的多樣化等現(xiàn)實(shí)情況,僅僅引擎層面提供的服務(wù)是不夠的。

AntMonitor底層的時(shí)序數(shù)據(jù)平臺(tái) pontus 經(jīng)過(guò)迭代,其數(shù)據(jù)管理能力也得到了不斷地增強(qiáng),從而形成了獨(dú)立的底層技術(shù)平臺(tái)。平臺(tái)的管理能力包括了對(duì)數(shù)據(jù)整個(gè)流轉(zhuǎn)過(guò)程的全方面管理,包括采集、計(jì)算、存儲(chǔ)、消費(fèi)等,是一個(gè)綜合性的解決方案能力。放眼業(yè)界,知名的云廠商也都演化出了其時(shí)序數(shù)據(jù)平臺(tái)或服務(wù),比如AWS的timestream和Azure的time series insight,它們都提供給了非常強(qiáng)的數(shù)據(jù)管理能力。

當(dāng)前,時(shí)序數(shù)據(jù)平臺(tái)管理的表數(shù)量已經(jīng)達(dá)到接近百萬(wàn)個(gè),支撐了螞蟻集團(tuán)所有時(shí)序類數(shù)據(jù)和元數(shù)據(jù)。

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

2)多維時(shí)序模型

如何用一個(gè)統(tǒng)一模型去組織這些數(shù)據(jù)呢?經(jīng)過(guò)考慮,團(tuán)隊(duì)決定讓平臺(tái)中的數(shù)據(jù)在技術(shù)上通過(guò)“表”來(lái)承載。業(yè)務(wù)上,考慮到數(shù)倉(cāng)領(lǐng)域已經(jīng)較為成熟,因此借鑒了其中一些理論, 多維時(shí)序模型其實(shí)就是數(shù)倉(cāng)中雪花模型的應(yīng)用 。

前面提到,時(shí)序數(shù)據(jù)平臺(tái)是一個(gè)傳統(tǒng)CMDB和時(shí)序數(shù)據(jù)的融合平臺(tái),其中就有兩類相輔相成的數(shù)據(jù),分別是元數(shù)據(jù)和時(shí)序指標(biāo)數(shù)據(jù)。 元數(shù)據(jù) 是業(yè)務(wù)、應(yīng)用、基礎(chǔ)設(shè)施自身的結(jié)構(gòu)描述,而 時(shí)序數(shù)據(jù) 是他們隨時(shí)間變化的狀態(tài)描述。因此,所有表又分為時(shí)序表和維度表。維度表用來(lái)承載元數(shù)據(jù),時(shí)序表用來(lái)存儲(chǔ)被監(jiān)控對(duì)象的時(shí)序觀測(cè)數(shù)據(jù),同時(shí)兩者之間可以進(jìn)行關(guān)聯(lián)。

最終,所有的數(shù)據(jù)都組成了一張大網(wǎng),同時(shí)做好了對(duì)任何系統(tǒng)的結(jié)構(gòu)描述與狀態(tài)描述。

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

有了這樣一個(gè)模型,平臺(tái)和上層的可觀測(cè)業(yè)務(wù)就能真正的解耦,底層平臺(tái)中不會(huì)再有任何與特定的、異構(gòu)的運(yùn)維實(shí)體或者公司的技術(shù)業(yè)務(wù)架構(gòu)綁定的概念。這也是前述技術(shù)棧產(chǎn)品接入能力的理論基礎(chǔ)。

3)海量數(shù)據(jù)處理架構(gòu)

整體上,可觀測(cè)平臺(tái)是一個(gè)需要實(shí)時(shí)處理巨量數(shù)據(jù)的(每分鐘40T 輸入數(shù)據(jù),200億個(gè)時(shí)序數(shù)據(jù)點(diǎn)寫入)垂直領(lǐng)域?qū)崟r(shí)數(shù)據(jù)平臺(tái)。 而且,本身螞蟻監(jiān)控技術(shù)團(tuán)隊(duì)服務(wù)的上層業(yè)務(wù)就是公司的SRE與穩(wěn)定性團(tuán)隊(duì),因此可以 說(shuō)是線上穩(wěn)定性的最后一道保障,需要在各種極端情況下保證這個(gè)實(shí)時(shí)系統(tǒng)自身的穩(wěn)定。 要在一套解決方案中同時(shí)做好實(shí)時(shí)性、穩(wěn)定性、低成本這三個(gè)點(diǎn),其基礎(chǔ)技術(shù)挑戰(zhàn)非常大。

整體運(yùn)行時(shí)架構(gòu)可以用下圖表達(dá):

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

在這套架構(gòu)中,我們使用了 regional的多活架構(gòu)。具體來(lái)說(shuō),regional 架構(gòu)是指,所有的日志采集和指標(biāo)采集的收集與解析層, 都是在機(jī)房?jī)?nèi)完成的,流量不出機(jī)房以減少對(duì)骨干網(wǎng)和專線的網(wǎng)絡(luò)壓力?;诖思軜?gòu),螞蟻監(jiān)控技術(shù)團(tuán)隊(duì)保障了在極端環(huán)境下的機(jī)房級(jí)甚至城市級(jí)的容災(zāi)能力。同時(shí)常態(tài)化的使用多種手段(比如單節(jié)點(diǎn)的資源負(fù)載調(diào)度,多集群的負(fù)載分發(fā)管理等),確保整體數(shù)據(jù)流量的持續(xù)穩(wěn)定使用。

在提升整體架構(gòu)的性能水平上,重點(diǎn)的工作是做了算子下推。這個(gè)操作的核心思想都是就近計(jì)算,通過(guò)調(diào)度計(jì)算邏輯,減少數(shù)據(jù)的搬運(yùn)。算子下推這個(gè)能力,經(jīng)過(guò)自動(dòng)化分析之后,甚至可能直接查詢agent的數(shù)據(jù);或者中心數(shù)據(jù)大規(guī)模聚合可以做到盡量分級(jí)提取,能在單機(jī)完成的聚合直接聚合給出部分結(jié)果再由中心聚合。

2. 高性能時(shí)序數(shù)據(jù)庫(kù)

隨著平臺(tái)對(duì)時(shí)序數(shù)據(jù)存儲(chǔ)能力的訴求不斷提高,AntMonitor團(tuán)隊(duì)在調(diào)研了各種開源的時(shí)序存儲(chǔ)之后,發(fā)現(xiàn)或多或少存在不滿足當(dāng)前業(yè)務(wù)訴求。在時(shí)序數(shù)據(jù)場(chǎng)景中,螞蟻集團(tuán)需要同時(shí)解決這個(gè)幾個(gè)問(wèn)題:

1)讀寫高吞吐與低成本

螞蟻的觀測(cè)平臺(tái)平時(shí)每分鐘都在產(chǎn)生200億個(gè)時(shí)序點(diǎn)上。如何提升極致的讀寫性能,甚至在雙十一這樣的業(yè)務(wù)峰值的時(shí)候,也能達(dá)到比較好的性能是一個(gè)重要的命題。而且,由于業(yè)務(wù)體量巨大,在解決吞吐問(wèn)題的時(shí)候,也需要考慮資源成本(機(jī)器)。

2)高可用能力

觀測(cè)系統(tǒng)是線上穩(wěn)定性的最后保障。時(shí)序數(shù)據(jù)庫(kù)作為觀測(cè)系統(tǒng)的存儲(chǔ)。必須保證在任何極端情況下都能持續(xù)穩(wěn)定提供服務(wù),典型場(chǎng)景比如單機(jī)不可用、機(jī)房斷網(wǎng)等。

3)多租戶與管控能力

這一點(diǎn),對(duì)于大型互聯(lián)網(wǎng)公司來(lái)說(shuō)也是很關(guān)鍵的。螞蟻的觀測(cè)數(shù)據(jù)也是分等級(jí)的,不同的租戶內(nèi)的管理需求,比如TTL、資源水位等都是不一樣的。

4)時(shí)序與分析能力融合

業(yè)界的時(shí)序產(chǎn)品,往往僅強(qiáng)調(diào)時(shí)序分析性能。但是我們?cè)谖浵伒挠^測(cè)平臺(tái)實(shí)踐中,除了要支持時(shí)序分析之外,還需要做大量大規(guī)模數(shù)據(jù)分析,基本等同于大數(shù)據(jù)中的AP場(chǎng)景。兩者的業(yè)務(wù)目標(biāo)不同,如何在同一套時(shí)序數(shù)據(jù)庫(kù)中同時(shí)完成,是一個(gè)業(yè)界暫時(shí)探索不多的命題。

最終,團(tuán)隊(duì)決定自研一款高性能的時(shí)序數(shù)據(jù)庫(kù),也就是Ceresdb。而上面說(shuō)的這些技術(shù)問(wèn)題,均在自研產(chǎn)品上得到了解決,Ceresdb目前已經(jīng)完整商業(yè)化,近期我們會(huì)將其核心代碼開源,貢獻(xiàn)給社區(qū)開放共建,希望能幫助到更多的業(yè)務(wù)場(chǎng)景。

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

3. 新硬件探索 – AEP

AEP是新型內(nèi)存介質(zhì)產(chǎn)品(數(shù)據(jù)可以持久化)。CeresDB 已經(jīng)有了純內(nèi)存時(shí)序數(shù)據(jù)庫(kù) MTSDB 用于緩存最新時(shí)間段的數(shù)據(jù)以提升查詢性能,但內(nèi)存是昂貴的,MTSDB 保存的數(shù)據(jù)時(shí)長(zhǎng)也受到了內(nèi)存的極大限制,很難保存超過(guò) 12 小時(shí)以上的數(shù)據(jù),而用戶的查詢需求越來(lái)越高,這部分?jǐn)?shù)據(jù)必須從更下層的分布式存儲(chǔ)讀取,時(shí)延相對(duì)較大,如果能將這部分?jǐn)?shù)據(jù)存儲(chǔ)在和內(nèi)存讀寫速度在一個(gè)量級(jí)的 AEP 中,那么無(wú)疑會(huì)給查詢體驗(yàn)帶來(lái)很大的提升。

實(shí)踐中,我們采用了 App Direct 模式,直接使用文件系統(tǒng) API 訪問(wèn) AEP,將 AEP 作為內(nèi)存之下的二級(jí)存儲(chǔ),從 MTSDB 淘汰的數(shù)據(jù)直接寫入 AEP,第三級(jí)為 OBKV。

目前 ceresdb 已經(jīng)在線上完成了部分集群的 AEP 試點(diǎn),從線上查詢觀察,查詢 RT 接近內(nèi)存,下一步將繼續(xù)努力優(yōu)化在 AEP 中的數(shù)據(jù)結(jié)構(gòu),提高壓縮比,降低存儲(chǔ)成本。

螞蟻平臺(tái)是做什么的公司(螞蟻平臺(tái)是做什么的軟件)

#3 總結(jié)和展望

業(yè)務(wù)訴求是技術(shù)發(fā)展的核心驅(qū)動(dòng)力 ,在螞蟻業(yè)務(wù)復(fù)雜多元、極高穩(wěn)定性、超大規(guī)模處理的要求下,多年持續(xù)的投入和打磨核心監(jiān)控系統(tǒng),逐漸演進(jìn)到了今天的技術(shù)架構(gòu)。同時(shí),我們也在不斷探索技術(shù)開放,通過(guò)技術(shù)開源、產(chǎn)品化等方式為更多的行業(yè)數(shù)字化轉(zhuǎn)型提供穩(wěn)定的底盤支撐。

在開源領(lǐng)域,我們的方向是兼容、提升與共享。在平臺(tái)發(fā)展的過(guò)程中兼容了大量業(yè)界的優(yōu)秀實(shí)現(xiàn),同時(shí)在公司超大規(guī)模的場(chǎng)景下,做出了大量的創(chuàng)新工作,比如多維時(shí)序模型、時(shí)序與分析融合的高性能時(shí)序數(shù)據(jù)庫(kù)等,形成一套領(lǐng)先的技術(shù)體系。后續(xù),我們?cè)诳捎^測(cè)領(lǐng)域的這些平臺(tái)與能力組件,都會(huì)逐步開源,首先將開源的是時(shí)序數(shù)據(jù)庫(kù)CeresDB,希望能不斷吸收業(yè)界同行的意見,也可以被更多業(yè)務(wù)場(chǎng)景所集成。

除了服務(wù)內(nèi)部,我們的可觀測(cè)平臺(tái)產(chǎn)品也在逐漸開展商業(yè)化探索。監(jiān)控平臺(tái)作為螞蟻技術(shù)風(fēng)險(xiǎn)商業(yè)化產(chǎn)品 TRaas 的關(guān)鍵產(chǎn)品,已經(jīng)輸出到數(shù)十家銀行、機(jī)構(gòu)。未來(lái),更多在螞蟻內(nèi)部監(jiān)控廣泛使用的技術(shù)能力,比如數(shù)據(jù)分析、智能檢測(cè)、AIOps應(yīng)用等,也將會(huì)通過(guò)各種產(chǎn)品形態(tài)進(jìn)行技術(shù)開放,對(duì)外賦能。

本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 sumchina520@foxmail.com 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。
如若轉(zhuǎn)載,請(qǐng)注明出處:http://www.qjsdgw.cn/79972.html