騰訊技術工程運維技術沙龍精彩回顧

騰訊技術工程運維技術沙龍精彩回顧

7月28日,騰訊技術工程運維技術沙龍-深圳站在騰訊大廈2樓多功能廳舉行。現場集結了數十家知名企業的技術開發和運維小夥伴,通過5個小時的思維碰撞,運維人員和導師們一起打造了一場運維人的知識盛宴。

這次,我們請來了四位有豐富數據庫運維和優化經驗的嘉賓,為大家分享他們的技術經驗。

為了照顧更多沒到現場的朋友,我們聯合「騰訊大講堂」拍攝了嘉賓的分享視頻,各位可以直接點擊文章裡的小程序卡片即可觀看。

騰訊數據中心運維介紹

騰訊技術工程運維技術沙龍精彩回顧

熊操 騰訊華南廣佛片區運維負責人

一、數據中心運維工作

數據中心的運維框架分為3層,最下面是設備廠商,包含IT設備廠商、電力廠商和空調廠商,他們依託維保合同為數據中心運維團隊提供相應的維保服務。

數據中心運維團隊主要分為IT運維團隊和基礎設施運維團隊。

IT團隊主要負責服務器和網絡設備的日常運維,基礎設施團隊主要負責電力和製冷的運維。

這兩個團隊又向數據中心經理負責,數經將整個數據中心的運維能力打包向業務部門提供服務,保證業務在數據中心的安全。

騰訊技術工程運維技術沙龍精彩回顧

接下來導師從運維場景和基礎設施運維為我們詳細介紹了運維人員的日常工作

運維場景:設備搬遷-設備直配-設備保全-備件存放-IT故障處理

基礎設施運維:日常巡檢-設備維保-日常演練-高危巡檢-故障處理

二、業務重保支持

數據中心主要從以下四個方面配合業務重保:

應急保障-高危巡檢-機架電流統計分析-整體電力容量確認

騰訊技術工程運維技術沙龍精彩回顧

三、業務優化建議

第一個建議:重要的設備和群組要分開放置

①不要在同一個機架

②不要在相鄰的機架

③不要在同一列機架

④不要在同一個房間

第二個建議:電源故障莫忽視

①一個電源模塊告警後,雖然服務器還能正常工作,但可靠性已經嚴重降低

②收到電源模塊告警後,需及時更換避免服務器斷電停機

混合雲環境下監控系統建設的探索與實踐

騰訊技術工程運維技術沙龍精彩回顧

張波 虎牙直播運維研發架構師

一、開源監控系統對比

Zabbix--成熟度相對較高、但可擴展性不高

Prometheus-監控設計超前、成熟度不夠

Openfaclon-架構設計合理、產品活躍度強

Openfaclon的模塊設計

騰訊技術工程運維技術沙龍精彩回顧

改造後的Openfaclon

騰訊技術工程運維技術沙龍精彩回顧

二、TSDB(時序數據庫)

什麼是TSDB?

可以唯一標識的序列名/ID 及meta-data

一組數據點{timestamp, value}。

timestamp是一個Unix時間戳

TSDB的特點:

數據結構簡單

數據量大

寫多於讀95%+

TSDB的可伸縮性與可靠性:

使用Hbase作為存儲中心

無須採樣

支持上萬機器和上億數據點的採集

一個無狀態服務橫向擴展能力強

騰訊技術工程運維技術沙龍精彩回顧

三、監控系統的三個挑戰

①可伸縮性與可靠

24小時 平均查詢延遲10ms 200w+TPS/s 支持秒級存儲

7天數據平均查詢延遲50ms 100w+TPS/s 支持1分鐘存儲

永久存儲平均查詢延遲300ms 60W+TPS/s 數據降採樣

②使用者對監控系統的濫用

限制指標單週期上報上線:最高10000

上報數據按配額分配,超額告警,數據丟棄

不同監控數據存儲不同引擎

依賴監控數據的業務必須實現failover

根據元數據預測查詢數據量實現fastover

③成本控制:使用雲上資源提高系統彈性能力降低成本

集群混合雲部署集群

A集群自建方案,B集群公有云方案

A集群 元數據服務:elasticsearch

全量數據存儲引擎:openTSDB

B集群 元數據查詢引擎:SLS

26小時數據存儲引擎: datastore

7天數據存儲引擎: histsdb

多維數據查詢引擎:SLS

支撐10萬級設備的運營系統設計與實現

騰訊技術工程運維技術沙龍精彩回顧

王子勇 騰訊織雲Lite技術負責人

一、包系統精髓

早期的發佈方式&包系統的方式

早期的發佈方式:傳文件→執行命令

包系統的方式:創建版本→安裝/升級

包系統-後臺架構

SVN存儲&消息隊列&異步架構&緩存

騰訊技術工程運維技術沙龍精彩回顧

命令通道-後臺架構

騰訊技術工程運維技術沙龍精彩回顧

二、CMDB資源與流水線

為什麼需要CMDB資源模型?

基於文檔的部署

騰訊技術工程運維技術沙龍精彩回顧

基於腳本/定製流程的部署

①業務零開發成本

②極低操作門檻

③全局自動伸縮

④一人vs上千業務

流水線設計要點:

①用戶可創建流水線

②支持參數輸入

③支持參數傳遞 (管道的哲學)

④工具庫 (代碼複用)

⑤支持人工介入 (審批)

⑥支持失敗步驟重試

⑦執行節點橫向擴展

⑧數據運營 工具/流程耗時、成功率統計

支撐10萬級設備的運營系統設計與實現

騰訊技術工程運維技術沙龍精彩回顧

蔣常春 CDB運維負責人

一、CDB--雲數據庫 MySQL

老師詳細給學員們介紹了雲數據庫MySQL

騰訊技術工程運維技術沙龍精彩回顧

CBD平臺實例數目數萬個,機器數量上萬臺,人均運維實例10000個,每天都有設備故障。

平臺大了,問題成倍放大,每個組件、每項DBA工作,都要考慮平臺化、工具化。

二、優化思路

常老師從數據採集-告警收斂-系統集成-自動處理四個方面闡述了優化的思路

告警收斂可以從收斂的目標和收斂的方向去規避和優化

騰訊技術工程運維技術沙龍精彩回顧

數據採集之後上報收斂,實現告警自動化

騰訊技術工程運維技術沙龍精彩回顧

三、技術方案

監控和數據拉取:Python、Go

存儲:Elasticsearch、Redis、CDB

Web server:Flask

Frontend:Vue.js

前後端分離,數據API化

四位導師在本次沙龍分享的內容乾貨滿滿,期待未來可以在多個城市與更多的技術人見面。

下一站,再見!

騰訊技術工程運維技術沙龍精彩回顧

溫馨提示:

需要獲取四位導師現場PPT的同學請在「騰訊技術工程」公眾號後臺回覆關鍵字“沙龍PPT”即可獲取下載地址


分享到:


相關文章: