大數據之智能日誌分析系統的思考科技頭條網

2018-02-24 13:47:39 我的瀋陽

利用機器幫助運維人員實現日誌分析，發現問題，提出解決方案是我比較感興趣的一個方面，下面的系列文章，我準備從這個方向入手，嘗試構建智能日誌分析系統，並把系統構建中的點滴記錄下來分享給每一位兄弟姐妹。在系統的構建過程中，也希望得到大家的指導、幫助。

日誌數據作為IT系統重要的一種數據源，一直是分析問題、解決問題最直接的手段。

在日常運維中，大量的機器日誌使得處理問題、追蹤日誌變得困難重重，因為產生了大量處理日誌的工具，ELK(ElasticSearch,LogStash,Kibana)就是一款開源日誌分析軟件，ELK非常強大且有效，他可以實現日誌數據的收集、過濾、可視化等。

但在使用ELK的過程中有一個非常重要的問題，那就是ELK非常依賴使用者的知識體系，我們必須告訴ELK我們想要什麼、數據在哪裡，ELK才能按照我們的要求查詢並可視化數據，對那些我們不瞭解的就無能為力了。

近些年來機器學習算法已經被證明在解決某些複雜問題上是確實可行的。從手寫體識別到汽車自動駕駛、從垃圾郵件過濾到醫學診斷，機器學習已經在眾多需要行業專家的領域提供瞭解決方案。

監督型機器學習

在眾多的機器學習算法中，監督型機器學習是數據科學中最強有力的工具之一。

監督型機器學習的基本原理是“利用樣本數據進行學習”，算法依賴於問題領域相關的數據以及數據的標籤（元數據）。

例如：圖像識別中，照片（本質上是一組像素）就是領域數據，同時我們還提供一個標籤用於表示照片的含義，照片是一隻貓、一輛車等。

在監督學習中為數據加標籤(標記數據)是一個很重要的部分，他直接影響到輸出結果的質量。

通過這種方式機器學習算法能夠篩選大量數據，建立必要的相關性，從而推斷出數據之間的相互依賴管理。

在日誌處理過程中，我們可以利用分類器標記出我們“感興趣的數據”。

基於上述理論，日誌分析其實可以劃分為分類問題，從而拆分為：

1、創建數據標籤庫

2、訓練分類器

1如何創建標籤庫？

日誌關聯性問題是一個重要的問題，某個日誌條目可能對某個用戶或事件非常有用，但對另外一些用戶或事件則毫無意義。而且，在數據標記過程中“感興趣的數據”有可能無法被正確標記,或者數據就被丟棄掉了。

關注用戶行為

我們可以收集用戶使用我們軟件的交互行為。關注哪些告警、查看了哪些日誌、創建了哪些數據的圖表等等。這些交互行為都可以表明什麼是用戶關心、哪些是對用戶重要的。另外，不同行業、不同領域的客戶對我們獲取用戶行為是有非常重要幫助的。

獲取網絡公共資源，例如公共問答網站

例如：Stack Overflow, GitHub,甚至WiKi,百度知道等站點都包含大量的知識，這些知識可以用來評估日誌是否重要甚至是日誌根因的解決方法。

利用這些資源我們可以構建出非常豐富的標記日誌數據集，以及有關日誌相關性，頻度的元數據，甚至可以給出解決問題的方案。

2如何訓練分類器？

當我們有了充足的日誌數據以及相應的標籤，我們就可以構建日誌分類器了。

分類器可以有很多方式Linear Support Vector Machines(SVM)，SVM簡單易證明。

關於SVM可參考：

http:// www.cs.cornell.edu/people/tj/publications/joachims_98a.pdf
https:// zh.wikipedia.org/wiki/%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA

另一種可行的分類器是隨機森林，隨機森林特別適用於特徵分類（非數值）的情況。

關於隨機森林：

https:// www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

從局部看分類器簡單，但是如果將TB級別的數據，以及所有用戶的交互行為組合到一起就可以形成龐大的關聯信息，從而訓練出強力的機器學習代碼，從而實現智能日誌分析。

分享到:

閱讀更多 我的瀋陽 的文章

關鍵字: 構建 ElasticSearch 系統

大數據之智能日誌分析系統的思考

相關文章:

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

為什麼馬鈴薯不宜過早過遲播種？

疫情愈發嚴重，原油為何反而大漲？

生菜球很好吃，怎麼種植才能高產呢？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？ ？

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

書友們展示一下自我感覺發揮較好的作品，一起學習？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？