flume上傳到hdfs:
當我們的數據量比較大時,比如每天的日誌文件達到5G以上
使用hadoop的put命令不穩定
後期考慮引入新的日誌上傳框架flume
source類:
exec 監控文件:tail -f /opt/apps/nginx-1.12.2/logs/access.log (nginx日誌目錄)
Spooling Directory 監控目錄:spoolDir=/opt/apps/nginx-1.12.2/logs(nginx日誌目錄)
channel類:
memory: 比較吃內存,但是速度比較快,數據不安全
file:文件比較安全,但是傳輸速度較慢
sink類:
hdfs:離線分析以及數據備份
kafka:流式計算 storm/spark
1. 到flume的conf目錄下
2. 寫入內容
2.配置參數:參考之前到HDFS目錄
3.運行
<code>bin/flume-ng agent -n a1 -c conf -f conf/put_nginxlog_hdfs.properties -Dflume.root.logger=INFO,console/<code>
也可以定義一個crontab定時調度
啟動nginx
訪問nginx
然後去hdfs上查看
日誌已經上傳到hdfs上了