超詳細教程,kettle ETL mysql到hadoop hive數據抽取,值得收藏

那麼如何將mysql數據導入到hive裡呢,kettle裡有自帶方法,可以通過表輸入和表輸出來實現,不過自帶的方法載入數據極其緩慢,不推薦使用這種方法。

1、hive建表

超詳細教程,kettle ETL mysql到hadoop hive數據抽取,值得收藏

注意hive表使用“^”作為分隔符,這個可以更具實際情況來。

2、mysql到hdfs輸出

超詳細教程,kettle ETL mysql到hadoop hive數據抽取,值得收藏

轉換

超詳細教程,kettle ETL mysql到hadoop hive數據抽取,值得收藏

超詳細教程,kettle ETL mysql到hadoop hive數據抽取,值得收藏

超詳細教程,kettle ETL mysql到hadoop hive數據抽取,值得收藏

超詳細教程,kettle ETL mysql到hadoop hive數據抽取,值得收藏

超詳細教程,kettle ETL mysql到hadoop hive數據抽取,值得收藏

內容這兒可以選擇相應分隔符來對數據分隔操作,頭部一定要去掉,不然導入hdfs時會將表頭的字段名一起導入,還有編碼最好是換成utf-8保證中文的使用

超詳細教程,kettle ETL mysql到hadoop hive數據抽取,值得收藏

字段這兒要先獲取字段,然後先關字段要選擇對應格式,比如我這兒id是001,就要選為#格式,不然會使最後hive導入的id這兒為null,日期也是。

3、將hdfs文件導入到hive數據庫裡

超詳細教程,kettle ETL mysql到hadoop hive數據抽取,值得收藏

超詳細教程,kettle ETL mysql到hadoop hive數據抽取,值得收藏

超詳細教程,kettle ETL mysql到hadoop hive數據抽取,值得收藏

超詳細教程,kettle ETL mysql到hadoop hive數據抽取,值得收藏

左邊為原始目錄也就是存放hdfs文件的地址,後面是hive數據庫文件目錄的地址,如果需要直接替換hive裡面的內容在設置裡勾選替換就可以了。

----------------------------------本文結束---------------------------------


分享到:


相關文章: