Hadoop入門筆記(安裝和配置)

Hadoop入門筆記(安裝和配置)

Google提出了三大革命性技術

MapReduce BigTable GFS, 特點:

1. 降低成本,能用PC,不用高端機器。

2. 軟件容錯,硬件故障常態,保證軟件高可靠性。

3. 簡化並行分佈式計算,不關注節點同步和存儲。

Hadoop的功能與優勢

Hadoop=分佈式存儲+分佈式計算平臺

HDFS:海量數據存儲

MapReduce:並行處理框架,控制調度。

可以用來做大型數據倉庫。

Hadoop的一些開源工具:

HIVE:SQL語句轉Hadoop任務

HBASE:放棄事務,高擴展,提供數據隨機和實時讀寫。

zookeeper:監控Hadoop的節點狀態和維護。

Hadoop的安裝

  1. 準備Linux環境
  2. 安裝JDK
  3. 配置Hadoop

下載 hadoop 然後解壓縮:

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz

tar -zxvf hadoop-1.2.1.tar.gz

conf文件夾下的hadoop-env.sh

這個文件主要是給hd提供相關環境配置,也可以理解為hd的自由環境配置文件,所以這裡也要配置java_home的環境

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64

core-site.xml

hd會有兩個這種配置文檔,一個是core-default.xml,如果這個core-site文檔裡為空,則會去尋找core-default中的內容,所以兩個是類似的。具體參數配置可以參考:

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml

hadoop.tmp.dir

/hadoop

dfs.name.dir

/hadoop/name

fs.default.name

hdfs://ubuntu:9000

hdfs-site.xml

這個文件同理配置

dfs.data.dir

/hadoop/data

mapred-site.xml

同樣,這是任務調度器的相關,hd就這三個配置文件比較重要。

mapred.job.tracker

ubuntu:9001

然後配置系統環境 /etc/profile

export HADOOP_HOME=/opt/hadoop-1.2.1

export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:${HADOOP_HOME}/bin:$PATH

配置完後source生效下

然後格式化hadoop

hadoop namenode -format

格式化完,運行:進入bin目錄輸入:start-all.sh,可以通過jps和命令行查看hadoop是否工作正常

Hadoop入門筆記(安裝和配置)


分享到:


相關文章: