Google提出了三大革命性技術:
MapReduce BigTable GFS, 特點:
1. 降低成本,能用PC,不用高端機器。
2. 軟件容錯,硬件故障常態,保證軟件高可靠性。
3. 簡化並行分佈式計算,不關注節點同步和存儲。
Hadoop的功能與優勢
Hadoop=分佈式存儲+分佈式計算平臺
HDFS:海量數據存儲
MapReduce:並行處理框架,控制調度。
可以用來做大型數據倉庫。
Hadoop的一些開源工具:
HIVE:SQL語句轉Hadoop任務
HBASE:放棄事務,高擴展,提供數據隨機和實時讀寫。
zookeeper:監控Hadoop的節點狀態和維護。
Hadoop的安裝
- 準備Linux環境
- 安裝JDK
- 配置Hadoop
下載 hadoop 然後解壓縮:
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
tar -zxvf hadoop-1.2.1.tar.gz
conf文件夾下的hadoop-env.sh
這個文件主要是給hd提供相關環境配置,也可以理解為hd的自由環境配置文件,所以這裡也要配置java_home的環境
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
core-site.xml
hd會有兩個這種配置文檔,一個是core-default.xml,如果這個core-site文檔裡為空,則會去尋找core-default中的內容,所以兩個是類似的。具體參數配置可以參考:
http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml
hadoop.tmp.dir
/hadoop
dfs.name.dir
/hadoop/name
fs.default.name
hdfs://ubuntu:9000
hdfs-site.xml
這個文件同理配置
dfs.data.dir
/hadoop/data
mapred-site.xml
同樣,這是任務調度器的相關,hd就這三個配置文件比較重要。
mapred.job.tracker
ubuntu:9001
然後配置系統環境 /etc/profile
export HADOOP_HOME=/opt/hadoop-1.2.1
export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:${HADOOP_HOME}/bin:$PATH
配置完後source生效下
然後格式化hadoop
hadoop namenode -format
格式化完,運行:進入bin目錄輸入:start-all.sh,可以通過jps和命令行查看hadoop是否工作正常
閱讀更多 我的內容我做主 的文章