03.01 Hive WordCount实现示例_技术 _ 頭條網

1. 启动metastore服务

<code> ./hive --service metastore &/<code>

2. 建表

创建一个行表，用于存储foobar.txt文件中的每行句子。

<code>create table tbl_line(line string) row format delimited fields terminated by '\\n';/<code>

3. 加载数据

将文件数据加载到hive表中。

<code>echo "Hadoop Common\\nHadoop Distributed File System\\nHadoop YARN\\nHadoop MapReduce " > /tmp/foobar.txt/<code>

<code>hive> load data local inpath '/tmp/foobar.txt' into table tbl_line;/<code>

加载的数据会放到Hadoop中/data/hive/warehouse/test.db目录下，/data/hive/warehouse是hive-site.xml配置的hive.metastore.warehouse.dir值, test是数据库名称, tbl_line是表名。

4. HQL

根据MapReduce方式我们需要将每行句子拆分成独立的单词，然后对单词汇总。

split(字符串，分割符) 函数：用于分割字符串, 返回一个数组explode(数组)函数：将数组中的每个元素展开成列

<code>hive> select split("hello world", " ") from tbl_line limit 1;OK["hello","world"]hive> select * from tbl_line;OKHadoop CommonHadoop Distributed File SystemHadoop YARNHadoop MapReduce# 将每行句子分割成每个单词数组hive> select split(line, " ") from tbl_line;OK["Hadoop","Common"]["Hadoop","Distributed","File","System"]["Hadoop","YARN"]["Hadoop","MapReduce",""]hive> select explode(split(line, " ")) from tbl_line;OKHadoopCommonHadoopDistributedFileSystemHadoopYARNHadoopMapReduce/<code>

<code># 创建一个单词表hive> create table tbl_word(word string);# 将每一行句子拆分成每个单词插入到表中hive> insert into table tbl_word select explode(split(line, " ")) as word from tbl_line;hive> select * from tbl_word;OKHadoopCommonHadoopDistributedFileSystemHadoopYARNHadoopMapReducehive> select word, count(*) as count from tbl_word group by word order by count desc;/<code>

使用Hadoop MapReduce需要写代码，然后执行jar包。使用Hive只需要写HQL就可以了。相比之下使用Hive SQL更简便。

5. 异常

FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient./hive --service metastore &Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$POSIX.stat(Ljava/lang/String;)Lorg/apache/hadoop/io/nativeio/NativeIO$POSIX$Stat; 此异常是最常见的异常，这里列举出现此异常的几个原因：有可能是hql语法有错误，确保语法是正确。hadoop 中lib/native有问题，把lib重命名成lib2，然后重启hadoop，再执行hive sql就好了，相当于不使用原生库了lib/native。不使用原生库hadoop就会报警告 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable ，先不用管这个警告。

1. 启动metastore服务

2. 建表

3. 加载数据

4. HQL

使用Hadoop MapReduce需要写代码，然后执行jar包。使用Hive只需要写HQL就可以了。相比之下使用Hive SQL更简便。

5. 异常

相關文章:

Hadoop数据仓库框架-Hive v3.1.2系统架构

hive复杂结构之array,map,struct

三分钟读懂hadoop、hbase、hive、spark分布式系统架构

Hive 热门数据分析面试题解析

数仓就这么难吗？那你可能是缺这两个：HBase+Hive

《大数据分析教程-Hive》

Hive SQL基本使用详解

03.05 Hive SQL基本使用详解

03.04 Hive 基础知识大补

03.01 Hive JDBC操作

01.29 Hive 用户指南 v1.0

01.29 2. HIVE 基本操作

优化 Hive ETL 任务(参数篇)

01.18 优化 Hive ETL 任务(参数篇)

大数据 Hive 笔记大全 收藏+转发+关注

java JDBC连接Impala（impala使用一篇解决）

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

12.24 60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

12.20 Hive 和 Impala的比较

11.24 美团 MySQL 数据实时同步到 Hive 的架构与实践

Hive 自定UDF函数，生成 32 位随机数

Hadoop 生态之 MapReduce 及 Hive 简介

hive的窗口函数

hive 基础SQL

hive on spark,spark sql 对比测试结果相差很大

知道hive的这些ddl和dml操作语句，离从一个小白变大神就不远了

【HIVE】不会Java也能操作Hadoop，常用HQL语句，收藏就是赚了。

【HIVE】程序员不会大数据Hadoop？你会SQL语句就学会一半了。

hive日期函数

Apache Hive 联邦查询（Query Federation）

Hive 体系

基于 Hive UDF 的机器学习算法工具 Apache Hivemall 荐

一个数据仓库时代开始——Hive

09.03 我自己总结的Pandas数据分析库的使用技巧（简洁）

Hadoop、Hive、Zookeeper、Pig、HBase和Mahout等，都要认真学习

了解hive的默认数据库：default数据库

hive分桶表创建表导入数据和删除数据操作

hive的分桶概念和数据导入

执行hive存储过程的hplsql的下载和安装

SQL使得Hive和SparkSQL使用存储过程

执行Hive存储过程的hplsql命令行使用方法

hadoop上gz压缩格式文件加载到hive表：数据分析87篇

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

大数据 Hive 笔记大全收藏+转发+关注

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪