Apache CarbonData是华为开发的并贡献给Apache基金会的开源项目。他是基于一系列列式存储、索引、压缩及编码技术而设计的大数据文件存储格式，其出现能够使PB级别的大数据量查询OLAP分析速度提升一个档次。具体详见官方文档。

1.编译

github下载carbondata 1.1.0 源码，

开始编译：

mvn clean package -DskipTests -Pwindows -Pspark-1.6 -Dspark.version=1.6.1 -Dhadoop.version=2.6.0

编译报错：

[ERROR] Failed to execute goal org.scala-tools:maven-scala-plugin:2.15.2:compile (default) on project carbondata-spark-common: wrap: org.apache.commons.exec.ExecuteException: Process exited with an error: 1(Exit value: 1) -> [Help 1]

[ERROR]

原因：因为spark版本和carbondata 不对应的导致的; 修改spark版本或者是换carbon的版本。

2.安装

参考官网

1. Build the CarbonData project and get the assembly jar from ./assembly/target/

scala-2.1x/carbondata_xxx.jar and copy to $SPARK_HOME/carbonlib folder.

NOTE: Create the carbonlib folder if it does not exists inside $SPARK_HOME path.

2. Copy the ./conf/carbon.properties.template file from CarbonData repository to

$SPARK_HOME/conf/ folder and rename the file to carbon.properties.

3. Create tar.gz file of carbonlib folder and move it inside the carbonlib folder.

cd $SPARK_HOME

tar -zcvf carbondata.tar.gz carbonlib/

mv carbondata.tar.gz carbonlib/

4.修改配置

4.1.与spark的相关配置没有配，直接加到spark-shell 的命令后面了。

4.2.Add the following properties in $SPARK_HOME/conf/carbon.properties

#Mandatory. Carbon Store path

carbon.storelocation=hdfs://nameservice1/carbondata/store

#Base directory for Data files

carbon.ddl.base.hdfs.url=hdfs://nameservice1/carbondata/data

#Path where the bad records are stored

carbon.badRecords.location=hdfs://nameservice1/carbondata/data-bad

3.案例测试:

3.1.使用spark-shell测试是否安装成功。

#执行shell脚本

spark-shell --master yarn-client \

--queue default \

--driver-memory 4g \

--num-executors 10 \

--executor-memory 12g \

--executor-cores 2 \

--conf spark.executor.extraJavaOptions="-XX:PermSize=128M -XX:MaxPermSize=128m -XX:+UseParallelOldGC -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps" \

--confspark.executor.extraJavaOptions="-Dcarbon.properties.filepath=/usr/local/spark/conf/carbon.properties" \

--confspark.driver.extraJavaOptions="-Dcarbon.properties.filepath=/usr/local/spark/conf/carbon.properties" \

--confspark.driver.extraClassPath="/usr/local/spark/carbonlib/*" \

--confspark.executor.extraClassPath="/usr/local/spark/carbonlib/*" \

--confspark.yarn.dist.files="/usr/local/spark/conf/carbon.properties" \

--confspark.yarn.dist.archives="/usr/local/spark/carbonlib/carbondata.tar.gz" \

--jars /usr/local/spark/carbonlib/carbondata_2.10-1.1.0-shade-hadoop2.6.0.jar,$HIVE_HOME/lib/mysql-connector-java-5.1.36.jar,$HIVE_HOME/lib/datanucleus-api-jdo-3.2.6.jar,$HIVE_HOME/lib/datanucleus-core-3.2.10.jar,$HIVE_HOME/lib/datanucleus-rdbms-3.2.9.jar

import org.apache.spark.sql.CarbonContext

创建cc的两种方式：

(1).#第一个目录是hdfs，第二个目录是本地目录（元数据保存在本地文件）

scala> val cc = new CarbonContext(sc, "hdfs://nameservice1/carbondata_test", "/home/hadoop/carbondata_meta2")

(2).#使用默认配置,与hive集成把metadata存储在mysql中 (首先spark要与hive集成)

scala> val cc = new CarbonContext(sc, "hdfs://nameservice1/carbondata_test")

cc.sql("""CREATE TABLE IF NOT EXISTS test_table(

id string,

name string,

city string,

age Int)

STORED BY 'carbondata'""")

cc.sql("LOAD DATA INPATH 'hdfs://nameservice1/kyrie/sample.csv' INTO TABLE test_table")

sample.csv文件内容：

id,name,city,age

1,xiaojiang,beijing,18

2,dayue,beijing,20

3,xx,shanghai,22

scala> cc.sql("select * from test_table2").show(10)

+---+---------+--------+---+

| id| name| city|age|

+---+---------+--------+---+

| 1|xiaojiang| beijing| 18|

| 2| dayue| beijing| 20|

| 3| xx|shanghai| 22|

+---+---------+--------+---+

3.2.carbondata数据交互

CarbonData支持两种方式的数据导入，分别为：

- 直接通过CSV文件导入CarbonData表（3.1中说过）

- 通过spark-sql API导入

#cc读取parquet文件

scala> val un = cc.read.parquet("/kyrie/unliver/gray/4/2/standard")

#写到carbondata

scala> un.write.format("carbondata").option("tableName", "asset_unilever").option("compress", "true").option("tempCSV", "false").save()

读取carbondata数据：

// use datasource api to readval in = cc.read.format("carbondata").option("tableName", "carbon1").load()

分享到:

閱讀更多 從大數據說起 的文章

關鍵字: 存储数据量 Apache

编译安装 spark 1.6.1 +carbondata 1.1.0

1.编译

2.安装

3.案例测试:

相關文章:

编译安装 spark 1.6.1 +carbondata 1.1.0

1.编译

2.安装

3.案例测试:

相關文章:

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

第一章 Spring Framework概述

opencv人工智能深度学习这样实现人脸的年龄检测

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

深入了解ProcessFunction的状态操作(Flink-1.10)

Redis内存分析工具--rdr安装与使用

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

一行代码提升迁移性能

利用相似几何信息，做可泛化3D形状分割模型

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

分布式缓存，真香

特征工程的力量

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

SpringBoot如何优雅的使用RocketMQ

css代码规范工具stylelint

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪