大數據系列：Spark 常用數據格式介紹CSV、JSON、Avro、Parquet

2019-11-11 15:44:19 數據大視界

Spark 常用文件格式

介紹：

Apache Spark支持許多不同的數據格式，例如無處不在的CSV格式和Web友好的JSON格式。主要用於大數據分析目的的常見格式是Apache Parquet和Apache Avro。

在本文中，我們將使用Apache Spark來介紹這四種格式的特性-CSV，JSON，Parquet和Avro。

CSV

CSV（逗號分隔值）文件通常用於在使用純文本的系統之間交換表格數據。CSV是基於行的文件格式，這意味著文件的每一行都是表中的行。基本上，CSV包含一個標題行，該標題行提供了數據的列名，否則，文件被認為是部分結構化的。

CSV文件最初不能顯示層次結構或關係數據。數據連接通常使用多個CSV文件進行組織。外鍵存儲在一個或多個文件的列中，但是這些文件之間的鏈接不是由格式本身來表示的。另外，CSV格式尚未完全標準化，因此文件可以使用逗號以外的定界符，例如製表符或空格。

CSV文件的其他屬性之一是，僅當它是未壓縮的原始文件或使用可拆分壓縮格式（例如bzip2或lzo）時，它們才可以拆分（注意：lzo需要索引才能可拆分！）。

好處：

·CSV是人類可讀的，並且易於手動編輯。

·CSV提供了簡單明瞭的信息模式。

·幾乎所有現有應用程序都能處理CSV。

·CSV易於實現和解析。

·CSV緊湊。對於XML，您可以為每行中的每一列添加開始標籤和結束標籤。在CSV中，您只需寫入一次列標題。

缺點：

·CSV允許使用平面數據。除了格式外，還需要處理複雜的數據結構。

·不支持列類型。文本列和數字列之間沒有區別。

·沒有表示二進制數據的標準方法。

·導入CSV的問題（NULL和引號之間沒有區別）。

·特殊字符支持差。

·缺乏通用標準。

儘管存在侷限性，但CSV文件還是數據共享的流行選擇，因為它們得到了廣泛的業務應用程序，消費者和科學應用程序的支持。同樣，大多數批處理和流數據處理模塊（例如Spark和Hadoop）最初都支持CSV文件的序列化和反序列化，並提供了在讀取時添加架構的方法。

JSON格式

JSON數據（JavaScript對象表示法）以部分結構化格式表示為鍵值對。JSON通常與XML進行比較，因為它可以按分層格式存儲數據。子數據由父數據顯示。兩種格式都是自描述的，並且可由用戶讀取，但是JSON文檔通常要小得多。因此，它們更常用於網絡通信中，尤其是隨著基於REST的Web服務的出現。

由於許多數據傳輸已經使用JSON格式，因此大多數Web語言最初都支持JSON或使用外部庫對JSON數據進行序列化和反序列化。由於有了這種支持，JSON通過顯示數據結構，熱數據的交換格式和冷數據存儲以邏輯格式使用。

許多批處理和流數據處理模塊本機支持JSON序列化和反序列化。儘管JSON文檔中包含的數據最終可以以性能更優化的格式（例如Parquet或Avro）存儲，但它們提供原始數據，這對於重新處理數據非常重要（如有必要）。

JSON文件具有以下優點：

·JSON支持分層結構，簡化了一個文檔中相關數據的存儲和複雜關係的表示。

·大多數語言都提供簡化的JSON序列化庫或對JSON序列化/反序列化的內置支持。

·JSON支持對象列表，有助於避免列表到關係數據模型的錯誤轉換。

·JSON是NoSQL數據庫（例如MongoDB，Couchbase和Azure Cosmos DB）廣泛使用的文件格式。

·當今大多數工具中的內置支持。

Parquet

Parquet於2013年推出，由Cloudera和Twitter開發，用作基於列的存儲格式，已針對多列數據集進行了優化。由於數據是按列存儲的，因此可以進行高度壓縮（壓縮算法對信息熵較低的數據（通常包含在列中）的性能更好），並且可以拆分。該格式的開發者聲稱，這種存儲格式非常適合大數據問題。

與CSV和JSON不同，Parquet文件是二進制文件，其中包含有關其內容的元數據。因此，無需讀取/解析文件的內容，Spark可以僅依靠元數據來確定列名稱，壓縮/編碼，數據類型，甚至一些基本統計信息。Parquet文件的列元數據存儲在文件的末尾，從而可以進行快速的一次性寫入。

Parquet針對“一次寫入多次讀取”（WORM）範例進行了優化。寫起來很慢，但是讀起來卻快得令人難以置信，尤其是當您僅訪問總列的一個子集時。對於需要大量讀取的工作負載，鑲木地板是一個不錯的選擇。對於需要對整行數據進行操作的用例，應使用CSV或AVRO之類的格式。

Parquet中數據存儲的優點：

·Parquet是一種柱狀格式。僅需要的列將被獲取/讀取，這減少了磁盤I / O。這個概念稱為投影下推。

·模式隨數據一起移動，因此數據是自描述的。

·儘管事實是它是為HDFS創建的，但數據仍可以存儲在其他文件系統中，例如GlusterFs或NFS之上。

·Parquet只是文件，這意味著可以輕鬆使用它們，移動，備份和複製它們。

·開箱即用的Spark內部支持提供了將文件簡單地保存並保存到存儲中的功能。

·即使使用像Snappy這樣的壓縮格式，Parquet也可以提供高達75％的極佳壓縮率。

·如實踐所示，與其他文件格式相比，此格式是讀取工作流最快的格式。

·Parquet非常適用於需要對大量數據的某些列進行聚合的數據倉庫類型的解決方案。

·可以使用Avro API和Avro Schema（可以將所有原始數據存儲為Avro格式，但將所有處理後的數據存儲在Parquet中）來讀取和寫入Parquet。

·它還提供謂詞下推，從而進一步降低了磁盤I / O成本。

謂詞下推/過濾下推（Predicate Pushdown/Filter Pushdown）

謂詞下推的基本思想是可以將查詢的某些部分（謂詞）“推送”到存儲數據的位置。例如，當我們提供一些過濾條件時，數據存儲將在從磁盤讀取數據時嘗試過濾記錄。

謂詞下推的優點是更少的磁盤I / O發生。結果，性能更好。否則，整個數據將被帶入內存，然後進行過濾，這將導致大量的內存需求。

此優化可以通過較早而不是稍後過濾掉數據來大大減少查詢/處理時間。根據處理框架的不同，謂詞下推可以通過執行以下操作來優化查詢，例如在通過網絡傳輸之前過濾數據，在加載到內存之前過濾數據或跳過讀取整個文件或文件塊的操作。

大多數RDBMS都遵循此概念，Parquet和ORC等大數據存儲格式也遵循此概念。

投影下推（Projection Pushdown）

從數據存儲中讀取數據時，根據查詢，僅將讀取那些必需的列；並非所有字段都將被讀取。通常，Parquets和ORC之類的列格式遵循此概念，從而產生更好的I / O性能。

Avro

Apache Avro由Hadoop工作組於2009年發佈。它是一種基於行的格式，可高度拆分。它也被描述為類似於Java序列化的數據序列化系統。模式以JSON格式存儲，而數據以二進制格式存儲，從而最大程度地減小了文件大小並提高了效率。

Avro通過管理添加的字段，缺少的字段和已更改的字段，為模式演變提供了強大的支持。這使舊軟件可以讀取新數據，而新軟件可以讀取舊數據-如果您的數據有可能更改，則這是一項關鍵功能。

藉助Avro的模式架構管理能力，可以在不同時間獨立更新組件，從而降低不兼容風險。這使應用程序不必編寫if-else語句來處理不同的架構版本，並且使開發人員不必查看舊代碼來理解舊架構。

由於架構的所有版本都存儲在人類可讀的JSON標頭中，因此很容易理解所有可用字段。

Avro可以支持許多不同的編程語言。因為架構是在數據以二進制形式存儲時以JSON格式存儲的，所以Avro是持久性數據存儲和電匯的相對緊湊的選擇。由於Avro易於附加新行，因此它通常是繁重的寫工作負載的首選格式。

好處：

·Avro是與語言無關的數據序列化。

·Avro將模式存儲在文件的標題中，以便數據可以自我描述。

·Avro格式的文件可拆分且可壓縮，因此非常適合在Hadoop生態系統中進行數據存儲。

·用於讀取Avro文件的架構不必與用於寫入文件的架構相同。這樣就可以獨立添加新字段。

·與序列文件一樣，Avro文件也包含用於分隔塊的同步標記。這使其高度可拆分。

·可以使用諸如snappy之類的壓縮格式來壓縮這些塊。

總結

格式比較

*當壓縮為CSV時，JSON具有可拆分性相同的問題，但有一個額外的區別。當“ wholeFile”選項設置為true時（例如：SPARK-18352），JSON不可拆分。

1. CSV通常應該是最快寫入的。JSON應該是人類最容易理解的。Parquet應該是最快讀取列的一個子集，而Avro應該是最快讀取一次所有列的。

2. JSON是用於在網絡上進行通信的標準。由於API和網站的可用性屬性（如定義良好的架構），它們一直在使用JSON進行通信。

3. Parquet和Avro絕對針對大數據需求進行了優化，包括可拆分性，壓縮支持，對複雜數據結構的強大支持。不幸的是，可讀性和寫入速度都非常差。

譯自：dzone

如果發現任何不正確的地方，或者想分享有關上述主題的更多信息，歡迎反饋。

分享到:

閱讀更多 數據大視界 的文章

關鍵字: 系列數據結構 JSON

5分鐘！就能學會以太坊 JSON API 基礎知識

前後端分離中，使用 JSON 格式登錄原來這麼簡單！

一個超級好用的json插件，JSON-handler，顯著提高工作效率

JSON 使用大全

微信小程序全局配置文件app.json

在嗎？認識一下JWT(JSON Web Token)？

前端如何做大量的數據校驗？json schema配置詳解

03.07 前端如何做大量的數據校驗？json schema配置詳解

03.04 初識JWT(Json Web Tokens) 認證一二三

手把手教你實現一個 JSON 解析器

Json、Map、Object之間的互相轉換，你知道嗎

02.19 JSON.stringify方法的5個祕密功能

JSON.stringify方法的5個祕密功能

「json&pickle」dumps,loads,dump,load的區別

一分鐘簡單瞭解 JSON Web Token

基於Linux、C、JSON、Socket的編程實例

請不要在 JDK 7+ 中使用這個 JSON 包了

深入淺出：JWT(JSON Web Token)鑑權

JSON 數據計算與入庫

Typescript tsconfig.json 詳解

JSON——IT技術人員都必須要了解的一種數據交換格式

Spring Security 前後端分離登錄，非法請求直接返回 JSON

擼一個 JSON 解析器

JSON 可通過 JavaScript 進行解析

JSON Web Token

php json ECharts Mysql折線圖餅圖柱狀圖

for-loop 與 json.Unmarshal 性能分析概要

Jackson 序列化對象成 JSON 字符串，忽略部分字段（屬性）

JSON 的興起與崛起

Python對象持久化（序列化）——cpickle、json、shelve模塊介紹

JSON 數據格式&XML比較

乾貨：手把手教你用Python讀寫CSV、JSON、Excel及解析HTML

springmvc 使用fastjson 處理 json 數據時中文亂碼

JSON 自學手冊（圖文教程）

JSON.stringify()——JS轉JSON字符串

做一次面向對象的體操：將 JSON 字符串轉換爲嵌套對象的一種方法

07.30 為什麼 JSON 不適合作為配置語言？

JSON Web Token的使用

微信小程序一個 json 就能製作分享朋友圈圖片

06.26 Python 模塊 JSON

Python 模塊 JSON

Discuz API JSON 適用於IOS及Android移動端開發

JSON：程式設計師快來看看風靡全球的JSON「阿里fastjson最佳應用舉例」

05.29 JSON：程序員快來看看風靡全球的JSON「阿里fastjson最佳應用舉例」

004-SpringMVC-如何接收各種參數（普通參數，對象，JSON, URL）

你所不知道的JSON.parse() 和 JSON.stringify() – 高級用法

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"