認識Protobuf

Protocol buffers are a flexible, efficient, automated mechanism for serializing structured data – think XML, but smaller, faster, and simpler.

Protobuf是Google推出的一種輕量&高效的結構化數據存儲格式，是一款跨平臺、跨語言、可擴展的序列化結構數據的方法；可用作通信協議、數據存儲,etc...

特性

【優點】

使用簡單
跨平臺、跨語言、可擴展性
維護成本低
向後兼容性好
加密性好：二進制不可讀
性能好
體積比XML小3倍
序列化速度比XML快20倍
傳輸速度快

【缺點】

自解釋性差:二進制不可讀
需預定義結構

適用場景

傳輸數據量大
網絡環境不穩定

看個例子

message Person {
 /** required and optional 
 * 1.required:必填
 * 2.optional:可選
 */
 // field_type field_name = field_number
 required string name = 1;
 required int32 id = 2;
}

【測試代碼】

@Test
public void testProtoBuf() {
 // encode bytes
 byte[] bytes = Person.newBuilder().setName("java").setId(1).build().toByteArray();
 System.out.println(Arrays.toString(bytes));
 
 // decode bytes
 for (byte b : bytes) {
 System.out.println(getBinString(b));
 }
}
private String getBinString(byte b) {
 return String.format("%8s", Integer.toBinaryString(b)).replace(' ', '0');
}

【生成的字節數組及二進制】

// 字節數組
[10, 4, 106, 97, 118, 97, 16, 1]
// 二進制
00001010
00000100
01101010
01100001
01110110
01100001
00010000
00000001

下面我們通過上述二進制的輸出瞭解下protobuf是怎麼進行序列化的

序列化

protobuf序列化採用的Tag-Length-Value結構的存儲方式

Tag：通過一個字節(8位)來存儲field_number(前5位)和field_type(後3位)
Length:可選值，存儲Value的長度，Length-delimited需要存儲Length
Value:對應字段值的二進制表示

重點介紹一下Tag裡面field_type表示，其決定了value是怎麼表示；

【Wire Type表】

通過Wire Type再來看上文的二進制表示

# set name = "java"
# Tag:field_number=1,field_type=2
00001010
# Length:4
00000100
# Value:"java"
01101010
01100001
01110110
01100001
# set id = 1
# Tag:field_number=2,field_type=0
00010000
# Value:1
00000001

Varint

Varint是一種特殊的整型，可變長的數字；其類型主要包含以下幾個

它用一個或多個字節來表示一個數字，值越小的數字使用越少的字節數。這能減少用來表示數字的字節數。

如：
1. 對於 int32 類型的數字，一般需要 4個字節 表示； 若採用 Varint編碼，對於很小的 int32 類型 數字，則可以用 1個字節 來表示 
2.雖然大的數字會需要 5 個 字節 來表示，但大多數情況下，消息都不會有很大的數字，所以採用 Varint方法總是可以用更少的字節數來表示數字

我們看一下寫int32的源碼

private void writeVarint32(int n) { 
 int idx = 0; 
 while (true) { 
 // 如果只有一個字節，直接中斷
 if ((n & ~0x7F) == 0) { 
 i32buf[idx++] = (byte)n; 
 break; 
 } else { 
 // 取出字節串末7位,在最高位添加1構成一個字節
 i32buf[idx++] = (byte)((n & 0x7F) | 0x80); 
 // 無符號右移7位
 n >>>= 7; 
 } 
 } 
 trans_.write(i32buf, 0, idx); 
}

從以上源碼我們能得出

如果最高位為1，表示後續的字節也是該數字的一部分
如果是 0，表示這是最後一個字節，且剩餘 7位都用來表示數字

因此：

小於 128 的數字都可以用 1個字節表示；
大於 128 的數字，比如 300，會用兩個字節來表示：10101100 00000010

【負數的特殊處理】

我們知道，在二進制表示中，如果最高位為1，則代表該數為負數；當然Protobuf也很好的解決了這個問題，

`Protobuf`定義了 `sint32 / sint64` 類型表示負數，通過先採用 `Zigzag` 編碼（將`有符號數`轉換成`無符號數`），再採用 Varint編碼，從而用於減少編碼後的字節數

【Zigzag】

Zigzag是一種變長的編碼方式，使得絕對值小的數字都可以採用較少字節來表示；其編碼解碼過程為

編碼過程，代碼為(n <<1) ^ (n >>31)
將n左移1位
將n右移31位
前兩個結果異或操作
解碼過程，代碼為(n >>> 1) ^ -(n & 1)
無符號右移1位
對(n & 1) 取反
兩者異或

FYI

Protocol Buffer 序列化原理大揭秘 - 為什麼Protocol Buffer性能這麼好？
Google Protocol Buffers 序列化算法分析
Protocol Buffers

關聯閱讀

分享到:

閱讀更多 一隻懶懶的coder 的文章

關鍵字: 序列化 XML 二進制

聊一聊序列化-Protobuf

認識Protobuf

看個例子

序列化

FYI

關聯閱讀

相關文章:

聊一聊序列化-Protobuf

認識Protobuf

看個例子

序列化

FYI

關聯閱讀

相關文章:

一天一個LeetCode中等題目（快慢指針）

03.06 如何「系統性學習」——聊一聊“媒介形態”

Go 官宣：新版 Protobuf API

03.04 Go 官宣：新版 Protobuf API

02.18 無規矩不成方圓，聊一聊 Spring Boot 中 RESTful 接口設計規範

無規矩不成方圓，聊一聊 Spring Boot 中 RESTful 接口設計規範

ArrayList源碼解析

11.22 如何使用 Protobuf 做數據交換

10.02 谷歌最流行的序列化格式：Protobuf 語言指南

Protobuf 不建議在 Deno 中使用 Protobuf

06.05 「javaSE基礎」2018面試-IO試題集-字節流和字符流區別，序列化

深入淺出javase——序列化

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

為什麼馬鈴薯不宜過早過遲播種？

疫情愈發嚴重，原油為何反而大漲？

生菜球很好吃，怎麼種植才能高產呢？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？ ？

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

書友們展示一下自我感覺發揮較好的作品，一起學習？

30多歲了還沒有爬到管理層，以後在職場應該怎麼規劃？

為什麼胡善祥在漢王府被打？

單位有兩個員工，一個經常請領導吃飯工作效率低，一個不請領導吃飯卻效率高，領導會喜歡誰？

職場中哪些人最不怕被辭退呢？為什麼？

剛入職場，是向領導同事充分展示自己才能好還是低調謙虛點好（有經驗的老鐵給些建議）？

為什麼明仁宗朱高熾在位不足一年，歷史評價卻很高？

《大明風華》中的太子朱高熾是個扶不起來的人？歷史上真是這樣的嗎？

在職場中，一個人不懂得巴結領導或拍馬屁的人，永遠沒有出頭之日是嗎？

如何成為公司不可替代的員工？

如何正確的向老闆提出辭職？

老實人適合做什麼工作比較好？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？