數碼音頻用的“時鐘”寫一點科普

近年來,外置獨立高性能時鐘加持的玩法在高燒友的群體中越來越流行,但也有很多燒友因為缺乏相關背景知識對這種玩法望而生畏。這裡簡單做一下科普。

數字電路的正常運作離不開時鐘信號,時鐘信號可以比喻為像“心跳”一樣為數字電路的各個部分的同步協調工作提供正確的時序參考。有一種我在國外雜誌上看到的說法是很準確的——數碼音頻的核心就是Timing。時鐘就是提供這種Timing準確性的。外置時鐘的加持本質上是用一個質量更高的外部時鐘信號來替換設備內置的音頻主時鐘信號(簡稱MCLK:Master Clock),從而達到提升聽感的效果。

MLCK是現代超採樣DAC內部的升頻及數字濾波器正常運作所需要的時鐘信號,越是高質量的MCLK,DAC內部電路的同步工作就會越準確,反映到主觀感受上就是聽感的提升。MCLK的頻率通常為基礎採樣頻率44.1/48KHz的256/512/1024/2048倍,一般寫為256fs/512fs/1024fs/2048fs(fs=“採樣頻率”的縮寫)。在數字音頻裡最常見的是22/24MHz(即512fs),有些數碼器材有這個接口,支持外部MCLK信號輸入。

再寫得基本一些,為什麼對於數碼音頻來說Timing如此重要?因為數碼音頻的基本原理就是按一個固定的頻率去對模擬波形“採樣”(Sampling或者叫“取樣”)。44.1KHz就是每秒鐘採樣44100次,重播的時候則把這些零散的採樣信號同樣按照44.1Khz的頻率“復原”出模擬波形。在這個過程中,每秒鐘44100Hz這個“採樣頻率”的準確性直接地影響信號質量,並直接地反映到聽感。

為什麼基礎採樣頻率是44.1KHz呢?這是為了覆蓋人耳的可聞音域,即20-20000赫茲。每秒鐘44100赫茲的採樣頻率可以確保20000赫茲的高頻信號(人耳可聞的高頻上限)也能記錄和重構(每個頻率週期需要至少兩個採樣點)。

在常見的DAC設計中,MCLK主時鐘信號源自機內的內部時鐘(通常是晶振)或由音頻鎖相環(PLL)合成。商品化的解碼器內置的MCLK時鐘源必須考慮成本,往往是妥協的方案,不可能追求極致。

MCLK音頻主時鐘信號的質量會直接影響音質。其最主要的技術性能是短期穩定性(簡稱短穩)。它能直接關係到音質,主觀聽感上可以關聯到——聲音的安定感、透明度、聲場表現、結像力、凝聚性、顆粒感、活生感,等等。

高性能MCLK時鐘信號源的具體實現,一般是兩種思路,一種是採用高性能的音頻頻點OCXO(恆溫晶振)直接得到MCLK;另一種是採用高性能的10MHz參考時鐘源,如高性能的10MHz OCXO或高性能10MHz原子鐘配合內置的高性能MCLK頻率合成器,得到高性能MCLK。

可以直接加持高性能MCLK時鐘源的音頻設備是較少的,只有部分Hi-End品牌的轉盤和DAC支持直接加持MCLK。在實際的玩法中,直接加持MCLK音頻主時鐘信號源只是玩法之一,另外還有兩種常見的玩法:1)加持10MHz參考時鐘源,2)加持WCK字時鐘信號源。

數碼音頻用的“時鐘”寫一點科普

HORAE時鐘連接Esoteric K01X

有一個問題是:為什麼會採用10MHz這個頻率的參考時鐘源來加持音頻設備,畢竟這個頻率跟數字音頻常用的頻點(44.1/48及其倍數)一點關係都沒有。

其實很簡單,10MHz是已經在航空、航天、通信及軍工領域的高性能時鐘參考源普遍應用的一個頻率點,相關的OCXO和原子鐘模塊相對更容易採購,無需像採用音頻頻點OCXO那樣需要專門定製,而且相關的關鍵器件也已經在那些穩定性與關鍵性能要求更為嚴苛的專業領域中充分驗證過,短穩和低頻相噪性能達到Hi-End音頻應用所要求的性能水平完全不成問題。

因此,加持10MHz參考時鐘源是目前最方便的一種時鐘加持方式,也就是選用自帶10MHz參考時鐘輸入的數字源和DAC,統一接駁到同一個10MHz參考時鐘源即可。這類音響器材內部都有10MHz參考時鐘轉為MCLK的頻率合成器,無論實際回放的是什麼採樣率,無需手動切換音頻時鐘頻率。

加持WCK字時鐘也是一種常見的玩法。WCK(Word Clock)字時鐘,簡言之就是一個數字音頻採樣率頻率的時鐘信號,WCK字時鐘有時也寫作FS/LRCK,它與MCLK音頻主時鐘成2的整數次冪倍率,前文提到的MCLK也可表示為256FS/512FS/1024FS/2048FS(FS=44.1kHz或48KHz)。常用的WCK範圍從44.1KHz - 384KHz(PCM)。如果是DSD回放,那麼字時鐘的頻率是2.8MHz、5.6MHz、11.2MHz等頻率,分別是44.1KHz的64倍、128倍、256倍。通常所說的所謂DSD64、DSD128、DSD256等,就是指它的播放頻率為基礎頻率44.1KHz的多少倍數。

加持WCK字時鐘的思路跟加持MCLK音頻主時鐘非常類似,只不過多了一個環節——支持WCK字時鐘輸入的設備在接收外部WCK字時鐘信號之後,需要用機內的鎖相環電路來實現從WCK字時鐘到MCLK的同步及倍頻過程,最終得到一個高性能的MCLK來應用於機內的數字電路。

實際使用中存在一個問題,在多數情況下采用WCK字時鐘加持的音響器材在遇到採樣率切換的情況需要手動或半自動切換字時鐘頻率,否則聽到的聲音會不正常(放錯速度的聽感)。

類似的情況也存在於加持MCLK音頻主時鐘源的器材,不過這種情況下只有採樣率基頻在44.1K和48K之間切換才需要調整MCLK頻率,在同一基頻的不同倍率採樣率之間切換無需手動切換。

數碼音頻用的“時鐘”寫一點科普

M2Tech小時鐘

下面我想專門提一下很多燒友關於時鐘存在的一個認識誤區——只關注時鐘的頻率精度,即時鐘實際輸出的頻點跟理想頻點之間有多大的偏差,一般其單位為PPM(百萬分之一),有一些高精度時鐘源的精度數量級能達到PPB(十億分之一)。然而,音頻時鐘的頻率精度跟主觀聽感關聯性實質很小。

時鐘的頻率精度和其頻率的長期穩定性能有很強的關聯性,但是音樂信號並不是一成不變的簡單有序信號,音頻時鐘的長期穩定性對於音樂信號的錄製和回放並沒有決定性的意義。一般來說,小於50PPM的頻率精度就足夠滿足HiFi級的數字音頻應用了。換言之,在音頻時鐘上單純追求高頻率精度,可能連事倍功半都算不上。艾詩的王工曾打過這麼一個比方我一直記著:一首曲子長度是8分30秒,但把它非常非常精確地播放在這個時間並不能保證音質是最好的,而可能一部器材播放它比8分30秒多放了0.01秒但是音質卻極好。長期穩定性極好的時鐘,最適合的用途是天文臺計時,而非Hi-Fi音頻重放。

音頻時鐘的最關鍵性能是其頻率的短期穩定性能(短穩),可通過測低頻相位噪音在頻域上表現,也可以通過測RMS jitter(均方根抖動)和短時間內的阿倫方差(有時也稱短穩)在時域上表現。

相位噪音、抖動和短穩是對於時鐘頻率短期穩定性能的不同角度表達方式。

時鐘的頻率短期穩定性好不好,通俗地說就是其頻譜純淨度高不高。因為假如除了音頻時鐘信號本身以外,還存在其他的雜散噪音成分,DAC電路輸出的模擬音頻信號也會有偏差,特別是產生相位失真,音樂信號的微動態細節、聲場、結像力等都會劣化。

發燒友喜歡歸結為“數碼味”或“數碼聲”的東西——具體可能表現為聲音的顆粒感、表情平淡、毛躁感、不耐聽的“火氣”、結像模糊肥大、聲場散亂等——其實大多可以“歸功於”這些雜散的噪音成分,及其具體的分佈模式(Jitter Pattern)。

很多原子鐘長期穩定性能很好(天文臺一般用原子鐘),但短期穩定性一般甚至不好,因此不要迷信原子鐘,在用於數碼音頻回放時,原子鐘並不等於頂級時鐘,性能並不如優質的OCXO(恆溫晶振)。

另外想借這篇文章指出的一點是:時鐘,在理論上是不存在所謂“調音”成分的。時鐘只有技術性能,沒有“調音大師”。當然,音頻用的時鐘,和其它用途,比如通信行業、天文臺所用的,還是有差別的,或者說“為音頻優化”。怎麼個優化呢?其實本質就是注重短穩。短穩性能越好,用於數字音頻會獲得越佳的性能。天文臺的鐘搬來也不能保證聲音一定好(天文臺注重長期穩定性)。當然,存在長期穩定性和短期穩定性都超強的鐘,比如氫原子鐘,但價格要幾百萬,不是現實的東西。

最後一點我又要繞回早就說過的“芯片決定論誤區”了。對於解碼器來說,精準高性能的Clock比解碼芯片重要多了。優質、低jitter的數字源,是非常重要的,也是很“值錢”的,解碼芯片之間的價格能差多少?便宜的幾十塊,貴的幾百塊,就差這些而已,而頂級的數字源設備、頂級的時鐘,都是很貴的,而且貴得“合理”(對聲音影響更大)。如果有優質低jitter的數字信號,有高性能的時鐘加持,在這樣的前提下,哪怕是非常普通的解碼芯片和解碼架構,都很容易獲得很好的聲音。而光是解碼芯片好,參數指標高,前面給它差勁的數字信號、用差勁的Clock,出來的聲音絕好不了。

我前幾年寫過一篇東西,大致是講這麼一個道理——數字源設備更多決定聲音的“素質”,解碼更多決定“音色”。其實數字源設備的差別體現在哪裡呢?其實本質的體現就是它輸出的數字信號的質量(jitter)。如果數字源設備輸出的信號裡面jitter很大,解碼器本身再如何強大,也是無法挽回的。為什麼呢?因為解碼器是跟隨數字源時鐘的,數字源輸出的信號怎麼波動,解碼器只能跟著怎麼波動,它是一個Slave。有些人說有些解碼裡面有緩存啊?但是緩存都不大的,根本不可能靠它完全消除前面信號的抖動。為什麼近兩年燒友中很紅的Titans Audio Helen那樣的設備能帶來系統的音質提升?因為Helen接在數字源之後,通過它頂級的PLL線路去抑制數字信號裡的Jitter,這樣解碼器收到的數字信號就質量提高了、Jitter消減了,出來的聲音自然提高。Helen起到的作用等於是一個在前期減小Jitter的“預處理”。

數碼音頻用的“時鐘”寫一點科普

Esoteric G1時鐘

最後我還想澄清一個關於“飛秒時鐘”的誤區。所謂的飛秒時鐘近年來也蠻熱門的,不少廠家開始宣傳在其器材內用了jitter低至幾十fs(femto-second)甚至個位數fs的超低抖動晶振。

問題的實質是,這些飛秒時鐘的實際抖動性能仍是良莠不齊、高下有別的。不能否認的是有部分廠家是在利用這個概念渾水摸魚的。或者說飛秒時鐘這個大概念、這個名詞,被用於商業炒作。

首先要明確的是目前的所謂“飛秒時鐘”並沒有統一的標準計量規範。說誇大點,哪怕是很便宜的普通晶振——便宜到幾毛錢一個的——如果按最流氓的計量方法測算,得到的jitter數值,只要膽子夠大、敢說,照樣可以說自己是飛秒時鐘。

關鍵的根本在於jitter即抖動性能的實際測試和計量方法。Jitter是可以嚴格測量的,在通信領域裡一般採用本底相位噪音極低的相位噪音儀來測“相位噪音”(Phase Noise)。在測量時必須選擇兩個頻點來定義測試的積分頻率的上下限區間,然後通過積分運算得到這個頻率區間內的相位噪聲曲線框選出來的面積並換算為時間單位,這樣才能得到具體的Jitter數值(以上測試方法請教了專業人士)。

Jitter數值測試中可以動手腳的地方就是積分頻率上下限的起始頻點。如果是真正專業的廠家、認真負責的測定,那就從10赫茲起步開始計算,最終的測試jitter優秀的話也能達到幾十到一兩百fs,這樣的低抖動晶振確實可以稱為飛秒時鐘。

如果是譁眾取寵的、帶流氓性質的測試,那麼就直接從10kHz甚至更高的頻點開始計算,最終的結果就沒有意義了。音頻數字電路看重的是低頻相噪性能,直接從10kHz及更高頻率起始計算獲得的jitter數值事實上對於Hi-Fi而言沒有什麼意義。這種情況還稱為飛秒時鐘的話就算是Bullshit了。

說到底就是一句話:廠家自稱的“飛秒級時鐘”未必就真的性能那麼好。肯定有渾水摸魚、借這個有人追捧的“名詞”來自高產品的。其實,同樣的道理推而廣之,我們所熟悉的“技術指標”很多都有可操控的空間,具體都是看測量的方法和條件(比如,是在什麼輸出功率下、在什麼失真度前提下、在什麼頻率區間內進行測量的)。而廠家在提供技術參數的時候,大多數情況下都是隻給你一個數字、不給測試條件的,在懂行的人看起來,缺乏測試條件的數值,就是沒什麼參考意義的。專業素養很高的、負責任的廠家,會自覺地在一個比較嚴苛的條件下進行測試,而沒有什麼專業性的、只要求獲得一個“好看數據”的廠家,則會利用這個漏洞,故意用很寬鬆的甚至不負責任的測試條件,來獲得很好看的數據。

因此最後回到那個我以前說過不止一次的大道理——缺乏具體測試條件的、不同廠家和測量機構提供的技術參數,是沒有可比性的。千萬不要拿A廠家提供的數據,去和B廠家的數據進行“橫向比較”然後判定優劣。他們的同一個技術參數背後的測試條件我們根本不掌握,那就沒法進行對比。技術參數,明明白白是可以“玩弄”的!

-END-


分享到:


相關文章: