原文鏈接:https://www.mojo-audio.com/blog/dsd-vs-pcm-myth-vs-truth/
作者:Benjamin Zwickel
翻譯:Aristrotle
導語
直接比特流數字(Direct Stream Digital,DSD)已經成了高端音頻領域裡舉足輕重的東西。簡化的編碼與解碼方式,以及超高採樣頻率,保證了它舉世無雙的表現。這是我們一直期待的產物,亦或只是市場炒作?這篇文章用技術事實為您一一破解那些營銷噱頭。我(指原作者,下同)將會解釋什麼時候DSD具有優勢,什麼時候又是PCM(pulse-code modulation,脈衝編碼調製)更好。
如果你對文中的駁論心存懷疑,請任意檢查文末給出的參考文獻,它們是由眾多諸如Dan Lavry的錄音工程師,以及諸如Antelope Auduio的錄音設備製造企業所創作的。
如果你不想接受一堂歷史課,也不想啃一大堆技術資料,你可以直接跳到總結部分,我在那裡列出了所有要點。
一段簡史
在1857年,Édouard-Léon Scott de Martinville發明了可以逼真地記錄聲波的留聲機。在1877年早期,Charles Cros設計了一種類似於逆照相蝕刻過程的方法,即造出可被唱針追蹤的溝槽,唱針產生的振動將被傳導到振膜上,從而製造出聲波。
在1877年晚期,Thomas Edison參考Cros的理論發明了圓筒留聲機,使得音樂愛好者們第一次能夠在家中體驗錄好的音樂。你能夠想象一個現代版的圓筒留聲機嗎?正切軌道…沒有弧度問題…沒有滑動問題。一個完美無瑕的設想!
在1887年,Emile Berliner發明了技術上稍遜的唱盤,但由於盤片的製造成本更低,更適於擺放在商店的展示櫃裡,並且可以容納更大的封面和註釋,唱盤成了工業標準。音樂錄製工業一段長長的“使用便利性和利潤最大化比音質最優更重要“歷史就這樣開始了。
數字革命也並沒有什麼不同。1979年,Philips和Sony在新的數字格式標準上展開合作,Philips想要直徑20cm的碟片,但Sony堅決要求能夠在更小的便攜設備上播放的12cm碟片。在1980年,他們公佈了數字音樂光盤規格標準紅皮書(the Red Book CD-DA standard),面向大眾市場的數字音樂從此誕生了。早期數字錄音工業中有很多人開玩笑稱CD的意思是“compromised disk“(妥協的碟片)。
在80年代初,當數字錄音變得唾手可得時,眾多錄音工作室紛紛從模擬向數字轉變以節省資金。對錄音工作室來說,數字錄音需求的設備更便宜,錄製和存檔所需的空間更小,並且使得後期處理中的混音和編輯曲目更容易。對顧客來說,反而並沒有多少好處。大多數早期的數字錄音都是以相對較低的解析度生產的, 聽著很容易疲勞,甚至讓你想把耳朵扯掉。
從PCM到DSD的轉換也是一樣的道理。在90年代初,索尼想要一種面向未來的且更便宜的媒介來儲存他們的模擬母帶。1995年,他們斷定存儲直接從模擬到數字的1位信號將允許他們輸出到任何可以想見的消費級數字格式(哈哈,稍後我會解釋Sony是怎麼因為決定這個栽跟頭的)。這種新的1位技術是通過從Crystal的1位2.8Mhz 比特流DAC(數字模擬轉換器,Digital to analog converter)芯片上的監聽接口輸出實現的。
隨後,關於DSD及Sony同Philips合作研發SACD(Super Audio Compact Disc)格式的風聲傳到了Sony顧客那裡。當然,從SACD被構思出來到最終上市的時候,DAC芯片製造商已經能造出支持擁有比64fs更高的128fs採樣率(又叫雙倍率DSD),比1位解析度更高的5位位深的格式的芯片了。如果SACD的格式採用DSD128而不是DSD64,採用5位而不是1位,它的表現將有巨大飛躍。可惜了。
早在DVD、SACD或者DSD格式被開發出來之前,比特流DAC芯片就作為R-2R多位DAC芯片的低成本替代方案被推向消費市場了。比特流DAC芯片內置有能將PCM轉碼為DSD,再轉換成模擬信號的算法,這樣做的結果是犧牲保真度換來了很大的成本節約。
在某種程度上是比特流DAC技術使得7.1聲道嵌入視頻格式成為可能,同時還使得電子設備製造商能將裝在小機箱裡、配置廉價供電器的DVD播放器賣出低於$70的價格。音質至上主義者再一次完敗了。
相比之下,R-2R DAC芯片不僅在成本上顯著高於單比特DAC芯片,而且需要更大更復雜的供電器。如果你打算製造使用R-2R技術的7.1聲道CD/DVD/SACD播放器,成本將是比特流技術的數倍,體積也將是它的數倍。這顯然不是大眾消費者想要的。
在這些因素的作用下,音樂錄製工業一次又一次地決定拋棄音質至上主義者以追求利潤最大化和吸引最廣泛的顧客群。歷史課到此結束。
DSD技術vs PCM技術
市售的PCM錄音位深為16位或24位,採樣率在44.1KHz到192KHz之間。最常見的格式是紅皮書標準的CD,位深16,採樣率44.1KHz。市售的DSD錄音位深為1位,採樣率為2.8224MHz。這種被用在SACD上的格式也叫DSD64。
還有一些像DSD128、DSD256和DSD512這樣更現代的,解析度更高的DSD格式,我稍後會詳細說明。這些格式主要被用在錄音工作室裡,只佔到消費市場的很小一部分。
儘管DSD和PCM的解析度不能直接比較,仍然有很多專家嘗試了。其中一種估算顯示1位2.8224MHz的DSD64 SACD解析度約等於20位96KHz的PCM。另一種估算顯示1位2.8224MHz的DSD64 SACD解析度等於20位141.12KHz PCM或者24位117.6KHz PCM。
換句話說DSD64 SACD的解析度比16位44.1KHz的紅皮書標準CD更高,大致與24位96KHz的PCM錄音相等,但沒有24位192KHz PCM錄音高。
DSD和PCM都是“量子化的”,這意味著模擬信號需要被近似為數值。DSD和PCM都有量化誤差和線性誤差,都有需要過濾的量化噪聲。換句話說,它們都不是完美的。
PCM 以均勻的時間間隔 (類似於方格紙) 對模擬信號的振幅進行編碼, 並且每個樣本在級數範圍內被量化為最接近的值。級數的範圍基於錄音的位深。16位錄製有65536個級數, 20 位錄音有1048576個級數, 24 位錄音有16777216個級數。
位深越大,採樣率越高,解析度就越高。因此20位96KHz錄音的解析度大約是16位44.1KHz錄音的33倍。這差距可不小。那為什麼24位96KHz錄音聽起來只比16位44.1KHz的紅皮書標準CD好一點點?答案將在後文中揭曉。
DSD使用脈衝密度調製(pulse-density modulation)對音樂進行編碼,脈衝密度調製是一連串單比特值,採樣率為2.8224MHz。 這相當於紅皮書標準CD 44.1KHz採樣率的64倍,但每次採樣的解析度僅為CD 16位的1/32768。
在上面這兩個雙軸量化的PCM,以及單軸量化的DSD的圖示中,你可以看出為什麼DSD重放的精確度相比比PCM很大程度上更依賴於時鐘精度。 當然,每個位電壓的精度在DSD中與PCM同樣重要,因此參考電壓的調節在這兩種類型的轉換器中同等重要。 顯然,在解析度是市售DSD64 SACD和24位192KHz PCM幾倍的錄音過程中,其時鐘精度要求遠比重放時的高。
還有其他使用更高的採樣率的DSD格式,比如DSD128(又叫雙倍率DSD),採樣率為5.6448MHz; DSD256(又叫四倍率DSD),採樣率為11.2896MHz; 和DSD512(又叫八倍率DSD),採樣率為22.5792MHz。 所有這些更高解析度的DSD格式都是供錄音工作室使用而非消費者使用,儘管有一些不起眼的公司以這些格式銷售錄音。
請注意,雙倍率、四倍率和八倍率 DSD可以被44.1KHz和48KHz整數倍等分,以向下採樣至DSD64 SACD及44.1KHz紅皮書標準CD(44.1KHz的倍數)或96KHz及192KHz高清 PCM格式(48KHz的倍數)。
當錄音工作室將48KHz倍數的格式轉換為44.1KHz倍數的格式時會引入量化誤差,反之亦然。 遺憾的是,老錄音的24位192KHz高清重製版本往往是來自DSD64母帶的,比如索尼和其他公司在90年代中期用於存檔模擬母版的那些。 請注意,可以從DSD64母帶轉制的最佳HD PCM格式為24位88.2KHz。 任何超過88.2KHz的採樣率或者可被48KHz整除的採樣率都必須進行插值(不好)。 但消費者要求所有他們的舊愛的24位192KHz版本,於是,在明知道後果的情況下,唱片公司仍然這麼做了。
難題
PCM和DSD都有三個主要缺陷:量化誤差、量化噪聲和非線性。
有好幾種情況能造成量化誤差。最普遍的一種是早期數字錄音過低的解析度。想象一下方格紙上的交叉點。你不能把振幅量化為比1比特更小的值,且無法量化採樣間隔上的點。你只能把模擬信號量化為位深和採樣率交叉點的值。當模擬型號的值落在兩個可量化值之間時,數字錄音最終重建了一個音量更低或更高,頻率更慢或更快的聲音,進而扭曲原始音樂的節奏,曲調和強度。這會造成不自然的怪異的的諧波的產生,導致早期數字錄音往往與生硬、易使人疲勞聯繫在一起。請注意下圖中藍色實線代表音樂實際的波形,黑點代表最接近的量化值。
儘管現在的採樣率已經高到足以欺騙人耳,量化誤差仍然會在從一種格式轉換成另一種時顯現。舉個例子,時間回溯到1995年,當Sony計劃用DSD64轉存他們的模擬母帶庫時,他們錯誤地認為DSD64母帶經得起時間考驗,並且能夠轉錄成任何消費級的格式。事實上,這些母帶只能正確地轉錄成採樣率能被44.1KHz整除的格式。於是現在所有從DSD64母帶轉錄的96KHz及192KHz錄音都有量化誤差。
這正是錄音娛樂工業中眾多使我惱怒的事情中的一件。如果44.1KHz標準被設計出來是為了把摺疊失真轉移到不那麼重要的頻段上,那為什麼他們又開始用48KHz的倍數了?!?!?!?只要把現在的消費級高清音頻格式定為88.2KHz和176.4KHz,就可以避開這個爛攤子了。他們甚至已經發明瞭DXD,一個24位352.8KHz的錄音工作室用格式。是哪個搞七廿三的白痴硬要把96KHz和192KHz牽涉進高清音頻工作裡來的?!?!?!?
使用48KHz倍數的實際原因是與視頻同步最佳。這就是為什麼電影的音軌以48KHz倍數的採樣率錄製,例如嵌入7.1聲道DVD和Blu-Rays中的24位96KHz格式音頻。 但是,由於超過90%的音樂錄音是以44.1KHz採樣率的紅皮書標準CD或DSD64 SACD出售的,因此提供96KHz或192KHz的高清音樂,而不是最合適的88.2KHz和176.4KHz,是相當荒謬的。 然而不瞭解這一切的顧客錯誤地相信了唱片公司的宣傳,認為192KHz比176.4KHz更好。
量化噪聲是無法避免的。無論用什麼格式數字化,都會產生超聲波偽影,位深越多,底噪就越低,每多1位,底噪就降低大約6dB。由此可以想見,1位DSD會有顯著高於16位PCM的超聲噪聲。而PCM則會在採樣頻率上出現明顯的噪聲。這就是為什麼Sony和Philips在CD紅皮書標準裡將採樣率定為超過人耳聽域上限20KHz兩倍的44.1KHz。
由於量化噪聲存在於PCM錄音的採樣頻率附近,一段44.1KHz錄音的量化噪聲比人耳的聽域上限20KHz高一個八度。這種量化噪聲需要被濾除,因此所有DAC在輸出端都有一個低通濾波器。因為量化噪聲僅比可聽度高一個八度,所以使用的濾波器必須具有非常陡的斜率,以免濾除我們想要的高頻。 這些陡峭傾斜的低通數字濾波器通常被稱為“磚牆”濾波器。
儘管你時常聽說很多關於早期紅皮書CD播放器的“磚牆”濾鏡會導致可被聽到的失真,但事上這並不是極高頻聲音不自然的的原因。早期數字錄音中大多數生硬,刺耳,不自然的極高頻更多地與供電及錄音過程中的缺陷有關,而不是“磚牆”濾波器。很抱歉成為戳破你的泡泡人,與許多發燒友所相信的不同,只有不到千分之一的人能像兒童一樣聽到超過20KHz的聲音,更是幾乎沒有40歲以上的人能聽到超過15KHz的聲音。
對於DSD64則是另一種情況:從25KHz開始,量化噪聲急劇上升,需要更復雜的濾波器及降噪算法。當你使用簡單的低通濾波器過濾DSD64的輸出時,結果是相位失真及聽覺範圍內的一些令人相當討厭的失真。解決方案是能將噪聲移至較難聽到的頻段的降噪算法,或者更高的採樣率。這就是DSD128(又叫雙倍率DSD)和DSD256(又叫四倍率DSD)格式應運而生的原因。這也是諸如JRiver的高級播放器軟件提供雙倍率DSD輸出的原因。使用過採樣DSD64至DSD128或DSD256的播放軟件,可使數字失真高於聽覺範圍八度,從而讓使用更高級的降噪算法和更保守的數字濾波器成為可能,進而顯著改善音質表現。請注意,極高的採樣頻率是DSD比PCM更注重超精準時鐘的原因。
抖動(Jitter)的定義是由不準確的時鐘引起的回放頻率的不一致。這將導致音樂可聞的的節奏和曲調失真。不協調的工作頻率往往會產生具有不自然的奇次諧波的模擬波形。 這導致通常稱為“數碼味”的易使人疲勞的負面特質。請注意下面兩幅圖:抖動是水平時間軸的不一致,而非線性是垂直振幅軸的不一致。 不過,還有些人會認為任一軸的不一致都屬於非線性。
抖動也可能是因為轉換器的時鐘速率不一致,非線性則可能是因為轉換器每一步的電壓不一致。這就是我們經常聽到“超級時鐘”和“毫微微時鐘”這些概念的原因。時鐘越精確,模擬輸出就越準確。 這也是為什麼超高性能PCM轉換器能夠在零交叉點(zero crossing)調整最高有效位(MSB,most-significant-bit)的電壓以優化線性度的原因。 問題在於,除了大家都在吹噓的超級時鐘,就沒有辦法優化MSB電壓了嗎?
純DSD的神話
不管市場怎樣炒作,事實是消費者幾乎買不到純DSD錄音。 部分是因為直到最近才實現直接編輯,混音和母帶處理DSD文件。因此,市面上能買到的最純DSD錄音是罕見的由模擬錄音轉制的DSD錄音,或者直接記錄到DSD而沒有任何後期製作的錄音。一些新的工作站軟件可以用DSD格式進行編輯,混音和母帶處理,但這在業界非常少見,並且主要用於小型精品唱片公司。事實上,大多數DSD錄製都是用5位PCM(又叫Wide-DSD)進行編輯,混音和母帶製作。你在下面看到的營銷炒作的DSD流程圖基本只存在於理論中。呀……秘密洩露了。
純數字DSD錄音的質量分數代和數個級別的。最不純的是由舊PCM母帶製作的DSD錄音。 這些PCM母帶裡的很多解析度較低,還有比現代PCM錄音更高的量化誤差和更低的線性度。由於轉制永遠無法做到比原始母帶更好,這些DSD錄音聽起來就和原來的低解析度PCM母帶一樣爛。最純粹的普通DSD錄音來自現代DSD母帶,以Wide-DSD錄製,實際上是超高DSD採樣率的5位或8位PCM格式。Wide-DSD是大多數錄音工作室目前使用的格式。
從上面的流程圖中可以看出,大多數商用DSD錄音必須轉換為PCM格式才能進行後期編輯,混音和母帶製作。在這些轉換過程中,每次都會有更多的量化噪聲及量化誤差被引入錄音裡。許多人會問:既然母帶已經是PCM格式了,為什麼還要多此一舉轉換成DSD?
目前在用Wide-DSD進行編輯,混音和母帶製作的錄音工作室基本都不太可能升級到能用真DSD編輯,混音和母帶製作的軟件,因為DSD實際上是一種過時的格式。連索尼自己都不再支持DSD了。錄音工作室可能升級的現代格式是MQA,一種24位192KHz PCM壓縮格式,它需要的帶寬遠少於普通PCM流。這就是為什麼像Roon和Tidal這樣的高清音樂流媒體服務正在切換到MQA作為他們提供的超高清選項。因此,隨著MQA壓縮的發明,PCM正迅速成為首選的高清音樂格式。
關於DSD與PCM的另一個常見營銷神話是,當將DSD與PCM進行盲測對比時,人們一致認為PCM易使人疲勞而DSD更接近模擬音質。這已經被證明完全是個謊言(total marketing BS)。製造謊言的一種方式是在同一張碟片上刻錄DSD64和16位44.1KHz PCM的混合SACD。 DSD64音軌的解析度大約是16位44.1KHz音軌的33倍,因此相比較下DSD音質比PCM更好。事實是,在最近的盲測中,研究人員已經證明高解析度PCM和DSD在統計上是無法被區分的。考慮到幾乎所有的DSD錄音都是用PCM編輯,混音和母帶製作的,這本就不足為奇。
然後是DAC芯片工作方式的差異。大多數現代DAC芯片都是單比特或ΣΔ。大多數現代單比特DAC芯片可以解碼多種文件格式,包括PCM,DSD和Wide-DSD。當然,當他們解碼PCM時,單比特DAC芯片必須首先將其轉換為DSD,即芯片的原生格式。DSD比PCM表現更好的常見誤解的另一個原因正是與內置於單比特DSD DAC芯片的實時PCM到DSD轉換器的質量差有關。
還有一種東西叫多位R-2R梯形DAC芯片。還在生產多位DAC芯片的公司已經很少了,因為它的製造成本比單位DAC芯片高得多。多位DAC芯片針對PCM格式進行了優化,並且只能解碼PCM格式。當然,有些DAC使用具有FPGA輸入級的多位DAC芯片能將DSD轉換為PCM,但多位DAC芯片本身無法解碼DSD。
在幾乎所有情況下,我都建議你使用DAC芯片的原生格式播放音樂文件。也就是說用多位DAC芯片播放PCM,用單比特DAC芯片播放DSD。市面上有幾個播放軟件內置有實時PCM到雙倍率DSD轉換器。HQ Player是當今市場上最複雜的播放軟件之一。HQ播放器可配置為實時PCM到DSD轉換以及實時DSD過採樣到雙倍、四倍、八倍甚至更高速率的DSD格式。強烈建議使用能將PCM轉換為DSD並將其過採樣至至少四倍率DSD的播放軟件。
總結
從歷史上看,大多數與大眾市場錄音銷售相關的決策都是基於消費者的便利和更高的利潤,而不是技術優勢和更高的保真度。
原生PCM R-2R梯形DAC芯片以及支持它們的電路製造成本明顯高於原生DSD單比特DAC芯片,並且尺寸明顯更大。這是現今比較常用的單比特DAC芯片的主要原因之一。
在盲聽測試中,具有相當解析度的高解析度PCM和DSD格式在統計上無法被區分。
像DSD營銷炒作中使用的流程圖所示的純DSD錄音幾乎不存在。目前很少有錄音工作室能直接用DSD進行編輯,混音或母帶製作。5位和8位高清PCM(Wide-DSD)用於幾乎所有現代DSD錄音的錄製及後期編輯,混音和母帶製作。
當在原生DSD單比特解碼器上播放PCM文件時,單比特DAC芯片必須實時地將PCM轉換為DSD。這是人們聲稱DSD聲音比PCM更好的主要原因之一,事實上,大多數現代單比特DAC芯片在解碼PCM方面做得很差。
DSD64 SACD的解析度約為16位44.1KHz紅皮書CD的33倍,與24位96KHz PCM錄音的解析度大致相當,不到24位192KHz PCM錄音解析度的一半。
混合SACD上的DSD64軌道的分辨率大約是16位44.1KHz PCM軌道的33倍。這樣做是故意的,由此他們可以通過欺騙潛在客戶相信他們在播放同一盤音樂時進行了公平比較,以賣出更多SACD播放器。
MQA是一種新的現代高性能音頻壓縮格式,被Roon和Tidal等高清流媒體服務採用,可被解碼為24位192KHz PCM。
DSD具有比PCM高得多的量化噪聲,並且噪聲更接近聽覺範圍,需要更復雜的數字濾波器,以及降噪和過採樣算法。眾所周知,DSD DAC內置的算法經常導致聲音過度平滑,而在即時性,清晰度和泛音密度上不如R-2R梯形DAC。
強烈建議使用基於計算機的音樂服務器和能夠將PCM轉換為DSD的播放器軟件並將其過採樣到至少雙倍速率DSD,因為它使DSD64 SACD量化噪聲高出聽覺範圍八度,為更好的數字濾波器提供發揮空間。雙倍率DSD的大部分量化噪聲在50KHz上下,這與44.1KHz PCM錄音中大部分量化噪聲所在頻段的中心44.1KHz很接近。
為了獲得儘可能好的表現,應該播放DAC的原生格式,而不是讓DAC芯片和FPGA實時轉換文件格式。
儘管許多錄音被宣傳為24位,但24位的全部動態範圍僅用於錄音室以減少量化噪聲。大多數消費者版本的所謂24位錄音,其實比16位錄音的動態範圍(96dB)還小。它們只是用1填充一些MSB,用0填充一些LSB好讓總體積達到目標。
大多數流行音樂錄音是為在汽車音響或便攜式設備上播放而設計的,而不是高端音響發燒友系統。眾所周知,在敲定最終混音之前,藝術家和製作人經常會在MP3播放器或汽車音響上試聽曲目。
錄音的質量遠比其分發的格式或解析度所起的作用更為重要。為了增加利潤,現代錄音工作室的管理層堅持要求通過後期製作剔除錄音的錯誤,這會嚴重影響母帶質量。
相比之下,我最喜歡的一些數字錄音是從20世紀50年代的模擬錄音中轉錄的。它們沒有現代DDD錄音(DDD=Digital, Digital, Digital,意為數字化錄音,數字化後期製作,數字化發行)那麼低的背景噪音,但這些“黃金時代”錄音通常只需一次錄製,只需最少的後期製作。這種老派錄音方法產生有機特質和連貫的室內共鳴,無法以其他任何方式複製。不難看出為什麼那麼多發燒友願意為這些錄音出高價。
參考文獻:
http:www.lavryengineering.com/lavry-white-papers/
24-bit vs 16-bit
http:electronics.forumsee.com/a/m/s/p12-37984-047253--24bit-16bit-the-myth-exploded.html
http:www.tested.com/tech/1905-the-real-differences-between-16-bit-and-24-bit-audio/
http:www.highendnews.info/technology/oversampling_and_bitstream_metho.htm
http:www.grimmaudio.com/site/assets/files/1088/dsd_myth.pdf
http:bitperfectsound.blogspot.com/2014/12/dst-compression.html
http:www.soundonsound.com/sos/sep07/articles/digitalmyths.htm
http:www.digitalpreservation.gov/formats/fdd/fdd000230.shtml
https://en.wikipedia.org/wiki/Direct_Stream_Digital
http:hometheaterreview.com/super-audio-compact-disc-sacd/
Blog
http:benchmarkmedia.com/blogs/news/15121729-audio-myth-24-bit-audio-has-more-resolution-than-16-bit-audio
閱讀更多 煎蛋 的文章