Audacityの音量調整

　　聲音的錄製和編修過程中，調整音量（振幅）絕對是最常用、最必要的工作了。錄音／聲音編修軟體使用的詞彙不論是 Amplitude、Amplification 還是 Amplify，基本上都一樣，電腦錄音一向都用 0 dB 來定義其所容許的最大音量，這裡的 dB(分貝) 是相對比值的概念，既然最大值是 0dB，那麼略小一些就是 -1、-2、-3、...... 等等了。這一點，務必要先了解。

　　接下來，簡單介紹一下單軌錄音的音量調整觀念。截圖為 Audacity v2.2.1，但其後的版本在音量調整的介面上，基本沒什麼改變。由於音量調整可說是錄音最基本的東西，本文著重於基本「觀念」的介紹。建議各位一定要先把觀念弄明白，如果沒搞清楚整個觀念，死記步驟是沒有用的。

　　首先，當然先要用滑鼠選取一段音量需要調整的聲音。不然電腦怎麼知道你想調整哪一段聲音呢？如果沒有選取的話，Audacity 會認定整個音軌都是你想調整的範圍，所以會自動幫你「全選」。

　　選取了要調整的一段波形之後，可以使用「增幅」或「正規化」來調整音量，而且兩種方法差別不大，如果觀念清楚的話，應該能察覺到它們本質上是一樣的。我們先看「增幅」，如果按照小牲建議的 Audacity 調教攻略設定的話，直接按 A 就可以打開了：

　　上圖顯示的是選取一小段波形，然後打開「增幅」，什麼都不改，直接按確定，讓它按照預設的數值去做。Audacity 的增幅（Amplify）會自動算出選取波形中，振幅最大的波峰處，距離最大目標值 0dB，還有多少 dB 值可以放大。在本例中，電腦算出這段波形最多可以放大 3.052dB。當我們按照這個數值去放大，結果就是最大的波峰處剛好頂到 0dB 的位置。

　　許多人在 Audacity 中打開「增幅」之後，都弄不明白那個「新增峰值振幅」是什麼，它其實是 Audacity 繁中介面的誤譯！如果對照英文介面就能瞭解是怎麼回事了。那個「新增峰值振幅」應該譯成「新峰值」較為合理。總之，請將它理解作「目標值」。在這個例子中，就是將原來的波形放大 3.052 dB 之後，就會使最大的波峰處，剛好頂到數位錄音的極限 0dB 那裡。Audacity 的「增幅」功能，預設是將 0dB 作為目標值，也就是將聲音放大時，放好、放滿。不過，大部分的時候，我們都不必，也不應該將聲音放到那麼大，應該依個別的情況拿捏適度的放大值，不要處處將音量做滿。

　　這個例子中的「增幅」 3.052，可以照字面理解為「增大的幅度」。如果將這個數字調成負值，就可以將音量減小。適度地調整這個數值，我們就可以依自己的需要，對選取的波形，作音量的增／減。通常我們錄音時，為了避免破音（break-ups / clipping，比較正式的講法是「削波」），都不會讓波形錄得太大。因此正常情況下，最初收錄的音量都會略小一些，然後事後再依需要調大一些。所以，我們在做「增幅」的時候，絕大多數的情況下都是要將音量增大。

　　以有聲書的錄製來說，比較有效率的工作方式，或許是每錄大約１～３分鐘的稿子，就停下來檢查、編修。檢查是否有唸錯字、語氣不適當、字音不清晰、過於明顯的雜音等等問題，修正之後，隨即調整音量。一般來說，這樣一段（１～３分鐘）有聲書內容在調音量的時候，是可以用一個適當的目標值（例如 -1dB）來調整的。

Audacity 的「增幅」，英文介面是「Amplify」。其中「New Peak Amplitude」被譯成「新增峰值振幅」，是極為不當的！其實譯成「新峰值」比較合理。

英文很明白，中譯很擺爛

　　數位信號所能記錄的音波最大振幅是 0dB，如果超過的話，會形成所謂的「削波」（clipping），通俗一點的說法，就是聲音會破掉。因此，我們盡量不要讓音波碰觸到這個極限值，通常用 -1dB 作為最大波峰的目標值是比較安全的作法。當然，英雄所見未必盡同。相關的探討，網路上可以查到不少錄音工程專家的見解。同時，老牌錄音軟體 Cool Edit Pro 和 Audition 一向都在 -1dB 的位置用一條醒目的白線作為安全線，多少也反映出以 "-1dB" 作為最大峰值上限的作法，是許多錄音師普遍認同的一種作法。

　　為何要避免將音量做滿（做到極限值 0dB）呢？因為在聲音編修的過程中，隨便做個等化、殘響之類的效果，經常都會使振幅發生些許變動，所以留些餘裕是比較安全的。另外，如果音量做得太滿，也容易因為播放設備的差異，而在播放時出現非預期的破音。

　　做「增幅」的時候，如果以某個特定的最大峰值上限（例如 -1dB）為目標，這實際上就和做「正規化」（Normalize）是一樣的。

　　最後要特別說明：正常的言談，一定有輕重緩急的變化，有些字音大聲，有些字音小聲。譬如一段談話全長１分鐘，從波形上來看，可能只有五、六個字音的振幅比較大，而其中逼近到最大峰值上限的也許只有一兩個字音。所以，正常、自然的言談中，絕不是每一句話的波峰都要頂到上限值的。以有聲書來說，在不出現巨大情緒起伏的情況下，以適度的時長為單位（例如１～３分鐘的稿子）調一次音量，這樣的話，以 -1dB 為目標（上限）值作「增幅」大致是 OK 的。

　　當然，每個人讀稿方式不同，追求的目標也不同。有些人以清晰、準確的資訊傳遞為要務，不希望整體音量落差太大；有些人更看重情感的表現，音量的起伏變化就比較大了。一般來說，在使用「增幅」或「正規化」調整音量時，如果選取的波形範圍較大（例如５分鐘以上），則產出的結果多半是音量高低落差較大的。如果希望產出的結果是音量落差不要太大（比較有利於視障聽友清楚汲取資訊），那麼就應該以較短的時間作為選取範圍來調音量。（例如前面所說１～３分鐘的範圍）

　　上圖的波形約莫是兩句話多一點，其間只有２個字的波峰明顯高於其他字音，而且這２字的波峰都距 -1dB 尚有一定的距離，因為是以更長（約３分鐘）的一段聲音為選取範圍，將 -1dB 作為目標值調出來的音量。

　　歸根結柢，如何調出適當的音量？恐怕不是遵循某種刻版的工作流程就能保證做到的。唯有勤於嘗試，設身體察聽者的需求，並在實踐中時時細心檢驗，在長篇幅的錄音工作中，必須兼顧所有細節，既見林，也見樹，才能做出理想的成品、摸索出理想的操作模式。

返回 Layman's Playground