Audacity 的音量調整
(以單軌錄音為著眼點)

2018-05-12 by Marvin


  聲音的錄製和編修過程中,調整音量(振幅)絕對是最常用、最必要的工作了。錄音/聲音編修軟體使用的詞彙不論是 Amplitude、Amplification 還是 Amplify,基本上都一樣,電腦錄音一向都用 0 dB 來定義其所容許的最大音量,這裡的 dB(分貝) 是相對比值的概念,既然最大值是 0dB,那麼略小一些就是 -1、-2、-3、...... 等等了。這一點,務必要先了解。



  接下來,簡單介紹一下單軌錄音的音量調整觀念。截圖為 Audacity v2.2.1,但其後的版本在音量調整的介面上,基本沒什麼改變。由於音量調整可說是錄音最基本的東西,本文著重於基本「觀念」的介紹。建議各位一定要先把觀念弄明白,如果沒搞清楚整個觀念,死記步驟是沒有用的。

  首先,當然先要用滑鼠 選取 一段音量需要調整的聲音。不然電腦怎麼知道你想調整哪一段聲音呢?如果沒有選取的話,Audacity 會認定整個音軌都是你想調整的範圍,所以會自動幫你「全選」。

  選取了要調整的一段波形之後,可以使用 「增幅」「正規化」 來調整音量,而且兩種方法差別不大,如果觀念清楚的話,應該能察覺到它們本質上是一樣的。我們先看「增幅」,如果按照小牲建議的 Audacity 調教攻略 設定的話,直接按 A 就可以打開了:

【增幅】 新X 峰值 ▶ 預設是 0dB ← 不建議



  上圖顯示的是選取一小段波形,然後打開「增幅」,什麼都不改,直接按確定,讓它按照預設的數值去做。Audacity 的增幅(Amplify)會自動算出選取波形中,振幅最大的波峰處,距離最大目標值 0dB,還有多少 dB 值可以放大。在本例中,電腦算出這段波形最多可以放大 3.052dB。當我們按照這個數值去放大,結果就是最大的波峰處剛好頂到 0dB 的位置。



  許多人在 Audacity 中打開「增幅」之後,都弄不明白那個「新增峰值振幅」是什麼,它其實是 Audacity 繁中介面的誤譯如果對照 英文介面 就能瞭解是怎麼回事了。那個「新增峰值振幅」應該譯成「新峰值」較為合理。總之,請將它理解作「目標值」。在這個例子中,就是將原來的波形放大 3.052 dB 之後,就會使最大的波峰處,剛好頂到數位錄音的極限 0dB 那裡。Audacity 的「增幅」功能,預設是將 0dB 作為目標值,也就是將聲音放大時,放好、放滿。不過,大部分的時候,我們都不必,也不應該將聲音放到那麼大,應該依個別的情況拿捏適度的放大值,不要處處將音量做滿。

  這個例子中的「增幅」 3.052,可以照字面理解為「增大的幅度」。如果將這個數字調成負值,就可以將音量減小。適度地調整這個數值,我們就可以依自己的需要,對選取的波形,作音量的增/減。通常我們錄音時,為了避免破音(break-ups / clipping,比較正式的講法是「削波」),都不會讓波形錄得太大。因此正常情況下,最初收錄的音量都會略小一些,然後事後再依需要調大一些。所以,我們在做「增幅」的時候,絕大多數的情況下都是要將音量增大。

  以有聲書的錄製來說,比較有效率的工作方式,或許是每錄大約1~3分鐘的稿子,就停下來檢查、編修。檢查是否有唸錯字、語氣不適當、字音不清晰、過於明顯的雜音等等問題,修正之後,隨即調整音量。一般來說,這樣一段(1~3分鐘)有聲書內容在調音量的時候,是可以用一個適當的目標值(例如 -1dB)來調整的。

【增幅】 目標峰值 ← 建議改成 -1



  數位信號所能記錄的音波最大振幅是 0dB,如果超過的話,會形成所謂的「削波」(clipping),通俗一點的說法,就是聲音會破掉。因此,我們盡量不要讓音波碰觸到這個極限值,通常用 -1dB 作為最大波峰的目標值是比較安全的作法。當然,英雄所見未必盡同。相關的探討,網路上可以查到不少錄音工程專家的見解。同時,老牌錄音軟體 Cool Edit Pro 和 Audition 一向都在 -1dB 的位置用一條醒目的白線作為安全線,多少也反映出以 "-1dB" 作為最大峰值上限的作法,是許多錄音師普遍認同的一種作法。

  為何要避免將音量做滿(做到極限值 0dB)呢?因為在聲音編修的過程中,隨便做個等化、殘響之類的效果,經常都會使振幅發生些許變動,所以留些餘裕是比較安全的。另外,如果音量做得太滿,也容易因為播放設備的差異,而在播放時出現非預期的破音。





  做「增幅」的時候,如果以某個特定的最大峰值上限(例如 -1dB)為目標,這實際上就和做「正規化」(Normalize)是一樣的。

【正規化】 最大振幅 ← 建議設成 -1







  最後要特別說明:正常的言談,一定有輕重緩急的變化,有些字音大聲,有些字音小聲。譬如一段談話全長1分鐘,從波形上來看,可能只有五、六個字音的振幅比較大,而其中逼近到最大峰值上限的也許只有一兩個字音。所以,正常、自然的言談中,絕不是每一句話的波峰都要頂到上限值的。以有聲書來說,在不出現巨大情緒起伏的情況下,以適度的時長為單位(例如1~3分鐘的稿子)調一次音量,這樣的話,以 -1dB 為目標(上限)值作「增幅」大致是 OK 的。

  當然,每個人讀稿方式不同,追求的目標也不同。有些人以清晰、準確的資訊傳遞為要務,不希望整體音量落差太大;有些人更看重情感的表現,音量的起伏變化就比較大了。一般來說,在使用「增幅」或「正規化」調整音量時,如果選取的波形範圍較大(例如5分鐘以上),則產出的結果多半是音量高低落差較大的。如果希望產出的結果是音量落差不要太大(比較有利於視障聽友清楚汲取資訊),那麼就應該以較短的時間作為選取範圍來調音量。(例如前面所說1~3分鐘的範圍)



  上圖的波形約莫是兩句話多一點,其間只有2個字的波峰明顯高於其他字音,而且這2字的波峰都距 -1dB 尚有一定的距離,因為是以更長(約3分鐘)的一段聲音為選取範圍,將 -1dB 作為目標值調出來的音量。

  歸根結柢,如何調出適當的音量?恐怕不是遵循某種刻版的工作流程就能保證做到的。唯有勤於嘗試,設身體察聽者的需求,並在實踐中時時細心檢驗,在長篇幅的錄音工作中,必須兼顧所有細節,既見林,也見樹,才能做出理想的成品、摸索出理想的操作模式。



返回  Layman's Playground