噴麥字音之修復

噴麥字音之修復
(How to Fix Popping Sounds)

by Marvin（2017年2月發布，2025年3月更新）　　　

　　「噴麥」是指某些字在發音時吐氣太強，造成麥克風的振膜受到過強的氣流衝擊，而產生聽起來很不舒服的轟隆聲。例如國語中的ㄆ（p）、ㄊ（t）、ㄏ（h）等音，都容易形成噴麥（也有人習慣說「噗麥」）。英文中，由於以 p 開頭的音節最容易形成噴麥，所以英文裡經常將它稱作 P-Pops。當然，因為噴麥不一定都是 "p" 音造成的，所以 "Pop Sounds" 或是 "Popping Sounds" 的說法也許更合理一些。

　　接下來，我們用一段音頻作為範例。前 15" 的錄音中，頻頻出現相當嚴重的噴麥，布穀鳥叫聲之後，則是前面那段聲音套用了 FFT Filter 的處理結果。

【處理前】 → cuckoo →【FFT 處理後】

　　FFT Filter 是個很好用的聲音編修工具，幾乎每一個像樣的聲音編修軟體都有，而且其操作介面大同小異。這裡所套用的 FFT Filter 是設成如下的圖形（以 Cool Edit Pro 為例）：

　　圖中的 "kill pops" 並不是 Cool Edit Pro 內建的預設效果，而是小牲將自己調好的曲線儲存起來，並將它命名為 "kill pops"。圖中 "Presets" 那個小框框，右上角有個 "Add"，按下去就可以將自己調好的曲線存起來備用了。仔細觀察圖中的藍色細線可以發現，這個設定是將聲音在 440Hz 以下的低頻部分進行減降，440Hz 以上則完全不予改變（維持 100%）。因為這裡示範的噴麥，都是故意做出來的嚴重噴麥，所以減降的起始點抓得比較高，減降幅度也較大。在實際應用時，偶爾不小心出現的噴麥多半比較輕微，不會這麼極端，那麼就可以嘗試只削減 300Hz 或 200Hz 以下的低頻，看看這樣是否能最大程度地保持原有的音色，而又能有效地消除惱人的噴麥聲。

　　以上介紹的作法很簡單，把要處理的聲音整段選取起來，然後整個套用這個 FFT Filter 即可，不必在個別字音上苦苦掙扎。

　　而 Audacity 的「曲線等化器」功能，也和 FFT Filter 類似。下圖是在 Audacity 3.1.3 當中用曲線等化器（啟明錄音間電腦上按快速鍵 E 即可打開）調出的一個曲線，僅在 200Hz 以下做有限幅度的減降。這個曲線不像上面那個 FFT Filter 的那麼極端，對於大多數意外（不是特別嚴重）的噴麥來說，應該是合用的。

　　當然，我們既然對低頻作了大幅度的削減，就無可避免地會使得處理過的聲音產生一些音色的改變；對於清亮型的女聲也許影響不大，但男聲恐怕會受到比較顯著的影響。但話說回來，這個作法平常是用不到的。只有在錄音工作完成之後，發現了大量的噴麥，又不願或不能重錄，萬不得已才需要使出這一招。所以在音色方面犧牲一點，也只是個微不足道的報應教訓啦！除了受到生理因素影響（例如齒列問題），先天上就無法避免噴麥的少數特殊人士，我都不知道一個人到底是要有多瞎，才會在錄音過程中完全無視於噴麥的問題，然後在錄完一大篇東西之後才猛然察覺到這個問題的存在?!

【噴麥的終極應對之道】

　　事實上，在大多數的錄音環境中，噴麥是完全可以避免的。試想：
　　　　在一個單純的錄音空間、
　　　　使用固定一支麥克風收音、
　　　　麥克風和播音者都在固定的位置（不需要走動或做舞台動作），
　　那麼只要找到合適的對麥距離和角度，輔以適當的播音技巧，就不太容易發生噴麥的情形。

　　常有人以為防噴麥罩（Pop Filter）或海棉套之類的道具能避免噴麥；很不幸的，那些東西並沒有如此神奇。有興趣敗家的話，可以購買各式「防噴麥神器」回家測試一下。其實只要你吐字的氣流夠強，任何罩子、套子都擋不住噴麥，頂多是減輕到一定的程度而已。而那些罩子、套子是否會造成高頻減損，使得聲音變悶，反倒是比較值得擔心的。

　　【Know-How】噴麥經常是 100Hz以下的低頻過強的結果。若想完美修復噴麥（不改變音色），就要找到發生噴麥的局部字音波型，針對其 100Hz 以下的低頻（有時需要抓到 250Hz 以下）減降 5~12dB（有時更多），便能消除那種令人不悅的轟隆聲。這裡所談的，是一般的常規情形（錄音時已經盡了最大的「善意」避免噴麥的發生，但偶有不慎，出現了不是太嚴重的噴麥）。若是「惡意」的嚴重噴麥，就要考慮往上抓到 300Hz 甚至 400Hz 的位置；同時，太強的噴麥，可能要在低頻削減 12～2x dB（甚至更多）才夠。例如這裡所提供的 15秒範例，就是故意製造的十分嚴重的噴麥，是不容易修乾淨的。　總之，要做到這樣的精細編修，就必須切換到頻譜圖來檢視聲波，並且軟體本身得有合適的工具才行。這種操作往往耗時、耗力甚巨，偶一為之尚可，若是噴麥太多，倒不如重錄呢！

　　所以，噴麥的終極應對之道就是：預防勝於治療！一定要在錄音工作開始之初，先找出適當的對麥角度和距離，杜絕噴麥的發生。花一點點時間做好先前的準備工作，可以省下事後沒完沒了的麻煩！前一陣子才讀到美國一位音樂錄音師的工作經驗談，挺有意思的。他說，他每次收人聲時，碰到初次合作的歌者，都要讓歌者先唱一段，在唱的過程中他就拿著麥克風在歌者嘴部左右週圍到處測試，然後仔細聽哪個角度是最「安全」的收音位置。他特別注意 "s" 的嘶聲，因為每個人的牙齒都長得不一樣，咬字方式也不同，某些角度容易收到難聽的嘶聲（甚至造成噴麥），這是因人而異的，有人在左側，有人在右側。為了讓後面的工作順利進行，先前多花點時間測試是比較划算的。

【真刀真槍修復噴麥】

　　本文一開始所介紹的作法 —— 將整段聲音（甚至是整個聲音檔案）套用 FFT Filter 來削減整段聲音的低頻部分，可說是個取巧的便宜之計。為了省事，不得不犧牲整段錄音的低頻，容許音質發生一些改變。若是不想妥協，願意花工夫對噴麥處作精細地的修復的話，首先就得認識聲波的以下兩種檢視圖。初學聲音編修的人，多半只用到第一種聲波圖（Oscillogram），它的橫軸是時間，縱軸是聲波的振輻。而修噴麥和口水音，則需要用到頻譜圖（Spectrogram），它的橫軸一樣是時間，縱軸則是聲波的頻率。接下來，以 Audition 3.0 作示範：

　　以上兩種聲音檢視圖，在錄音軟體中多半會用 "Waveform View" 和 "Spectral View" 之類的稱呼，翻成中文的話，分別就是「波形檢視」和「頻譜檢視」的意思。在頻譜圖中，聲音能量較強的區域呈鮮明的黃色，能量越強則其黃色越鮮明；而聲音能量越弱的區域就越偏向暗紫色。

　　為了能在頻譜圖中清楚地看到噴麥區域，最好先在「設定」中，將頻譜檢視的解析度設成 4096，不過這個設定值需要效能較高的電腦才跑得動。（修口水音時，設成 256 即可）

　　要進入頻譜檢視，Audition 3.0 預設的快速鍵是 Shift + F，要切換回來就按 Shift + W；也可使用選單切換：

　　切換到頻譜檢視介面之後，縱軸的刻度涵蓋了人耳能聽到的整個頻率範圍（20Hz ～ 20,000Hz）。為了方便檢視低頻的部分，就需要對縱軸刻度作 Zoom In，只要在右邊的頻率刻度上按滑鼠右鍵，就會跳出一個選單可以作 Zoom In。通常要做三、四次 Zoom In，才能看清低頻的一些細節，所以用快速鍵 Alt + ＝比較快！

　　本文的聲音範例中那句「奢華配備，氣派非凡」在未修除噴麥之前，用頻譜圖檢視其 1400Hz 以下的部分，就是下圖這樣（綠色方框就是造成噴麥聲的關鍵區塊）：

　　具體的編修作法是：① 點一下框選工具 → ② 在頻譜圖上框取要修整的範圍 → ③ 用滑鼠在上方那個半透明的音量控制鈕（On-Clip Gain Control）上向左拖曳至適當的削減程度（例如圖上的 -14.3 表示減降 14.3dB），即可將②所框取的區塊作適度的減降。

　　一旦選取了一段聲音之後，畫面上就會出現那個半透明的 "On-Clip Gain Control"，這是 Audition 一個很好用的設計，以鼠標對它向左／向右拖曳，即可對音量分別進行削減／增益，這使得局部調整音量的工作變得既直覺又便利。這麼說來，修噴麥也不太費工夫咯？其實不然！

　　修噴麥最難的地方在於「選取」！一旦選對了位置，當然很好辦。但問題是，光看圖並不能看出噴麥的關鍵位置在哪裡。每一個噴麥字音，往往都必須經過反覆聽判、多次嘗試（錯了再 Ctrl + Z）之後，才能找到最佳的框選區塊以及適當的增益值（這時是負值）。再者，ㄆ（p）聲、ㄔ（ch）聲、ㄏ（h）聲、ㄙ（s）聲、.....等等不同字音的噴麥特性各有不同，有些音的噴麥所涉及的頻段可能不限於 200Hz 以下。如果對聲學語音學（Acoustic phonetics）有所認識的話，或許可以縮短嘗試錯誤的摸索時間。看到了沒有？小牲給您挖了好大一個坑啊！有興趣鑽研的同學請自便哈～　說真的，雖然小牲的俄文名字就叫「不折騰不舒服斯基」，但說到「修噴麥」的話.... 還是不想面對！！！

　　下面這個檔案的噴麥修除作業就是在頻譜檢視介面一個字音、一個字音慢慢修出來的（連口水音也順便修掉了），就這麼短短 15秒的錄音，你知道修這些噴麥花了多少時間嗎？嗚～嗚～說起來都是淚！

【處理前】 → ding ding →【頻譜圖處理後】

　　當你在頻譜圖上嘗試編修一些聲音的細節時，不斷反覆重放、仔細聽判問題之所在，接著嘗試框取、修整，結果發現沒做對；然後復原，再度嘗試聽判 → 框取 → 修整......。經歷了無數的嘗試錯誤之後，確實會積累一些經驗，對於日後能更快速地解決問題起到了些許微不足道的助益。而更重大的領悟則是：聲音細節問題之所以很難 100% 準確定位，是否印證了紀錄片《感官世界》所揭示的... 我們所聽到的聲音信號，是由大腦的不同單元分別處理音高、響度、律動（時值），然後這些在極短的瞬間內先後完成的結果，再由更高的皮質中心加以整合，組合成為最終的聲音幻覺（illusion）呢？　參考片中：【神經心理學家 Dr. Daniel Levitin 的解說】以及【Gina Sohn 植入電子耳之後的聽覺重組適應過程】　沉思中...（歪頭）

返回 Layman's Playground