如果由電腦自動產製有聲書... 真人錄音可以休矣?

2016-08-09 by Marvin


【錄音志工好辛苦!】
為服務視障朋友的有聲書錄製,一向是件辛苦的工作。錄音志工們在錄製時,不小心唸錯字,重來!語氣拿捏不妥,重來!錄到太明顯的雜音,又修不掉,重來!就這麼修修改改,一本300頁的白話文通俗讀物,通常也得耗費上百小時才能錄完。

萬一碰上「文字密度」較高、用字生僻、偏好文白夾雜的作者,我該怎麼唸,才能充分傳達作者的意思,讓聽者可以理解呢?這時往往覺得自己智商不夠用了!遇上不太確定的字音,就得猛查字典。碰到文中夾雜/括注的各種外文,一本英文字典不夠用;尤其是語源各異的人名、地名,不要說字典不夠用了,連 YouTube、Vimeo 等視頻資源都得費一番工夫去搜索、查看,才有機會搞清楚那些名字到底該怎麼唸。例如,以色列物理學家 Yuval Ne'eman,這名字該怎麼唸啊?會不會有什麼怪怪的希伯來語唸法呀?當劉毅的《專有名詞發音辭典》和大修館的《ジーニアス英和辞典》都無法給出解答時,就只好嘗試從一些視頻中尋出答案了。


【電腦自動產製有聲書?】
有了 Text-to-Speech 的電腦語音合成技術,錄音志工們可以解脫了嗎?
希望有這麼一天!不過,恐怕得先讓電腦具備糾錯的能力。小牲曾經錄過的書並不多,但在書中發現各種各樣的錯誤卻是十分普遍。下圖所示是一本校對堪稱嚴謹,錯字不多見的好書;不過,電腦遇上 這一頁,大概會直接讀成「關關ㄙㄨㄟ鳩」吧!



而以下 這一段,如果是電腦語音合成的,羅馬「教廷」 大概就會成為 羅馬「教ㄧㄢˊ」 了吧!

當然,以上所述,是假設產製有聲書的電腦,在沒有足夠的雲端資料庫支援的情況下單機作業,大概就很難對書籍內容糾錯。不過,電腦如果主動糾錯,會不會矯枉過正,在修正錯字的同時,也擅自將作者某些有意為之的特殊用字/用詞給改掉,反倒「化神奇為腐朽」呢?這個問題,還是留給人工智能方面的專家去傷腦筋吧!


【人腦 vs 電腦】
電腦的高效運作,是人力無法匹敵的。但優秀人力的學養和智慧,也是現有電腦技術難以輕言取代的。愚以為,作為一個錄音志工,若只是機械化地逐字唸稿,則與電腦語音合成技術相去無幾。優質的真人錄音,至少具有以下幾項特點,恐怕是電腦在可預見的未來,都難以企及的:

  1. 合理的 停/連斷句 處理,使得內容易於理解。(請注意:停連、斷句的處理,應依文意脈絡來判斷,而不是標點符號。請參閱 停連 vs 標點

  2. 當文中偶爾出現不適合聲語表達的書面語時,能夠審酌文情義理,略加調整變通,改採利於聽解的方式傳述。

  3. 有時作者連續使用代詞「他」、「她」敘事,視讀者可以區別誰是誰,而聽者卻難以區別誰是誰的時候,明智的讀稿人能夠顧及視障聽者的需要,適時以人名、稱謂等取代「他」或「她」,作出清楚的人物交代。

  4. 老一輩以紙筆撰稿的作者,有時偏好以「之」字代替「的」字,因為「之」字筆畫簡省,便於書寫。對於視讀者而言,作為結構助詞的「之」字與「的」字,功用相同;但轉換成沒有視覺憑藉的聲語表達時,某些語句卻因為用了「之」(而非「的」),變得難以聽解,或者不倫不類。優秀的讀稿者,應能善加鑑別,知所權變。

  5. 能將場景描寫的文字,用適當的語氣呈現,不拘泥於書面文字,(在不扭曲原著的前提下)輔以適當的字音變讀、語助詞、氣聲等等,形成生動的聲語表現。(請注意:不要習慣性地一看到引號「」當中的話語,就開始摸擬人物口氣說話了。要能區別,有些「」帶出了會話場景,可以揣摸場景和語氣;有些「」則是引述原文,不適合當作會話場景來處理的。請參閱 引述 vs.會話場面




返回  Layman's Playground