diff --git a/new-edition-drafts/17-拿腔拿调.md b/new-edition-drafts/17-拿腔拿调.md new file mode 100644 index 00000000..9b71b1ea --- /dev/null +++ b/new-edition-drafts/17-拿腔拿调.md @@ -0,0 +1,80 @@ +# 拿腔拿调 + +最初的时候,我们用 TTS 引擎为我们制作 “跟读范本”。以前的 TTS 引擎多少粗糙,不太够用。然而,到了 2020 年前后,几乎所有 TTS 引擎都突然之间一下子摆脱了已经延续了二十多年的 “机器腔”,变得极像真人语音。2019 年 8 月,微软在 Edge 浏览器里发布了 Read Aloud 的功能,为几十种语言提供了若干个 “自然语音”(Natural Voice Options),“自然” 到了令人震惊的地步。这背后,除了对早期的 ToBI 算法的精雕细琢之外,更多的是基于神经网络的深度学习的爆发在起作用,数据足够多,算力足够大,人工智能就可以 “大力出奇迹”…… + +然而,对学习者、练习者来说,TTS 引擎再好也不够用,核心原因在于,它缺乏 “情感”、“情绪”,于是,“说话过于平淡”。所以,我们必须想办法为自己扩大范围,找更多的材料帮助我们自己。 + +最直观的是 “有声书”。成立于 1995 年的 [Audible](https://www.audible.com/) 于 2008 年被 [Amazon](https://www.amazon.com/) 以 3 亿美金的价格收购之后,在随后的十多年时间里,其 “书库” 被放大了无数倍。今天,Kindle 上绝大多数新出版的 “畅销书” 都带着 “有声版”。对学习者、练习者来说,更好的消息时,Audible 网站上有大量免费的 “Samples”,即,有声书的 “样书”,虽然都只是片段,但,3 分钟左右的长度,非常适合作为练习材料。Audible 上有声书的朗读者,大多都是训练有素的专业人士,他们的朗读,情绪饱满,语调丰富,只要用工具看看他们朗读的语音的 Pitch Contour(音高变化展示)就知道和 TTS 有多么不一样了。 + +另外,我们能想到的几乎所有的 “经典”,都可以在 Audible 上找到。圣经,美国宪法,莎士比亚的广播剧,经典少儿读物,各类小说,等等等等,都可以买来作为我们的练习材料。 + +另外一个比较集中的练习材料来源是 [TED](https://www.ted.com),它成立于 1984 年,2001 年左右开始做网络运营,免费提供演讲视频。经过几十年的积累,TED 上的 “讲演” 几乎涵盖了所有领域,从科学到商业,并且是全球化的,涵盖的语言超过 100 多种 —— 最多的当然是英语。TED 上的视频,都有完善的 Interactive Transcripts,可以 “点哪句台词就跳到哪里开始播放” 非常方便。 + +“演讲” 是一种特殊的说话方式。因为在台上,因为要对着很多人说,所以,演讲者在说话的时候,比平时声音略高,吐字更为清晰,情绪更为饱满,同时格外讲究 “说清楚”,力求他人 “听明白”,所以,连逻辑组织和措辞方式都有所不同。 + +“脱口秀”(Talkshow),其实也是很好的材料,只不过它们总是散落在各处…… 这个类别的练习材料相对集中的地方是 [Youtube](https://www.youtube.com)。只要是你喜欢的脱口秀艺人,在 Youtube 上搜索一下名字,总是可以找到若干个片段甚至集锦。脱口秀作为练习材料的好处在于,除了更有趣之外,脱口秀的内容永远是由很多个小片段组成的,随便截出来一段,都是完整的 “段子”。并且,这种东西值得多看,看多了,自己也会在不知不觉之间变得更有趣一些。 + +当然,从寻找 “情绪饱满” 的角度望过去,最佳的练习材料肯定是影视剧集。流媒体的发展,使得今天的人们 “完全看不过来”,好电影、好剧集简直没完没了,并且,随着时间的推移,经典在不断积累,数量不断增加。 + +最好的事情是,几乎所有的经典影视剧集都有完整的字幕。到了 2023 年,OpenAI 的 [Whisper](https://github.com/openai/whisper) 开源,制作字幕的成本突然降低到了几近于零的地步 —— 不管是什么,只要你需要,它就可以以比人工快几万倍的速度帮你搞定字幕,甚至可以做到 “时间轴精确到每个词汇”。 + +在 “自然学说话” 的过程中,我们时时刻刻经历的都是 “情绪饱满” 的语音,而不是过往录音教材那种 “标准却又刻板”,或者 TTS 的 “标准却又平淡且千篇一律”。所以,“可以增加情绪饱满的练习材料” 其实是 “外语学习者” 的 “刚需”,否则,“事倍功半”。 + +有了 “情绪饱满” 的 “练习材料” 之后,所谓的 “秘籍” 就是 “**拿腔拿调地练**”。 + +不仅要想办法做到 “**音素准确**”,并且可能要仔细分辨 “不同的人” 针对 “相同的音素” 特有的 “不同的发声方式”。比如,已故电影明星[肖恩·康纳利](https://www.imdb.com/name/nm0000125/)(Sean Connery, 1930~2020),说话的方式就相对比较特殊,乃至于 “声音辨识度” 非常高,哪怕不出镜,只听声音就知道是他在说话。印象中比较深刻的是,在 1996 年的《魔幻屠龙》([Dragonheart](https://www.imdb.com/title/tt0116136/))中,肖恩·康纳利在片中并未出镜,只是为故事中的一条神龙配音,但,你只要听到神龙 Draco 的第一句台词,“Are the stars shining tonight?”(00:10:24),就知道那只能是肖恩·康纳利的声音…… “拿腔拿调” 地模仿他的方式,就是 “把舌头往后多卷一点点”…… + +