使用TTS分角色给儿童讲绘本

前言

家里有小朋友的都会遇到一个问题：小朋友会让家长讲绘本故事，而且同一个故事会重复的讲。但是并不是每次都有时间可以满足小朋友。如果想要讲的生动形象，一本薄薄的绘本要讲差不多10分钟。讲完这本再来两本，你肯定会口干舌燥。小红书上也有人工讲解的绘本，但是都买了纸质绘本了，你也不想一直让他们看电子屏幕吧，否则纸质书籍也失去的意义。

应对思考

针对讲绘本这件事，如果要有最好的效果就必须有互动，这是机器无法给予的。上面有说到我们无法每次都可以满足小朋友。但是，也不能使用现在听小说的单一音色进行讲解，不带情感的讲解和生动机械的发音很无趣。

加上平时我喜欢听有声小说，之前在站内也发布了一篇《实现听书自由》的文章，讲解了如何进行书籍的转语音。这种方式不太适合讲解绘本，无法实现不同的角色的区分。或许可以配合旁白以不同的音色去演绎不同的角色，还带上对应的情绪。

需求的拆解

从纸质绘本到话剧的转变，首先我们需要对每页的绘本内容进行拆解，进行脚本的编写；然后进行带情绪的语音表达；

第一步：绘本内容的拆解

这一步更像是很久以前在小学时候的看图说话，只是有了AI的加成我们更加的容易了。

投喂给AI，以KIMI为例：

可以制定一段固定的prompt，省的后面老是需要填写，最后可以根据生成的内容进行挑选。建议大家先区分好有多少角色，便于后面制作语音。

账户的注册

首先，我们需要在微软Azure的页面上面创建账户。根据提示一路创建下去即可，可能也需要绑定支付方式。实际接下来的操作中不会有费用的产生。

点击更多服务

搜索‘speak’，选择跳出的Azure AI Services

选择语音服务

创建的时候选择F0，就不会收费，每个月可以有50万字符的文字转语音，超出后就会停止服务

创建完成后，我们选择“转到Speech Studio”

项目的创建

接下来就是选择我们想要的项目：创建有声内容

随后尝试性的输入一些文字，右边可以选择语言和音色，以及很多的调整参数。建议大家根据之前了解的角色提前创建好不同的模版。

当我们测试好一个想要的音色后，点击模版，新建模版。它会记住我们的角色和说话速度等参数。参数很多，有兴趣的可以自己调整下。

教程到这边大家基本都上手了，别忘记把最后的语音导出。

精益求精的思考

真正的走了一圈下来，你可能会发现这个精力的消耗不亚于讲一次绘本。好处就是可以一次的精益求精重复使用，一次的付出永久的使用，有些人会觉得有这功夫不如讲好了，哈哈哈。这可能是底层思考逻辑的差异，如果有时间还是实际陪伴更加重要，但是工具的使用不局限场景。

现在大模型的理解能力已经很不错了，但是一直没有见到有一个项目可以先把一本书的内容结构掉，然后制定出相应的角色，再然后根据上下文赋予他们对应的语气情绪。生成SSML文件。最后把文件导出生成即可出现一本绘声绘色的读物了。下面是SSML文件的介绍：

SSML文本转语音文件是指将符合语音合成标记语言（Speech Synthesis Markup Language，简称SSML）格式的文本，通过语音合成技术转换成可播放的语音音频文件的过程。

SSML文本

定义：SSML是一种基于XML的标准标记语言，用于描述文本的语音合成方式。它允许开发者对文本进行详细的标注和控制，以生成更自然、更符合需求的语音输出。

转换过程

解析SSML文本：语音合成系统首先解析SSML文本，提取其中的语音合成控制信息，如语音的语速、语调、停顿、发音等。
文本处理：对文本进行语言处理，包括词法分析、句法分析等，理解文本的语义和结构。
语音合成：根据解析和处理的结果，利用语音合成引擎生成相应的语音音频。这涉及到将文本转换为语音信号的算法和技术，如 concatenative synthesis（拼接合成）和 parametric synthesis（参数合成）。
音频输出：最终生成的语音音频可以保存为文件（如MP3、WAV等格式），或者直接通过扬声器播放。

应用场景

语音助手：如Siri、Alexa等智能语音助手使用SSML来控制语音输出的自然度和表达效果。
有声读物：将电子书或文章转换为语音，方便用户在开车、锻炼等场景下收听。
导航系统：汽车导航系统使用SSML来生成清晰、准确的语音提示。
教育领域：用于语言学习应用，帮助用户练习发音和听力。

还有一种设想是：结合Azure里面的声音克隆功能，把自己的声音复制，给小孩讲故事。这个成本有些高，后面如果尝试的话可能还是结合开源项目的方式进行合适些，毕竟是自用不进行商用。