前言
家里有小朋友的都会遇到一个问题:小朋友会让家长讲绘本故事,而且同一个故事会重复的讲。但是并不是每次都有时间可以满足小朋友。如果想要讲的生动形象,一本薄薄的绘本要讲差不多10分钟。讲完这本再来两本,你肯定会口干舌燥。小红书上也有人工讲解的绘本,但是都买了纸质绘本了,你也不想一直让他们看电子屏幕吧,否则纸质书籍也失去的意义。
应对思考
针对讲绘本这件事,如果要有最好的效果就必须有互动,这是机器无法给予的。上面有说到我们无法每次都可以满足小朋友。但是,也不能使用现在听小说的单一音色进行讲解,不带情感的讲解和生动机械的发音很无趣。
加上平时我喜欢听有声小说,之前在站内也发布了一篇《实现听书自由》的文章,讲解了如何进行书籍的转语音。这种方式不太适合讲解绘本,无法实现不同的角色的区分。或许可以配合旁白以不同的音色去演绎不同的角色,还带上对应的情绪。
需求的拆解
从纸质绘本到话剧的转变,首先我们需要对每页的绘本内容进行拆解,进行脚本的编写;然后进行带情绪的语音表达;
第一步:绘本内容的拆解
这一步更像是很久以前在小学时候的看图说话,只是有了AI的加成我们更加的容易了。

投喂给AI,以KIMI为例:

可以制定一段固定的prompt,省的后面老是需要填写,最后可以根据生成的内容进行挑选。建议大家先区分好有多少角色,便于后面制作语音。
账户的注册

首先,我们需要在微软Azure的页面上面创建账户。根据提示一路创建下去即可,可能也需要绑定支付方式。实际接下来的操作中不会有费用的产生。
点击更多服务

搜索‘speak’,选择跳出的Azure AI Services

选择语音服务

创建的时候选择F0,就不会收费,每个月可以有50万字符的文字转语音,超出后就会停止服务

创建完成后,我们选择“转到Speech Studio”

项目的创建
接下来就是选择我们想要的项目:创建有声内容

随后尝试性的输入一些文字,右边可以选择语言和音色,以及很多的调整参数。建议大家根据之前了解的角色提前创建好不同的模版。

当我们测试好一个想要的音色后,点击模版,新建模版。它会记住我们的角色和说话速度等参数。参数很多,有兴趣的可以自己调整下。

教程到这边大家基本都上手了,别忘记把最后的语音导出。
精益求精的思考
真正的走了一圈下来,你可能会发现这个精力的消耗不亚于讲一次绘本。好处就是可以一次的精益求精重复使用,一次的付出永久的使用,有些人会觉得有这功夫不如讲好了,哈哈哈。这可能是底层思考逻辑的差异,如果有时间还是实际陪伴更加重要,但是工具的使用不局限场景。
现在大模型的理解能力已经很不错了,但是一直没有见到有一个项目可以先把一本书的内容结构掉,然后制定出相应的角色,再然后根据上下文赋予他们对应的语气情绪。生成SSML文件。最后把文件导出生成即可出现一本绘声绘色的读物了。下面是SSML文件的介绍:
SSML文本转语音文件是指将符合语音合成标记语言(Speech Synthesis Markup Language,简称SSML)格式的文本,通过语音合成技术转换成可播放的语音音频文件的过程。
SSML文本
- 定义:SSML是一种基于XML的标准标记语言,用于描述文本的语音合成方式。它允许开发者对文本进行详细的标注和控制,以生成更自然、更符合需求的语音输出。
转换过程
- 解析SSML文本:语音合成系统首先解析SSML文本,提取其中的语音合成控制信息,如语音的语速、语调、停顿、发音等。
- 文本处理:对文本进行语言处理,包括词法分析、句法分析等,理解文本的语义和结构。
- 语音合成:根据解析和处理的结果,利用语音合成引擎生成相应的语音音频。这涉及到将文本转换为语音信号的算法和技术,如 concatenative synthesis(拼接合成)和 parametric synthesis(参数合成)。
- 音频输出:最终生成的语音音频可以保存为文件(如MP3、WAV等格式),或者直接通过扬声器播放。
应用场景
- 语音助手:如Siri、Alexa等智能语音助手使用SSML来控制语音输出的自然度和表达效果。
- 有声读物:将电子书或文章转换为语音,方便用户在开车、锻炼等场景下收听。
- 导航系统:汽车导航系统使用SSML来生成清晰、准确的语音提示。
- 教育领域:用于语言学习应用,帮助用户练习发音和听力。
还有一种设想是:结合Azure里面的声音克隆功能,把自己的声音复制,给小孩讲故事。这个成本有些高,后面如果尝试的话可能还是结合开源项目的方式进行合适些,毕竟是自用不进行商用。