科技观察丨AI语音技术正悄悄改变互联网的一个细分领域
大众日报记者 汤代禄
2023-08-14 11:21:34 发布来源:大众报业·大众日报客户端
记者采用“无界AI”绘制
本文约1400字,阅读约需2.5分钟,聆听约需5分钟。
AI播报语音记者采用喜韵音坊合成
近日,记者发现有的微信公众号文章,多出了一个小耳机图标,并显示有多少用户收听了该文章。点小耳机图标后发现是微信AI语音朗读功能。该功能可在准备分享稿件时弹出的选项窗口中选择“朗读”按钮体验。另外,微信还提供了“关怀模式”,可实现文字消息的AI播报。在“微信→我→设置→关怀模式→开启→听文字消息”可设置体验。由此,记者对AI语音应用进行了简要观察梳理。
一、AI语音技术越来越成熟。国内AI语音市场,科大讯飞持续深耕,百度、阿里、腾讯、小米等大厂也都在各自云平台提供AI语音服务,开发会议实时字幕、同声翻译、语音录入等系统实现沟通交流更高效,融入文心一言、讯飞星火等大模型实现智能语音对话,设计小度、小爱、天猫精灵等智能音箱实现家居控制和情感陪伴。AI语音技术既实现了机器语音的情感化表达,又实现了小样本的个性语音训练、个性声纹提取。同时在不同方言、不同外语、跨语种翻译方面持续完善,在现实语境的实时语音识别、实时语音生成等方面持续突破。总体感觉是越来越像真人了,也越来越实用了。
二、央媒AI语音应用越来越普及。学习强国与科大讯飞合作自2019年上线普通话AI语音播报功能,采用了著名播音主持人的语音进行了个性化训练,形成了与真人非常相似的 AI语音。2020年上线连续播报功能,2021年新增英语、粤语等语种,2023年新增客家话,使AI语音应用越来越丰富。人民日报、新华社、央视新闻等央媒客户端纷纷上线AI语音播报功能,点击稿件详情页右上角的耳机图标,就能体验AI语音对新闻内容的播报,基本涵盖各频道包括时政新闻在内的图文稿。
三、平台应用成效越来越明显。喜马拉雅、荔枝、懒人听书等音频平台采用AI语音技术创新业务模式,提高生产效率成效明显。喜马拉雅4月发布的《2023春日听书数据报告》显示;2022年,AIGC专辑数同比增长354%,AIGC内容播放时长同比增长207%,AI技术极大提高了生产效率。采用AI语音模拟已故艺术家声音推出“单田芳声音重现”系列新专辑百余张,播放量破亿。荔枝结合AI语音和大模型技术,推出“My AI friend”“小吱”等AI语音聊天机器人,创新陪伴体验。懒人听书中“AI朗读”标签资源有1.2万个,“AI版”朗读专辑近千。AI语音技术有望突破音频平台内容成本高的发展瓶颈。
四、AI语音应用体验越来越丰富。百度APP持续升级“看听模式”,通过多种AI语音智能交替、自动连续播报功能,既实现了多种声色AI语音的交替组合,避免了单调,还实现了新闻信息流的持续播报,很好地适应了散步、开车等实际应用场景。这些AI语音中,既可以通过录制用户自己语音个性化定制音色,又提供了明星语音、不同音色语音、方言语音等,形成丰富的 AI语音播报体验。移动版WPS内置AI语音播报功能。浏览模式下,可在工具菜单里点击“语音朗读”按钮体验。记者常用来听检所写的文字,聆听较长的文本资料。
五、AI语音录入越来越快捷。讯飞、百度、搜狗、QQ等输入法均内置了AI语音录入功能。通过上下文语境的约束,这些语音录入对完整的长句子识别更加精准。想好一个完整句子后,再用语音录入,会大大提升文本录入效率,同时训练作者出口成章的能力。本文,就是记者主要采用语音录入的方式创作完成的。当然,目前AI语音录入对普通话的识别能力更强。为扩展适用范围,AI语音录入正在不断增加各种方言、民族语言、外国语言的识别。
(大众日报客户端记者 汤代禄 报道)
责任编辑: 李文智