微软发布Text To Speech Avatar AI

作者：Yu 来源：原创 2023-11-16

11月16日消息，据外媒报道，微软日前为 Azure AI Speech 推出了一项名为“Azure AI Speech text to speech (TTS) avatar”的 AI 工具，该技术允许用户通过文本输入创建会说话的化身视频，并使用人类图像构建实时交互式机器人。

Azure AI Speech在11月15日的一篇博客文章中表示，文本到语音化身是一项具有视觉功能的新功能，使用户能够生成2D逼真化身说话的合成视频。

该帖子称，化身模型使用基于人类视频记录样本的深度神经网络进行训练，而声音则由文本到语音的语音模型提供。

该帖子称，这种文字转语音的化身可用于产品介绍、广告、虚拟销售代理、人工智能教师、虚拟人力资源(HR)助理，以及其他应用和用例。

文章称，创建虚拟形象的主要原因之一是简化视频内容的创作。传统的方法需要大量的时间和预算来拍摄和编辑。有了文字转语音的化身，用户可以简单地输入文字，根据自己的需要创建视频。

此外，根据该帖子，Azure OpenAI服务和神经文本到语音的发布使交互式对话更加自然。文本到语音的化身使用户能够创建引人入胜的数字交互，使其成为构建会话代理、虚拟助手、聊天机器人等的理想选择。

该帖子称，Azure AI Speech提供两种不同的文本到语音化身功能。预构建的文本到语音化身在Azure上提供了开箱即用的产品，允许客户从各种视频内容或交互式应用程序中进行选择。自定义文本到语音的化身功能使客户能够通过上传自己的视频记录来为他们的产品或品牌创建个性化化身。

由于微软致力于负责任的人工智能，自定义头像访问是有限的，只有在某些用例下才能通过注册获得。微软表示，这确保了对个人和社会权利的保护，并防止有害的深度造假和误导性内容。

在该领域最近的另一项发展中，Meta发布了一种AI模型，可以为近100种语言进行语音和文本翻译。Meta在8月份发布该产品时表示，该模型支持语音识别、语音到文本翻译、语音到语音翻译、文本到文本翻译和文本到语音翻译。

企业俱乐部