手机版
当前位置: 首页 > 实时讯息 >

亚马逊推出新实时语音模型 Nova Sonic,面向第三方企业开发

0次浏览     发布时间:2025-04-09 21:51:00    

来源:至顶网

亚马逊作为电子商务巨头广为人知,而其 Alexa AI 语音助手产品则可能排在其知名产品清单的稍后位置。上个月,Alexa 在 Amazon Nova 和亚马逊投资的 Anthropic 的帮助下获得了重大智能升级。

现在,Alexa 将迎来一位新的亚马逊语音 AI 兄弟:今天,该公司推出了 Amazon Nova Sonic,这是一个新的基础模型,旨在让第三方应用开发者通过亚马逊的 Bedrock 网络平台为其产品构建实时、自然、对话式的语音交互功能。

Nova Sonic 现已通过双向流式应用程序接口 (API) 提供服务。实际上,亚马逊已经将其部分功能——提供表征的语音编码器和语音合成器——整合到了新的 Alexa 模型 Alexa+ 中。

"这种方法使我们能够同时将语音技术的优势应用于不同的使用场景,同时基于客户反馈和技术进步继续发展这两个系统,"一位发言人告诉我们。

显而易见的应用场景包括客户支持和服务、指导、信息检索和娱乐。

统一的方法

Nova Sonic 解决了语音 AI 中的一个关键挑战:技术的碎片化。

亚马逊人工通用智能 (AGI) 高级副总裁兼首席科学家 Rohit Prasad 昨天在通过亚马逊 Chime 视频服务与 VentureBeat 的视频通话采访中表示,传统上,构建语音界面需要结合语音识别、语言处理和语音合成的独立模型。

这种复杂性通常导致机械、不自然的交互以及增加开发成本。

现在,Sonic 试图通过将这三种不同类型的模型合并为一个整体来改进这种状况。

Prasad 解释了该模型的核心创新:"Nova Sonic 将传统上分离的三个模型——语音转文本、文本理解和文本转语音——整合为一个统一系统,不仅能模拟交流的'内容',还能模拟交流的'方式'。"

通过保留声学上下文——如语调、节奏和风格——Nova Sonic 有助于保持人类对话的细微差别。

识别实时双向音频对话的复杂性和特点

Nova Sonic 的一个显著能力是处理实时双向对话。它能识别用户何时停顿、犹豫或打断——这些都是人类语音中常见的行为——并能流畅地响应同时保持上下文。

"这里的真正突破是实时、互动、低延迟的语音交互,这意味着你可以在 AI 说话中途打断它,它仍然能保持上下文并做出连贯回应,"Prasad 说。这一特性在客户服务等场景中尤为重要,因为响应性和适应性至关重要。

内置工具使用和工作流集成

Nova Sonic 还设计为与其他系统无缝集成。它自动生成口头输入的转录,可用于触发 API 或与专有工具交互。这使公司能够构建 AI 代理,执行预约、检索实时信息或回答复杂客户查询等任务。

"你可以通过 Amazon Bedrock 使用 Nova Sonic,并将其与任何工具或专有数据源连接,甚至是视觉数据源,只要它们被包装为可调用的 API,"Prasad 说。这种灵活性使该模型适用于广泛的行业,从教育和旅游到企业运营和娱乐。

基准性能和行业比较

Nova Sonic 已与其他实时语音模型进行了基准测试,包括 OpenAI 的 GPT-4o 和 Google 的 Gemini Flash 2.0。在 Common Eval 数据集上,使用男性声音的美式英语单轮对话,它对 Gemini Flash 2.0 的胜率达到 69.7%,对 GPT-4o 的胜率达到 51.0%。女性声音和英式英语声音也有类似的优势。

Prasad 强调了 Nova Sonic 在其主要语言市场的强劲表现:"Nova Sonic 目前在美式和英式英语方面是同类最佳,在对话自然度和准确性方面甚至超过了 GPT-4o 实时版。"他补充道,"据我们所知,只有两个其他模型——GPT-4o 实时版和 GPT-4o mini 的一个变体——在实时结合语音理解和生成方面接近 Nova Sonic 的水平。这个领域仍然非常早期且非常困难。"

多语言能力和噪声环境处理

在语音识别方面,Nova Sonic 在多语言和真实环境条件下也表现出色。在多语言 LibriSpeech 基准测试中,它的词错误率 (WER) 为 4.2%,在英语、法语、德语、意大利语和西班牙语方面比 GPT-4o Transcribe 高出 36% 以上。在嘈杂的多说话人环境中(使用 AMI 基准测量),Nova Sonic 的 WER 比 GPT-4o Transcribe 改进了 46.7%。

表现力丰富的声音和语言扩展

目前,该模型支持多种表现力丰富的声音,包括美式和英式英语的男性和女性声音。亚马逊表示,其他口音和语言正在开发中,将在未来更新中发布。

低延迟和企业友好的成本

速度和成本也是其吸引力的一部分。第三方基准测试显示,Nova Sonic 的客户感知延迟为 1.09 秒,而 OpenAI 的 GPT-4o 为 1.18 秒,Google 的 Gemini Flash 2.0 为 1.41 秒。

从定价角度看,亚马逊将 Nova Sonic 定位为企业级解决方案。"我们比 GPT-4o 实时版便宜近 80%,这种优越的性价比正在引起从实验转向部署的企业的共鸣,"Prasad 说。

各行业的早期采用

据亚马逊称,不同行业的公司已经开始使用或测试 Nova Sonic。

ASAPP 正在应用该技术优化联络中心工作流程,称赞其准确性和自然对话处理能力。

Education First (EF) 使用该模型为语言学习者提供实时发音反馈,特别是对于具有不同口音的非母语人士。

体育数据提供商 Stats Perform 正利用 Nova Sonic 的低延迟和简单设置为其 Opta AI Chat 平台提供快速、数据丰富的交互。

负责任的 AI 和安全承诺

除了性能和成本外,亚马逊还强调其对负责任 AI 开发的承诺。Nova 系列模型包含内置安全保障,并由 AWS AI 服务卡支持,这些服务卡概述了预期用例、潜在限制和道德准则。

Prasad 强调了亚马逊对信任和安全的关注:"信任对我们至关重要——开发者可以在限制范围内定制个性,但我们设置了强大的护栏来防止语音克隆或不必要的模仿。"他补充道,"我们非常努力地消除幻觉和语音漂移。我们为发布设定的标准很高,因为语音生成必须值得信赖。"

Amazon Nova Sonic 现已通过 Amazon Bedrock 全面上市。有兴趣探索该模型的开发者和企业可以访问
https://aws.amazon.com/nova/ 开始使用。