亚马逊的新AI转录和无服务器扩展 (Yàmǎxùn de xīn AI zhuǎn lù hé wú fúwù qì kuòzhǎn)

亚马逊新的AI转录和无服务器扩展技术 (Yàmǎxùn xīn de AI zhuǎn lù hé wú fúwù qì kuòzhǎn jì shù)

Amazon Web Services (AWS)最近宣布了对其基于云的自动语音识别服务Amazon Transcribe的重大扩展，使其能够进行100多种语言的转录。这项新功能利用了在数百万小时的语音数据上训练的生成型AI模型，根据亚马逊的一篇博客文章。

以前，Amazon Transcribe支持79种语言，准确率为20-50%。现在，驱动转录服务的新型自我监督算法可以识别各种语言中的独特语音模式和口音。这样可以防止在训练数据中过度呈现特定语言，确保准确性在使用率如何广泛的语言中保持一致。

AI的进步显着扩大了自动转录的可访问性，以前只能用于英语和西班牙语等常见语言。AWS客户现在可以在全球范围内利用此服务，构建需要语音转文本功能的应用程序。

自动标点、自定义词汇表、语言识别和内容过滤等功能为转录音频和视频记录提供了额外的可用性。据报道，这种转录技术甚至可以在嘈杂的环境中理解语音，使其非常适合汇总呼叫中心的互动信息。

AWS的通话分析平台已经利用Amazon Transcribe生成客服与客户通话记录的自动生成摘要。这减少了解释通话和提取有意义的见解所需的手动工作量。行业专家认为，随着语音识别准确性的不断提高，此类AI服务的整合将在各种业务应用中加速。

虽然Amazon Transcribe在云转录领域仍然是一个重要的参与者，但它面临着来自Otter.ai等公司的越来越多的竞争，后者提供其自己的AI摘要功能。同时，像Meta这样的主要技术公司对语音识别也越来越感兴趣，他们正在开发一种能够识别近100种语言的翻译模型。

OpenAI也推出了其开源转录软件，它仍然非常接近转录性能的前沿，并且可以在消费者硬件上进行本地运行，该软件称为Whisper。该公司在2022年9月推出了该软件以及按需转录服务。

特色图片来源：Elias Tigiser；