当前位置:首页 > 今日资讯

英伟达推新AI语音甄别模子Parakeet 号称优于Whisper 别模拥有0.6-1.1亿参数

划重心:

- 🌟 NVIDIA NeMo 推出 ParakeetASR 模子,英伟I语音甄优于完成了卓著的达推语音甄别准确性 。

英伟达推新AI语音甄别模子Parakeet 号称优于Whisper 别模拥有0.6-1.1亿参数

- 🚀 Parakeet 模子鉴于 RNN Transducer 和 Connectionist Temporal Classification 解码器 ,别模拥有0.6-1.1亿参数 。英伟I语音甄优于

- 🎯 Parakeet 模子在种种基准数据集上展现卓越 ,达推有用于分歧语音情况下的别模广东出国劳务招聘信息网语音转写。

1月8日 音讯:抢先的英伟I语音甄优于开源对话 AI 工具包 NVIDIA NeMo宣告推出 Parakeet ASR 模子系列 ,这是达推一系列最早进的自动语音甄别(ASR)模子 ,能够以卓越的别模准确性转录英语书面语  。Parakeet ASR 模子与 Suno.ai 协作开辟 ,英伟I语音甄优于是达推语音甄别畛域的一大突破  ,为完成更做作高效的别模人机交互摊平了途径 。

依据开辟职员的英伟I语音甄优于说法 ,这些模子对音乐和静音等非语音片断拥有鲁棒性,达推而且在基准尝试中优于 OpenAI 的别模出国劳务日本费用多少 Whisperv3 。它们还通过预先训练的掌握点提供用户友好的集成到项目中。

NVIDIA 宣告推出了四个 Parakeet 模子,这些模子鉴于 RNN Transducer / Connectionist Temporal Classification 解码器,而且拥有0.6-1.1亿参数 。它们能够应付种种音频情况  ,而且在仅运用了64 ,000小时的出国劳务费用数据集停止训练后 ,在基准数据集上完成了卓越的词同伴率(WER)展现,优于以往的模子 。

Parakeet RNNT1.1B - 最佳甄别准确性,推理速率适中。当需要最准确的转录时最有用 。

Parakeet CTC1.1B - 推理速率快,甄别准确性强 。在准确性和推理速率之间赢患有很好的平稳。

Parakeet RNNT0.6B - 甄别准确性强,推理速率快 。有用于有限资源的日本就业大领域推理。

Parakeet CTC0.6B - 速率最快 ,甄别准确性适中 。在转录速率最主要的状况下异常有用。

Parakeet 模子对非语音片断(席卷音乐和静音)拥有抗滋扰威力,有用预防天生虚拟的转录效果。Parakeet 是鉴于 NVIDIA NeMo 工具包建立的 ,注重用户友好性和天真性。预训练的搜检点可供直接运用,将模子集成到项目中异常省事。不论是追求立即推理威力照样针对一定恣意停止微调,NeMo 都提供了一个壮大而直觉的框架 ,充散施展模子的潜力。

Parakeet 模子的主要长处席卷:

- 最早进的准确性:在种种音频泉源和畛域上拥有卓越的 WER 展现,并对非语音片断拥有壮大的鲁棒性 。

- 分歧的模子巨细:提供了0.6B 和1.1B 参数的两种模子,能够对庞杂语音形式停止壮大的明白。

- 开源和可扩张性:鉴于 NVIDIA NeMo 建立 ,能够无缝集成和自界说。

- 预训练搜检点:可用于推理或微调的即插即用模子。

- 宽松的允许证:依据 CC-BY-4.0允许证宣布  ,模子搜检点可在职何商业运用中运用 。

Parakeet 是对话 AI 生长的重要先进 。其卓越的准确性,加之 NeMo 提供的天真性和易用性 ,使开辟职员能够建立更做作 、直觉的语音运用顺序 。从提升虚拟助手的日本劳务准确性到完成无缝的适时通讯 ,有限能够 。Parakeet 系列模子在 HuggingFace Leaderboard 上赢患有最早进的问题。用户能够自己实验 parakeet-rnnt-1.1b ,并在 Gradio 演示中运用 。要在要地走访模子并钻研工具包 ,请走访 NVIDIA NeMo 的 Github 页面。

民间博客网址:https://nvidia.github.io/NeMo/blogs/2024/2024-01-parakeet/

分享到: