Kaiyun·官方网站-(中国大陆)登录入口

服务热线热线:

0871-63910365

行业新闻

当前位置: 首页 > 新闻资讯 > 行业新闻

Kaiyun:英伟达推出全新自动语音识别开源模型 1秒处理60分钟音频文件

发布时间:2025-05-09点击次数:

  英伟达近日推出了全新自动语音识别(ASR)开源模型Parakeet TDT 0.6B。该模型仅需1秒即可处理长达60分钟的音频文件,其处理速度是现有主流开源ASR模型的50倍。同时,在Hugging Face的Open ASR Leaderboard上,Parakeet TDT 0.6B的字错率(WER)低至6.05%,在开源模型中表现优异,为实时转录、语音分析、呼叫中心智能化以及音频内容索引等企业级应用提供了强大支持。

Kaiyun:英伟达推出全新自动语音识别开源模型 1秒处理60分钟音频文件(图1)

  Parakeet TDT 0.6B基于先进的Transformer架构,采用6亿参数的编码-解码结构,并利用高质量转录数据进行微调。此外,该模型还针对英伟达硬件进行了优化,通过量化和融合内核技术提升了推理效率,并支持TDT(Transducer Decoder Transformer)架构。

  除了速度和精度,Parakeet TDT 0.6B还内置了多项独特功能。该模型还支持将歌曲内容转录为歌词,这一功能在音乐索引和媒体平台中具有广泛的应用前景。此外,该模型还支持数字和Kaiyun平台 官方入口时间戳格式化,能够显著提升会议记录、法律转录和医疗记录的可读性。标点恢复功能的加入,则进一步增强了下游自然语言处理(NLP)应用的表Kaiyun平台 官方入口现。

  iOS 18.5 RC准正式版发布!iPhone 13全系新增卫星连接功能 国行无缘

  孙颖莎同款 OPPO首款开放式耳机Enco Clip官宣:5月15日发布

  中兴U60 Pro图赏:5G-A极速,骁龙X75旗舰芯,性能怪兽降临!

  从阎良少年到C909之父 ,中国大飞机如何冲破全球天际线次刀尖起舞!中国总师亲述:我们如何让失速再无秘密?

上一篇:智能手表贡献第二增长极智能家居和AIoT市场蓄势待发

返回列表

下一篇:人工智能ETF(159819)盘中净申购达3600万份腾讯混