https://news.qq.com/rain/a/20240808A09B3I00
基于豆包大模型,字节推AI同声传译工具,比科大讯飞还能打
作者|子川
来源|AI先锋官
造成这种情况的罪魁祸首主要原因就是传统同声传译软通常“错误传播”以及“被低延时受限”。
所以就变得不太好用(但凡好用,早就翻译人员的什么事了)。
对此,字节跳动推出CLASI工具。
CLASI 采用了端到端的架构,所以不会出现错误传播的问题,同时还搭载着豆包,从而获得外部知识进行翻译。根据测试,CLASI 已经达到口译人员的水准。
确定翻译比德芙还丝滑吗?(答案:有滴)
下面让我们来看一下视频。
三个小伙伴在聊健身,翻译的非常顺滑。
,
不仅如此,还可以翻译文言文,这操作就有点意思了。

还可以翻译绕口令,这翻译居然没有打结。

从视频的演示效果来看,CLASI不仅做到了实时翻译,速度更是一绝。同时还具备强大的语音理解能力,不仅能翻译文言文,还能翻译绕口令。(这已经比肩很多口译工作者了)
还有一个重要的点,不知道大家发现没?
那就是CLASI还具备上下文记忆功能,能够记住之前的对话,和真的口译人员一样。这可是传统同声传译所不具备的。
在上述已经展现出CLAS的强大,但是我们再用同行的同声传译工具做一下对比。


上述视频都是官网的,小编在这里顺便准备了讯飞互传来做一下对比。
为什么不用其他的对比?因为就讯飞互传有免费额度(主打的就是白嫖)。
无论是官网的视频还是讯飞互传,个人都觉得CLASL会·更胜一筹。
虽然在这次的报告中没有会议部分的演示,但是会议场景翻译作为CLASL的老本行,相信同样也会给我们很大的惊喜。
同时研究人员在中英和英中翻译中,叫了不同专业同传译员,使用翻译有效性为指标。
结果呢!
CLASI系统不仅跑赢了所有商业和开源的SOTA系统,某些时候,它的表现甚至超越了专业的口译人员,要知道人类同传的平均分大概也就80%。
那就让我们来细看一下CLASI模型的系统架构。
系统框架:
CLASI系统采用基于大型语言模型(LLM)的智能体架构,将同声传译细化为一系列有序的步骤:音频输入、信息检索(可选)、记忆读取、记忆更新和结果输出。这流程都是由智能体自行,不仅优化了翻译速度与准确性的平衡,而且系统设计灵活,可根据需求进行相应的调整,确保信息传递更加效率和翻译的的准确。底层模型是一个经过大量数据训练的条件化编码器模型(Encoder-conditioned LLM),同时也CLASI提供了强大的语言处理能力。
总的来说,CLASI系统的出现使得翻译的质量提升了一个档次,而且在人工评估中,CLASI 的表现优于现有的自动同声传译系统的性能,几乎达到人类同传的水平。这也意味着未来可能口译人员也会失业。
上述内容为研究论文,目前还没有成品,所以是金子还是银子我们就不得而知了,但是至少CLASI的出现也说明了人工智能在同声传译领域取得重大进展。
ChatGPT said:
You said:
ChatGPT said:
You said:
ChatGPT said:
豆包说的: