Forum

Notifications

Clear all

Why do we use this Doubao realtime translation ?

Translation Lotion

最近一次发帖发布者 lucia 11 月前

3 帖子

1 Users

0 Reactions

21 查看

已解决置顶

RSS

帖子: 73

lucia

Admin Registered

Topic starter

2 月 22, 2025 2:09 上午

(@lucia)

会员

已加入: 11 月前

https://news.qq.com/rain/a/20240808A09B3I00

基于豆包大模型，字节推AI同声传译工具，比科大讯飞还能打

AI先锋官官方

2024-08-08 20:46发布于北京

+关注

作者｜子川

来源｜AI先锋官

同声传译是ai的一个重大场景。但是呢！传统同声传译工具总是会出现高延时和翻译质量不行等问题。

造成这种情况的罪魁祸首主要原因就是传统同声传译软通常“错误传播”以及“被低延时受限”。

所以就变得不太好用(但凡好用，早就翻译人员的什么事了）。

对此，字节跳动推出CLASI工具。

CLASI 采用了端到端的架构，所以不会出现错误传播的问题，同时还搭载着豆包，从而获得外部知识进行翻译。根据测试，CLASI 已经达到口译人员的水准。

确定翻译比德芙还丝滑吗？（答案：有滴）

下面让我们来看一下视频。

三个小伙伴在聊健身，翻译的非常顺滑。

，

00:00

03:00

720P

倍速

不仅如此，还可以翻译文言文，这操作就有点意思了。

还可以翻译绕口令，这翻译居然没有打结。

从视频的演示效果来看，CLASI不仅做到了实时翻译，速度更是一绝。同时还具备强大的语音理解能力，不仅能翻译文言文，还能翻译绕口令。(这已经比肩很多口译工作者了）

还有一个重要的点，不知道大家发现没？

那就是CLASI还具备上下文记忆功能，能够记住之前的对话，和真的口译人员一样。这可是传统同声传译所不具备的。

在上述已经展现出CLAS的强大，但是我们再用同行的同声传译工具做一下对比。

上述视频都是官网的，小编在这里顺便准备了讯飞互传来做一下对比。

为什么不用其他的对比？因为就讯飞互传有免费额度（主打的就是白嫖）。

00:00

00:28

倍速

无论是官网的视频还是讯飞互传，个人都觉得CLASL会·更胜一筹。

虽然在这次的报告中没有会议部分的演示，但是会议场景翻译作为CLASL的老本行，相信同样也会给我们很大的惊喜。

同时研究人员在中英和英中翻译中，叫了不同专业同传译员，使用翻译有效性为指标。

结果呢！

CLASI系统不仅跑赢了所有商业和开源的SOTA系统，某些时候，它的表现甚至超越了专业的口译人员，要知道人类同传的平均分大概也就80%。

CLASI为何会如此厉害呢？

那就让我们来细看一下CLASI模型的系统架构。

系统框架：

CLASI系统采用基于大型语言模型（LLM）的智能体架构，将同声传译细化为一系列有序的步骤：音频输入、信息检索（可选）、记忆读取、记忆更新和结果输出。这流程都是由智能体自行，不仅优化了翻译速度与准确性的平衡，而且系统设计灵活，可根据需求进行相应的调整，确保信息传递更加效率和翻译的的准确。底层模型是一个经过大量数据训练的条件化编码器模型（Encoder-conditioned LLM），同时也CLASI提供了强大的语言处理能力。

总的来说，CLASI系统的出现使得翻译的质量提升了一个档次，而且在人工评估中，CLASI 的表现优于现有的自动同声传译系统的性能，几乎达到人类同传的水平。这也意味着未来可能口译人员也会失业。

上述内容为研究论文，目前还没有成品，所以是金子还是银子我们就不得而知了，但是至少CLASI的出现也说明了人工智能在同声传译领域取得重大进展。

.END.

2 Replies

帖子: 73

lucia

Admin Registered

Topic starter

2 月 22, 2025 2:12 上午

(@lucia)

会员

已加入: 11 月前

在中英互译同声传译的领域，哪家的API工具最强？

在中英互译的同声传译领域，以下几家提供了功能强大的API工具：

科大讯飞（iFLYTEK）：其同声传译API支持不限时长的音频流实时识别，并将其翻译为指定语言。目前主要支持中英文互译，适用于WebAPI平台。

xfyun.cn
百度AI开放平台：提供实时语音翻译API，支持中、英、日、韩、法、西、泰、俄等45种语言。该API采用WebSocket协议，可将音频流实时转化为文字，并提供带标点的翻译结果，适用于直播翻译、会议翻译和跨国交流等场景。

ai.baidu.com
微软翻译（Microsoft Translator）：作为微软认知服务的一部分，提供云端机器翻译服务。其API支持文本和语音翻译，涵盖多种语言，并可集成到各种应用中。

en.wikipedia.org
华为HMS Core机器学习服务：该服务提供同声传译功能，支持中英文互译和多种音色的语音播报。通过深度学习技术，实现高精度的语音识别和翻译，适用于多种应用场景。

developer.baidu.com

选择适合的API工具应根据具体需求，如支持的语言种类、平台兼容性、实时性要求以及集成难度等因素综合考虑。

源

有没有基于豆包同声传译的数据？

在中英互译同声传译领域，豆包同声传译模型表现出色。该模型采用端到端架构，实现了高精度、低延时的实时翻译，并支持音色克隆功能，能够在多种专业场景中提供媲美甚至超越人类同传的效果。

team.doubao.com

此外，字节跳动推出了基于豆包大模型的同声传译智能体——CLASI。该系统通过模仿专业译员的策略，结合大规模预训练和模仿学习技术，在人工评估中表现出色，接近人类同传水平。

jiqizhixin.com

值得注意的是，豆包团队在模型训练中强调数据的自主性，表示“不使用任何其他模型数据”，以确保模型的独立性和数据安全。

zhuanlan.zhihu.com

综上所述，豆包同声传译模型及其相关系统在中英互译同声传译领域展现出强大的性能和可靠性。

源

https://zhuanlan.zhihu.com&sz=3 2″ alt=”Favicon” width=”32″ height=”32″ />

https://www.jiqizhixin.com&sz=3 2″ alt=”Favicon” width=”32″ height=”32″ />

https://team.doubao.com&sz=3 2″ alt=”Favicon” width=”32″ height=”32″ />

还有没有别的

在中英同声传译领域，除了之前提到的豆包同声传译模型外，还有其他值得关注的数据集和资源：

BSTC（Baidu Speech Translation Corpus）：由百度公司创建的大规模中英双语语音翻译数据集，包含约68小时的普通话数据及其人工转录和英文翻译文本。该数据集旨在推动自动同声传译的研究和实用系统的发展，适用于自动同声传译系统的评估。

arxiv.org
OC16-CE80：这是一个中英混合语音数据库，包含80小时的语音数据，录制自1400多名说话者。每个语句主要为中文，但包含一个或多个英文单词。该数据集可用于混合语言语音识别研究。

arxiv.org
CVSS（A Massively Multilingual Speech-to-Speech Translation Corpus）：这是一个大规模多语言到英语的语音到语音翻译数据集，涵盖21种语言到英语的句子级并行语音翻译对。该数据集源自Common Voice和CoVoST 2语料库，适用于多语言语音翻译研究。

selectdataset.com
多领域机器翻译基准数据集：由上海交通大学、同壹实验室和澳门大学NLP2CT实验室共同创建，旨在评估大型语言模型在多领域机器翻译中的表现。该数据集包含25个德英和22个中英测试集，涵盖新闻、医疗、法律、IT等15个领域。

selectdataset.com
自然语言处理中英互译数据集：该数据集包含23444条人工翻译的中英文互译文本，适用于自然语言处理领域的研究与开发。

gitcode.com

这些数据集和资源为中英同声传译研究提供了丰富的素材，研究者可以根据具体需求选择合适的数据集进行模型训练和评估。

源

https://gitcode.com&sz=3 2″ alt=”Favicon” width=”32″ height=”32″ />

https://www.selectdataset.com&sz=3 2″ alt=”Favicon” width=”32″ height=”32″ />

https://arxiv.org&sz=3 2″ alt=”Favicon” width=”32″ height=”32″ />

帖子: 73

lucia

Admin Registered

Topic starter

2 月 22, 2025 2:14 上午

(@lucia)

会员

已加入: 11 月前

豆包说的：

在豆包大模型家族中，用于翻译且表现出色的是搭载豆包大模型的 CLASI 工具。

CLASI 采用端到端的架构，不会出现传统同声传译软件 “错误传播” 的问题，同时还能搭载豆包大模型从而获得外部知识进行翻译。经测试，它已经达到口译人员的水准，具体优势如下：

翻译顺滑且速度快：能够做到实时翻译，比如三个小伙伴聊健身时，它可以进行非常顺滑的翻译。
理解能力强：具备强大的语音理解能力，不仅能翻译日常对话，还能处理文言文、绕口令等较难的内容。
具备上下文记忆功能：能够记住之前的对话内容，表现如同真正的口译人员，这是传统同声传译工具所不具备的。
翻译有效性高：研究人员在中英和英中翻译测试里，邀请不同专业的同传译员，以翻译有效性为指标进行评估。结果显示，CLASI 系统不仅超越了所有商业和开源的 SOTA 系统，某些时候其表现甚至超越了专业的口译人员。

留下回复

9 论坛
47 话题
133 帖子
0 在线
6 成员

Forum Icons: Forum contains no unread posts Forum contains unread posts

话题图标: Not Replied 回复活跃热门置顶未过审已解决私密的已经关闭

Forum

Why do we use this Doubao realtime translation ?

基于豆包大模型，字节推AI同声传译工具，比科大讯飞还能打

ChatGPT said:

You said:

ChatGPT said:

You said:

ChatGPT said: