Forum

翻译APP….new idea..
 
Notifications
Clear all

翻译APP….new idea..

3 帖子
1 Users
0 Reactions
8 查看
帖子: 14
Admin
Topic starter
(@wise2025)
会员
已加入: 1 月 前

会议实时语音翻译流程:专门一部旧手机作为处理器来处理音频流,生成转写文字(这样的延迟比音频流上传到服务器要少的多了),之后把转写后的文字输送到API中翻译,在会议的字幕上显示双语。

用户端:手机端APP或网页。

2 Replies
帖子: 14
Admin
Topic starter
(@wise2025)
会员
已加入: 1 月 前

https://www.volcengine.com/docs/82379/1433754 才发现火山刚上线了同声传译的大模型……

开始和GPT研究:

————————————————————————————————————————————

火山同声传译的计费 (元/千 token)语音输入:0.03 文本输出:0.03 这样的话一小时是多少钱
ChatGPT said:

火山同声传译的计费方式是按照 千 tokens(1000 tokens)计算的,每 千 tokens 语音输入 0.03 元,文本输出 0.03 元。要计算 一小时的费用,需要先估算 一小时的 token 数量

估算 token 数量:

  1. 语音输入

    • 正常语速:大约 150 字/分钟
    • 一小时:150 × 60 = 9000 字
    • 1 token ≈ 1.3 字(中文)
    • 9000 字 ≈ 7000 tokens
    • 费用:(7000 / 1000) × 0.03 = 0.21 元
  2. 文本输出

    • 假设转换后的文本长度和输入相近(约 7000 tokens)
    • 费用:(7000 / 1000) × 0.03 = 0.21 元

总费用:

  • 语音输入费用:0.21 元
  • 文本输出费用:0.21 元
  • 合计:0.42 元/小时

结论:按照 150 字/分钟的语速,一小时的火山同声传译大约 0.42 元。如果语速更快,费用会相应增加。

火山引擎同声传译和实时语音翻译API有什么区别?
ChatGPT said:

火山引擎的同声传译实时语音翻译API在功能、应用场景和技术实现上存在显著差异。

同声传译

  • 功能:提供实时语音识别、翻译和字幕生成,支持多语言互译,旨在为会议、直播等场景提供低延迟、高准确度的同声传译服务。

  • 应用场景:国际会议、媒体活动、学术论坛等需要实时、多语言交流的场合。

  • 技术实现:采用端到端的同声传译模型,如豆包同声传译模型,直接将源语言语音转换为目标语言文本或语音,减少中间环节,降低延迟,提高准确性。

实时语音翻译

  • 功能:将实时语音流或音频文件转录为文字,并翻译成目标语言,实现“边说边译”的效果。

  • 应用场景:实时对话、在线教育、跨语言交流等需要即时语音翻译的应用程序和服务。

  • 技术实现:集成语音识别(ASR)、智能断句和文本翻译等技术,将语音内容转写为文字后,再进行机器翻译。

主要区别

  1. 技术流程:同声传译采用端到端模型,直接从源语言语音生成目标语言文本或语音;实时语音翻译则分阶段处理,先进行语音识别,再进行文本翻译。

  2. 延迟:同声传译通过减少中间处理环节,实现更低的延迟,适用于对实时性要求极高的场景;实时语音翻译由于分阶段处理,延迟相对较高。

  3. 应用场景:同声传译适用于大型会议、直播等需要高质量、多语言同步翻译的场景;实时语音翻译更适合日常对话、教育等需要即时翻译的应用。

综上,火山引擎的同声传译和实时语音翻译API各有侧重,用户可根据具体需求选择合适的服务。

回复
帖子: 14
Admin
Topic starter
(@wise2025)
会员
已加入: 1 月 前
Doubao-1.5-pro-32k
后付费
0.0008元/千tokens
0.0020元/千tokens
0.0008元/千tokens
0.0020元/千tokens
推理按tokens使用量(输入文本+输出文本)计费,每小时出账
回复
Share: