V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
yedaxia
V2EX  ›  分享创造

分享一个 AI 字幕工具,自建的语音转写服务,更高的准确度,支持英日韩法等 20 多国家语言

  •  
  •   yedaxia ·
    YeDaxia · 2023-01-25 12:21:39 +08:00 · 4000 次点击
    这是一个创建于 676 天前的主题,其中的信息可能已经有所发展或是发生改变。

    软件首页:33 字幕

    V 友们新年好,我是 33 字幕软件的开发者。

    AI 字幕工具已经很多了,为什么还要重新做一个呢?

    作为一名独立开发者,在一个竞争激烈的领域,胜算是很低的,另外一方面,做同样的东西意义也不大。

    之所以打算自己做一个,原因主要有两个:一个是自己这边就有制作字幕的需求,长期来看可以降低一下这方面的成本。还有一个重要的原因是,我们有尝试接入过不少国内云服务商的语音转写服务接口,但对于非中文,发现识别结果没有很理想。

    如果你试用一下 33 字幕,你会发现识别的准确度比很多软件要好不少,尤其是外语,不过准确的背后也是有代价的,相应消耗的算力成本也会成倍增加。

    除了自己部署的语音转写模型,我们也集成了阿里云、讯飞语音等第三方的语音转写服务。

    和大部分 AI 字幕工具不一样,我们把选择权交给使用者,你可以选择效果好成本高的引擎,也可以效果没那么好,但成本低的。

    也许有人可能觉得,没有必要让使用者知道太多细节,直接给出最好的结果,这样既可以降低认知负担,又能隐藏技术细节和成本结构。

    现实问题大部分是没有银弹的,信息不对称也许对商业有好处,但如果我自己作为一个软件使用者,我希望自己是有选择的,而不是只能选择用还是不用。

    这个软件功能非常简单,就是把提取出音频,然后上传到服务器,把音频内容转成字幕文本输出。

    对于我们,这个工具把我们最关键的一环补上了。后续的字幕调整工作,有比较完善的工具作为补充,比如 Arctime pro ,Aegisub 等,当然,我也希望可以直接在一个软件内就完成所有工作,这也是后续完善产品的一个方向。

    为什么不做成网页端,而是要以 PC 客户端这么重的形式来交付呢?

    一开始我们也想通过网页应用的形式,前端方案是通过 ffmpeg.wasm 来完成音频提取、转码等工作,但无奈这个方案存在很多限制,最后放弃了。

    要知道,一个产品最终成本都会由使用者来承担。出于以更低成本运行软件的考虑,我们决定通过客户端来解决这个问题,把一些比较重的计算一部分交给用户自己的机器来完成,尽管这样做会增加前期的开发成本,甚至可能损失部分用户,从长期看,我们认为这是值得的。

    而且这样做额外的好处还可以做到不上传和存储用户的视频内容,降低总体成本的同时,也保护了内容安全。

    这个工具主要可以帮助到哪些人?

    1. 视频创作者:带字幕的视频往往会具有更好的完播率,可以帮助观看者更好地理解内容,尤其在地铁和公交车等一些公共场合中观看视频的时候。
    2. 追海外剧狂人:很多海外剧不带字幕,等字幕组出来需要时间,而通过 33 字幕生成的字幕,然后加上播放器的翻译功能,对于看剧来说应该完全够了。
    3. 外语老师:可以结合我们另外一个帮助构建台词搜索的软件:QuoteHunt ,来构建一个教学素材库。
    4. 字幕组:听译应该是字幕制作流程中对人要求最高,而且最耗费精力的一环了,通过 33 字幕生成初步的字幕稿,可以大大降低制作成本。

    给大家送上一些算力兑换码,欢迎试用:(可兑换 10000 算力)

    ncJb
    AmCt
    4BhT
    X4Ce
    0yyb
    N8Vo
    cs8G
    ha9T
    dzN5
    dI5J
    5QZC
    devr
    rvVI
    qQq1
    pPRx
    38gQ
    RtaF
    mKrp
    eH0N
    PjkQ
    

    软件下载

    如何使用兑换码

    26 条回复    2023-11-25 16:08:32 +08:00
    gap
        1
    gap  
       2023-01-25 12:31:57 +08:00
    用的是 open ai 的 whisper ?
    yedaxia
        2
    yedaxia  
    OP
       2023-01-25 12:32:40 +08:00
    @gap 有用到
    wdwwtzy
        3
    wdwwtzy  
       2023-01-25 12:38:17 +08:00 via iPhone
    没有展示中文字幕的效果?
    darer
        4
    darer  
       2023-01-25 12:38:42 +08:00
    cs8G 已用,感谢作者
    darer
        5
    darer  
       2023-01-25 12:41:21 +08:00
    嗯… 一个四十五分钟的日语音频 大概消耗 41277 算力(大模型)
    yedaxia
        6
    yedaxia  
    OP
       2023-01-25 12:46:05 +08:00
    @wdwwtzy 谢谢提醒,发布比较匆忙,后续会加上更多的语言示例。
    yedaxia
        7
    yedaxia  
    OP
       2023-01-25 12:52:47 +08:00
    @darer 大模型效果最好,消耗算力也厉害;中模型会少一些,效果也还可以。
    fyooo
        8
    fyooo  
       2023-01-25 12:59:59 +08:00   ❤️ 3
    推广 @Livid
    TabGre
        9
    TabGre  
       2023-01-25 14:11:56 +08:00 via iPhone   ❤️ 1
    openai/whisper 产品化
    szdosar
        10
    szdosar  
       2023-01-25 15:57:37 +08:00
    感谢,倒数第三个兑换码已用。
    xxhhlk
        11
    xxhhlk  
       2023-01-25 16:47:48 +08:00
    RtaF 已用 感谢
    Wenbobobo
        12
    Wenbobobo  
       2023-01-26 00:21:31 +08:00 via Android
    dzN5 已使用
    hanguofu
        13
    hanguofu  
       2023-01-26 14:23:13 +08:00
    谢谢分享。顺便问问: 音频转文本输出的功能用哪家的服务好 ?(暂时只关心中文)
    lionoggo
        14
    lionoggo  
       2023-01-26 14:51:38 +08:00
    有个问题问下:自己部署的 ASR 模型是指的自己重新训练的模型?如果是自己训练的模型,效果如何?另外支持方言吗?
    yedaxia
        15
    yedaxia  
    OP
       2023-01-27 09:41:25 +08:00
    @hanguofu 中文可以试下讯飞、阿里云。
    yedaxia
        16
    yedaxia  
    OP
       2023-01-27 09:42:44 +08:00
    @lionoggo 没有考虑方言,所以没有相关测试数据。
    lulucy
        17
    lulucy  
       2023-01-28 16:19:19 +08:00
    同为对 AI 感兴趣的开发者,不知道是否方便添加微信聊聊呀
    fuchaofather
        18
    fuchaofather  
       2023-01-28 16:38:51 +08:00
    兑换码已经无了,OP 有限制帐号兑换次数吗
    yedaxia
        19
    yedaxia  
    OP
       2023-01-28 20:05:58 +08:00
    @fuchaofather 有限制,24 小时只能兑换一次。

    继续发一波:

    pIEH
    B3tf
    A1ux
    J2CT
    sdUu
    rI7A
    OxhZ
    5QWO
    TOWu
    6opR
    yedaxia
        20
    yedaxia  
    OP
       2023-01-29 11:48:21 +08:00
    @lulucy RGFyY3lZZQ==
    powerkai
        21
    powerkai  
       2023-01-29 16:25:41 +08:00
    OxhZ 已用 感谢 OP
    rekulas
        22
    rekulas  
       2023-01-30 07:29:21 +08:00
    服务不错 不过成本似乎有点高
    我们有一套自动渲染服务,其中有个功能点也是这个,成本大约 0.2/小时
    rekulas
        23
    rekulas  
       2023-01-30 07:37:21 +08:00
    忽略上一句,刚想了下有区别我们是有原文的,只需要对字幕,难度比纯识别简单多了,成本是要低的多
    jpyl0423
        24
    jpyl0423  
       2023-02-02 14:11:58 +08:00
    剪映的字幕生成是免费的,而且没有长度限制
    yedaxia
        25
    yedaxia  
    OP
       2023-02-02 16:21:30 +08:00
    @jpyl0423 剪映不能支持日韩等外语的识别,也不支持批量处理。
    fortree
        26
    fortree  
       2023-11-25 16:08:32 +08:00
    mac 版下载不了啊,下载链接失效了吗
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2533 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 05:00 · PVG 13:00 · LAX 21:00 · JFK 00:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.