除了总结视频,很多这类总结账号和总结插件都提供了时间线,或者叫时间点跳转的功能,我观察了几个总结之后发现,这些时间点并不是长度相同的间隔,也就是说有可能真的是按照内容来分块总结的,思来想去找不到比较优雅的解决方案,在 twitter 有个开发者的帖子说可以用提示词解决,有大佬知道其他的解决方案或者开源项目吗?
1
yyzh 268 天前
|
2
mmxq 268 天前
有个思路:b 站视频有自带的字幕,字幕导出后就自带时间点和每一个时间点的文字。
只要利用这个就能轻松做出自带时间线的总结了。 类似项目: https://github.com/IndieKKY/bilibili-subtitle 这个项目就是依托本身生成的字幕,加入了 ChatGPT 总结出来的。 |
3
mxT52CRuqR6o5 268 天前
没人说话的视频都总结不了,都是靠语音识别出的文字进行总结的
|
4
noahlias 268 天前
这种挺好做的你吧字幕加上时间线 给大语言模型总结下 类似 ai 搜索的方式 让它自己标注内容引用的源时间轴
|
5
edotac 268 天前
|
6
noahlias 268 天前
不过有一种视频总结更加准确 用视频的里面图片( https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding) 用 vision 模型获取文本 这种总结更加准确
但是成本很高 大佬 Andrej Karpathy 在 x( https://twitter.com/karpathy/status/1760740503614836917)上提到了这种想法 下面有很多实现方案 其中有一个是最近的 claude3 Opus demo( https://hundredblocks.github.io/transcription_demo/) 代码( https://github.com/hundredblocks/transcription_demo/) 其实 之前也有人去做 比如 gemini1.5 ( https://simonwillison.net/2024/Feb/21/gemini-pro-video/)都是用大窗口模型来弄的 |
7
zhiyu1998 268 天前
我是做的 Yunzai-Bot 的插件,之前就用的字幕根据算法做的,但是嫌麻烦删了,然后用官方的 AI 了。
如果对你有帮助可以参考,Node.js 写的: https://gitee.com/kyrzy0416/rconsole-plugin |