使用 ffmpeg 将多张图片，多个 mp3 合成视频，咨询熟练人员？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 232 天前的主题，其中的信息可能已经有所发展或是发生改变。

假设要合成 60 秒的视频，总共有 6 张图片，每张图片大约 10 秒种，对应 2-3 句话，每句话有一个 mp3 文件，有一段文本（字幕）要显示在图片上，切换图片时有点转场效果。

就这么一个任务，GPT4 跟狗屎一样说的全都不对，一运行就各种错。

有各种方案：

a 方案：每个图片和它的 mp3 生成一个视频，然后 6 个视频连接，然后总视频加上字幕；

b 方案：所有 mp3 连接得到总音频，6 个图片生成总视频，然后总音频，总字幕加到总视频上；

我一点经验没有，让 gpt4 实现转场就没有一个达到目地的，说的全都不对。

我很奇怪，这应该是最基础的需求，为何 ffmpeg 的开发者就想不到让人轻松点

10 条回复 • 2024-04-16 15:08:12 +08:00

ysc3839

232 天前 via Android

因为 FFmpeg 设计不是干这种事的，这种需求应该用剪映。

ronyin

232 天前

我一直以为 FFMPEG 主要是用来转换的。。不过你这需求用美图或剪映都直接实现

iOCZS

232 天前

这种肯定还是 gui 比较方便，直接拖进去

tool2dx

232 天前

视频自动化处理类似图片处理，你要先用 photoshop 把想要的完全流程做出来。

每一个步骤叫 action ，拼接一起叫 edtior script

然后才能用变量替换法，导出 automate bench 自动化处理的脚本。

sucaiking

232 天前

因为这不是最基础的需求所以不要裸 ffmpeg

furlxy

232 天前

ffmpeg 分解视频帧和合成帧到视频这点很容易，但你要想给他加个转场或者特效，那是剪辑软件干的事

IvanLi127

232 天前

我感觉这个需求很适合用 PowerPoint 做。

jifengg

232 天前

这个问题我之前还真研究过。给你个 wiki

https://trac.ffmpeg.org/wiki/Xfade

这是 ffmpeg 转场的过滤器。

给你一个我在本地确定能跑的命令：
ffmpeg -t 3 -loop 1 -i a.png -t 3 -loop 1 -i b.png -filter_complex "[0]setsar=1/1[v0];[1]setsar=1/1,scale=500:500[v1];[v0][v1]xfade=transition=dissolve:duration=2:offset=1" -pix_fmt yuv420p -y -f mpegts - | ffplay -
我的 ffmpeg 版本：ffmpeg version 6.0-full_build-www.gyan.dev

转场里面有个转场时间，你这个要计算好，最后才能和音频或字幕的时间轴对得上

duan602728596

232 天前

方案说的还真就没啥问题，剪辑流程确实可以这么干

giao123

231 天前

是你不会用，怪开发者，用这么强大的开源软件还唧唧歪歪，直接用花钱的软件不就好了，图形化都给你整好了，什么成本都不花就想着白嫖