不懂代码，我用 VibeCoding 搭了一套 AI 视频工厂

核心要点

理解 VibeCoding 的核心理念和实践方法
掌握与 AI 协作开发的关键技巧
了解从 0 到 1 搭建全栈 AI 系统的完整历程
获得可直接复用的项目架构和调试经验

综合评分

4.8

优点

完整的 VibeCoding 方法论：任务拆解、Prompt 工程、调试策略、迭代节奏
真实的项目复盘数据：开发周期、代码量、踩坑经验
工厂模式架构让 AI 可以快速复制接入新引擎
显存调试的 AI 辅助方案：从 OOM 到稳定运行的完整路径
给创作者的 VibeCoding 入门建议

缺点

VibeCoding 仍需要基本的技术理解能力（能看懂报错信息）
复杂架构决策仍需人类判断，AI 建议不一定总是最优
调试过程可能很耗时，需要耐心

这篇文章和前面四篇不一样。前面讲的是工具和技术，这篇讲的是人 —— 一个不懂代码的创作者，如何用 VibeCoding 的方式，从零搭建了一套完整的 AI 视频生成系统。

如果你也曾有过”不如自己做一个”的念头，但被”我不会写代码”劝退了 —— 这篇就是写给你的。

一个创作者的工具焦虑

我做自媒体三年了。从最初的图文到后来的短视频，内容赛道越来越卷，工具链也越来越长：

写文案用 ChatGPT → 画分镜用 Midjourney → 生成视频用 Runway → 配音用剪映 → 最终合成用 Premiere。

五个工具，五次导出导入，每次做一条视频都像在跑接力赛。

2025 年底，我开始想：能不能把这些工具串起来，做成一个一站式的东西？ 输入一个主题，输出一条完整的视频。

问题是：我不会写代码。Python 只会写 print("hello world")，JavaScript 更是一片空白。

但我知道了 VibeCoding。

什么是 VibeCoding

VibeCoding 的核心理念很简单：用自然语言描述需求，让 AI 写代码。

你不需要记住 def function_name(): 的语法，不需要知道 torch.cuda.empty_cache() 这个 API 叫什么名字。你只需要说：“帮我在渲染完一个场景后清理 GPU 显存”，AI 就会帮你写出正确的代码。

传统编程的瓶颈是”不会写代码”。VibeCoding 的瓶颈是”能不能把需求描述清楚”。

听起来很美好，但实际操作中是什么样的？让我用真实经历告诉你。

我的 VibeCoding 实战历程

第 1 天：搭骨架

我的第一步不是写代码，而是让 AI 帮我设计整体架构。

我给 AI 的描述是：“我想做一个 AI 视频生成工具，输入一个主题，自动完成文案生成、分镜设计、视频渲染和合成。请帮我设计整体架构。”

AI 给出了一个 6 阶段管线的建议：采集 → 文案 → 分镜 → 渲染 → 合成 → 分发。每个阶段独立模块，通过统一的数据格式串联。

这个架构建议比我想象中好得多。它不是一个大泥球，而是清晰的分层设计。我采纳了这个方案，后续的模块开发都基于这个骨架。

技术栈也是 AI 帮我选的：Python + FastAPI（后端）+ React + Tailwind（前端）+ FFmpeg（视频处理）。AI 解释了每个选择的原因，我都觉得合理。

第 1 周：第一个引擎

第一个渲染引擎选择了 CogVideoX-2B —— 当时最轻量的开源视频生成模型。

这个过程比我想象的顺利。AI 帮我写了模型加载、推理、视频导出的完整代码。但到了实际运行时，遇到了第一个大坑：显存不足（OOM）。

V100 只有 16GB 显存，CogVideoX-2B 加载后所剩无几。我把错误信息贴给 AI，它建议了三种方案：

enable_model_cpu_offload() — 把不活跃的模块搬到 CPU
enable_attention_slicing() — 切分注意力计算
enable_vae_slicing() — 切分 VAE 解码

我让 AI 依次实施，最终三个方案叠加，16GB 显存够用了。

关键教训：不要一次性让 AI 写太多代码。先跑通最简单的版本（加载模型 → 生成一帧 → 导出），确认环境没问题，再逐步添加功能。

第 2-3 周：引擎扩展

有了第一个引擎的经验，扩展新引擎就快多了。这里要感谢 AI 建议的一个架构决策 —— 工厂模式。

create_video_generator() 这个工厂函数是整个系统的扩展点。每新增一种引擎，我只需要：

写一个新的类（比如 WanVideoGenerator）
在工厂函数里加一行 elif mode == "WAN": return WanVideoGenerator(config)

Wan 2.1、LTX-Video、Flux.1+SVD（I2V）、HyperFrames —— 四个引擎在两周内全部接入。

其中 I2V 两阶段方案（先 Flux 出图再 SVD 动画）是 AI 主动建议的。当时我在抱怨纯视频生成的画质不好，AI 说：“为什么不把问题拆开？先用最好的图像模型出图，再用视频扩散模型添加运动？” 这个建议直接催生了系统中最具视觉冲击力的功能。

第 4 周：知识幻灯片管线

这是整个项目最复杂的模块。它涉及 LLM 内容生成、Pillow 排版渲染、Flux 配图、Ken Burns 动效、FFmpeg 合成 —— 五个子系统的协调。

我的策略是：先让 AI 设计数据模型，再逐模块实现。

数据模型很简单：Slide（单页幻灯片）和 SlideDeck（一套幻灯片）。有了数据结构，每个模块的输入输出就清晰了。

Content Agent 的实现最有趣。我让 AI 写了一个”主题拆解器”，它调用 LLM 把输入主题拆成标题+要点+视觉提示词。AI 不仅写了拆解逻辑，还加了 JSON 容错解析（处理 LLM 输出格式不标准的问题）和风格感知的语气控制。

排版引擎（Layout Engine）是代码量最大的模块 —— 600 多行 Pillow 绘图代码。我把它拆成 Focus/Split/Diagram 三个模板，每次只让 AI 实现一个模板，测试通过后再做下一个。

第 5-6 周：前端向导界面

前端是用 React + Tailwind 做的 5 步向导。这部分几乎是 100% AI 生成的 —— 我描述每一步的交互流程，AI 输出完整的组件代码。

最有挑战的是状态管理：5 步向导的状态需要在步骤之间传递，而且每一步都可能修改前一步的结果。AI 帮我设计了一个基于 React Context 的状态管理方案，优雅地解决了这个问题。

VibeCoding 方法论总结

经过 6 周的实践，我总结了几条核心方法论：

任务拆解的艺术

把大功能拆成 AI 能处理的小块。这是最重要的一条。

不要说：“帮我做一个视频生成系统”。要说：“帮我写一个 Python 类，加载 CogVideoX-2B 模型到 GPU，接收一段文字 prompt，生成 4 秒视频并保存为 MP4”。

每次只让 AI 做一件事，测试通过后再做下一件。这就是”小步快跑”。

Prompt 工程

给 AI 写清楚需求描述是一门技术。好的 Prompt 应该包含：

上下文：我在做什么项目，当前进展到哪了
目标：这次要实现什么功能
约束：用什么技术栈，有什么限制（比如显存只有 16GB）
示例：如果有的话，给一个期望的输入/输出示例

调试策略

AI 写的代码不可能 100% 不出错。关键是如何高效调试：

完整复制错误信息给 AI —— 不要自己解读，让 AI 看完整的 traceback
描述你期望的行为 vs 实际行为 —— “我期望输出 1920x1080 的视频，但实际得到的是 512x512”
提供环境信息 —— Python 版本、PyTorch 版本、GPU 型号、显存大小
如果 AI 的方案不行，告诉它为什么不行 —— 然后让它给出替代方案

迭代节奏

先跑通再优化，不要追求完美。

第一版 CogVideoX 引擎出来的视频画质很差，但我没有在第一版上死磕。先跑通流程，再换更好的模型（Wan 2.1），再换更好的方案（I2V 两阶段）。每次迭代都建立在上一次的基础上。

真实数据复盘

开发周期：约 6 周（全职投入约 60% 时间）
代码量：后端约 8000 行 Python，前端约 5000 行 TypeScript/React
AI 生成占比：约 75-80%（剩余是手动调整、配置和调试代码）
Top 5 踩坑：
1. V100 显存不足 → CPU offload + slicing 组合优化
2. PyTorch 2.5 的 meta tensor 兼容问题 → 弃用 sequential_cpu_offload，改用 model_cpu_offload
3. LLM 输出 JSON 格式不稳定 → 括号平衡法 + 常见错误修复
4. HyperFrames 需要 Node.js >= 20 → 升级运行环境
5. FFmpeg 滤镜链拼接顺序错误 → 逐步构建滤镜图并验证

给创作者的建议

你不需要成为程序员

VibeCoding 让”不会写代码”不再是阻碍。但你仍然需要：

清晰的逻辑思维：能把复杂任务拆解成小步骤
基本的技术理解：能看懂文件路径、报错信息、命令行输出
耐心：调试过程可能很枯燥，但每次解决问题都是学习

从你最痛的痛点开始

不要试图一开始就做一个”全功能系统”。找到你工作流中最痛的那个点，先解决它。

对我来说，最痛的点是”从文案到视频的中间环节太多”。所以我先做了文案→分镜→渲染的自动化，其他功能都是后来逐步加的。

用 AI 做你擅长的事，让 AI 做它擅长的事

你擅长理解用户需求、定义产品方向、评估输出质量。AI 擅长写代码、调试错误、设计架构。把各自擅长的事分配好，效率最高。

系列总结

这是 Vibe-Video-Generator 系列文章的最后一篇。回顾整个系列：

第 1 篇：我们看了 6 阶段管线的全貌，理解了从主题到成片的自动化流程
第 2 篇：我们深入了知识幻灯片视频的制作，学会了用 AI 把干货内容变成精美画面
第 3 篇：我们拆解了 I2V 两阶段图生视频方案，理解了为什么”先出图再动画”是画质最优解
第 4 篇：我们剖析了 5 种视觉风格的设计逻辑，学会了用配色、排版和动画提升视频品质
第 5 篇（本篇）：我们回顾了整套系统的 VibeCoding 开发历程

如果这个系列让你产生了”我也可以用 AI 做点什么”的念头 —— 那就对了。VibeCoding 的意义不只是让我做了一个视频工具，而是让我相信：在 AI 时代，创意的实现不再被技术能力所限制。

你不需要会写代码，你只需要会描述问题。

常见问题

VibeCoding 是什么？和传统编程有什么区别？

VibeCoding 是用自然语言描述需求，让 AI 生成代码的编程方式。你不需要记住语法和 API，只需要清楚地描述'我想要什么'，AI 会帮你写出实现代码。核心区别是：传统编程的瓶颈是'不会写代码'，VibeCoding 的瓶颈是'能不能把需求描述清楚'。

完全零基础也能做 VibeCoding 吗？

可以开始，但需要基本的技术理解 —— 比如能看懂报错信息、理解文件目录结构、知道什么是 API。这些不需要提前学，在实践中自然就会了。

这个项目花了多长时间？

从第一行代码到 7 种引擎全部跑通，大约 6 周。如果传统方式开发，我估计至少需要 3-4 个月（考虑到我还要学 Python 和 GPU 编程）。

AI 生成的代码质量怎么样？

大约 70-80% 的代码可以直接使用，剩下 20-30% 需要人工调整或让 AI 重写。关键是要学会'小步快跑' —— 每次只让 AI 写一小块，测试通过后再写下一块。