一次两小时的 Vibe coding 实践
小麦2025年05月12日995 字
什么是 Vibe coding#
Vibe coding 是 Andrej Karpathy 在 2025 年 2 月提出的一个新名词。
维基百科的解释是:
我的需求#
我先前使用 Keynote 制作了一些视频,现在想通过自动化的工具将它们转成图文稿,以便阅读、二次加工、顺带放到博客上。
我的思路#
正常做法是上 Github 找找现成的方案,但大多项目是把 Markdown 变成 PPT,而反过来做的寥寥无几,年久失修。当然自己调研调研也能做,大概的思路是:
- 通过三方库读取
.key
文件,提取其中的图片和注释。 - 按照顺序写入到 Markdown 文件中,图片采用引用方式。
但很快会遇到几个问题:
.key
为苹果的私有格式,能读它的三方库很少。- 我要把完成动效之后的 Slide 图片 “截出来”,而不是导出一堆小图片再自己渲染。
- 如果要兼容
.pptx
怎么办呢?
所以其实是有点难度的,不如直接让 AI 来搞搞,看看有没有惊喜?
AI的做法#
之前的对话已经找不到了,但我大致的提示词是:
用 TS 实现一个从 Keynote 到 Markdown 的转换工具,工具的输出是:<演讲者注释一><演讲者注释二>...
AI 可以从中理解我没有说的细节:
- 图片和注释是成对出现的。
- 图片要全部放在
./images
文件夹下。 - 图片和注释要按照顺序排列。
AI 吭哧吭哧一分钟写完了,令我意外的是,AI 给出了一种利用 Apple Script
的实现方案,这事我之前没想过,我甚至不会写 Apple Script
。
索性也不关心它写得对不对,代码优雅不优雅了,它写完我就直接运行,报错我就复制粘贴到对话框,直到它最终改好的版本能够实现我想要的效果即可,这就是 Vibe coding 的乐趣所在。
算了下时间,从开始有想法到最终发布到 npm,总共花了 2 小时,没写一行代码。
就连双语版本的 README 也是我让它帮我写的,真就全程聊天。而至少 60% 的时间是花在等待 AI 输出上面。如果 AI 能写地更快,那么我估计 1 个小时就搞定了。
Vibe coding 会是未来吗?#
我目前的看法是谨慎乐观。
Vibe coding 很适合做快速验证想法的小工具,但从经验上讲,大规模开发需要仔细设计,边聊边改恐怕不是正确的做法。
无论如何,Vibe coding 是一个很有趣的尝试,它能让大家看到 AI 的一种潜力:对于毫无技术背景的人来说,也能快速实现自己的想法,这是它目前最有价值的地方。
另一方面,专业开发者需要警惕的点在于:Vibe coding 可能会导致大家过度依赖 AI,而忽视了技术积累和软件工程的重要性。而这正是专业软件工程师区别于普通人的地方。