【导语】
AI 写代码已经习以为常,但 AI 做 PPT 依然是很多人的痛点。Anthropic 官方随 Agent Skills 发布了一套 PPTX Skill 示例,号称能让 Claude 具备生成专业演示文稿的能力。这究竟是解决 PPT 噩梦的终极武器,还是又一个“看起来很美”的玩具?本文将带你从代码层面拆解这个 Skill,经历一次从“翻车”到“魔改”的完整探索,并顺带看看市面上其他 AI 工具的表现究竟如何。
【你能从这篇文章收获什么】
- 🔍 深度拆解:理解 Claude 官方 PPTX Skill 的核心工作原理与 Prompt 设计逻辑。
- 🛠️ 避坑指南:揭秘官方文档中不适配中文环境的“深坑”,并提供具体的代码级优化方案。
- 📊 工具横评:Claude PPTX Skill、Manus、NotebookLM、Gemini Canvas、Ima……谁才是目前 AI 生成 PPT 的最佳选择?
PPTX Skill 是如何“思考”的?
在人机协作中,Prompt 的质量决定了 AI 产出的上限。Agent Skills 的本质是可复用的 Prompt 工程。要用好 PPTX Skill,我们有必要深入剖析其内部逻辑与核心工作原理。
PPTX Skill 是 Anthropic 发布 Agent Skills 功能时的官方示例。其 SKILL.md 文件定义了三种生成能力:(1)无模板创建演示文稿,(2)基于模板创建演示文稿,(3)编辑现有演示文稿。
本文重点探索“无模板创建”场景。其核心工作流包含四步:
- 根据用户提供的内容设计演示文稿
- 为每张幻灯片生成对应的 HTML 文件
- 使用脚本将全部的 HTML 文件转换成演示文稿
- 将演示文稿转换成缩略图,验证每张幻灯片的布局和设计
随着模型能力的提升,生成美观的 HTML 已非难事。PPTX SKill 在核心文档 SKILL.md 为 AI 提供了详尽的设计指导,包括:
- 根据内容匹配设计元素,兼顾主题、品牌标识与配色方案
- 为几何图案、图表、背景等元素设定具体规则
- 优先采用双栏布局与全幻灯片布局

然而,将 HTML 转换为 PPTX 尚无成熟通用的方案。为确保样式精准还原,PPTX Skill 在 html2pptx.md 中预设了严格的约束条件,例如:
- 文本约束:所有文本必须在特定标签
<p>、<h1>内;不能使用手动项目符号,必须使用<ul>或<ol>列表; - 样式约束:背景、边框、阴影仅适用于 DIV 元素,不适用于文本元素;不能使用 CSS 渐变;
- 验证规则:内容不能溢出 body
Skill 要求 AI 严格遵循约束生成 HTML,随后调用 html2pptx.js 脚本进行转换。脚本内置了严格的校验逻辑,一旦失败即返回错误信息,驱动 AI 进行自我修正。
最后,PPTX Skill 还要求 AI 在生成演示文稿后,使用 thumbnail.py 脚本将演示文稿转换成缩略图,通过缩略图验证每张幻灯片的布局和设计,而不仅仅依赖 html2pptx.js 脚本中的校验逻辑,为整个工作流提供了重要的自我纠错能力。
综上所述,PPTX Skill 融合了精心设计的提示词、严谨的工程转换能力以及视觉验证机制。相比竞品宛如“抽奖游戏”一般的生成质量,它更像是一项严谨的系统工程。然而在实际测试中,其表现却未达预期。
魔改 Skill
实际工作场景中,我们经常要根据具体的内容创作演示文稿,为了贴合实际场景,这里我选择了宝玉老师博客的一篇文章 Claude Code 之父 Boris 的 9 条实战技巧:原来高手的配置这么“朴实无华” 作为 PPT 生成的内容基础。
前期准备
SKILL.md 文档末尾列出了所需依赖,并且在原文中提示 “Required dependencies (should already be installed)”,但普通用户的运行环境通常不具备这些条件。这也反映出 Anthropic 在设计这个 SKill 时仅从专业人士角度出发,而忽略了一般用户的使用场景。
另一方面,鉴于运行过程中会生成大量中间文件(如 HTML、缩略图等),为保持项目整洁,建议建立独立的专用目录来部署环境。
如果你也是 macOS 用户,可以参考下面的安装步骤:
# 1. 创建项目
mkdir pptx-project && cd pptx-project
# 2. 初始化 npm
npm init -y
# 3. 安装依赖
npm install pptxgenjs playwright react-icons react react-dom sharp
# 4. 安装 Playwright 浏览器
npx playwright install
# 5. 安装 poppler-utils 和 libreoffice (原文提到的 apt-get 只能在 Linux 中使用,因此替换为 homebrew 在 macOS 中安装)
brew install --cask libreoffice
brew install poppler
# 6. 安装 markitdown
pip install "markitdown[pptx]"发现问题
我分别使用了 Claude Code + DeepSeek-V3.2、Vscode Github Copilot Chat + Claude Sonnet 4.5 两种不同的工具和模型的组合来生成演示文稿。
我将博客文章提前保存为本地 markdown 文档,使用如下提示词要求 AI 生成演示文稿:
根据 file:Claude Code 之父 Boris 的 9 条实战技巧:原来高手的配置这么“朴实无华”.md 文档,分析Boris的9条技巧,生成Claude Code最佳实践的演示文稿(PPTX)其中 Claude Code + DeepSeek-V3.2 耗时近 25 分钟,结果却完全不可用。我仔细查看了它的执行过程,发现其行为多处违背 SKILL.md 规范:
- 没有在生成 HTML 前阐述自己的设计方案;
- 在
html2pptx.js校验多次失败后,模型竟擅自跳过脚本,直接调用 PptxGenJS API 创建文档; - 未将渐变 CSS 和图标栅格化为 PNG;
- 未生成缩略图并自我验证。

Vscode Github Copilot Chat + Claude Sonnet 4.5 同样耗时 20 分钟,生成的结果只比 DeepSeek 稍好,内容提取尚可,但缺乏排版设计。且同样因脚本校验失败导致了超过 40 次的反复迭代!

对比 DeepSeek 的执行过程,Claude 阐述了自己的设计方案,将渐变背景栅格化为 PNG,并生成缩略图验证结果,由此推断,前述三个问题主要归因于模型的执行能力差异。
而对于两者都出现的脚本校验不通过问题,我进一步查看了 html2pptx.js 脚本校验失败的错误提示,发现全部集中在内容溢出和底部边距不足上,也就是说,模型设计的幻灯片太高了,超过了脚本限制的高度。
这表明模型未能严格遵循 html2pptx.md 的约束条件。 并且为了通过脚本校验,模型在修复过程中大幅简化了原始 HTML,严重牺牲了排版效果。这是导致最终质量低下的核心原因。
除了上述与 SKILL.md 文档中要求的工作流明显相悖的情况,我还发现 thumbnail.py 脚本生成的缩略图清晰度非常差,模型很难借助图片完成自我纠错。
SKILL.md 文档设计存在缺陷
我仔细阅读了 SKILL.md 文档,结合上面的观察,发现可能存在以下的几点缺陷:
文档冗长、结构混乱,且违背了“渐进式披露”原则。参照 Anthropic 官方提供的 技能创作最佳实践 - Claude Docs ,明确指出“保持 SKILL.md 正文在 500 行以下...使用目录结构化较长的参考文件...按领域组织内容以避免加载无关的上下文”,反观 PPTX Skill 的 SKILL.md 文档:
- 共 484 行,已经接近 500 行的上限;
- 没有在文档开头列出目录结构;
- 文档先列出了大篇幅的设计原则,在 150 行才开始有第一个场景的工作流步骤;
- 文档混合了三种场景的工作流,本应拆分为独立的参考文件,由模型根据具体场景按需加载。
设置的工作流步骤可能会误导模型。针对“无模板生成演示文稿”这一场景,文档先列出了大篇幅的设计原则,之后在工作流的第一步要求模型阅读 html2pptx.md 文档。
而在我的观察中,模型在读取 SKILL.md 文档后,遵循工作流要求立即读取了 html2pptx.md 文档,之后开始设计演示文稿的内容。这会导致设计演示文稿的上下文内容影响模型遵循 html2pptx.md 文档的约束。更合理的流程应是:先专注于内容设计,再读取 html2pptx.md 规范,并立即开始生成 HTML。
提供的设计原则不匹配中文内容。原文档的设计原则仅针对英文环境,直接应用于中文内容时会出现“水土不服”:
- “Use web-safe fonts only: Arial, Helvetica, Times New Roman...”:强制使用拉丁字体,导致中文显示依赖系统回退,字重与行距失衡;
- “All-caps headers with wide letter spacing”:中文没有大小写概念,易造成视觉松散;
- “Extreme size contrast (72pt headlines vs 11pt body)”:72pt 标题配合 11pt 正文,在中文演示中正文显得过于细小;
- “Condensed fonts (Arial Narrow) for dense information”:中文窄体并不普遍,可能会导致字体挤在一起。
优化文档及脚本
针对上述缺陷,我进行了如下优化:
直接删除了 SKILL.md 中“使用模板生成演示文稿”和“编辑演示文稿”这两个场景相关的提示词,以缩减上下文长度。正确做法应当是拆分出三个场景的工作流文档,并在 SKILL.md 文档中引用,这里我为了快速测试,简化了流程。
调整 SKILL.md 文档结构,将工作流放在文档开头,“设计原则”之前,让模型能遵循正确 的步骤执行。
修改工作流步骤,添加“设计演示文稿内容”作为工作流的第一步,防止模型先读取 html2ppt.md 文档再生成 HTML,弱化约束条件作用。
修改 SKILL.md 文档中不适配中文的设计原则以符合中文排版习惯。
优化 thumbnail.py 脚本,支持为每张幻灯片生成更大且 DPI 更高的图片,以提供更清晰的缩略图。
二次挑战
除了针对文档和脚本的优化,我还要求模型根据 40 多次迭代的过程,总结出将 HTML 转换为 PPTX 的安全尺寸规范,并保存为“HTML2PPTX 安全尺寸规范”文档,方便在首轮对话中作为上下文提供给模型。
同时我还优化了提供给模型的初始提示词,在提示词中明确要求模型使用 PPTX Skill,并提醒模型生成 HTML 文件时要遵循 html2pptx.md 文档中的约束,最终的提示词如下:
分析Boris的9条技巧,使用 pptx Skill 生成Claude Code最佳实践的演示文稿(PPTX),务必遵循 html2pptx.md 文档中的约束,了解所有验证规则(特别是底部边距要求),然后再开始设计 HTML.
严格遵守HTML2PPTX 安全尺寸规范文档来设计页面布局。本轮测试仅耗时 3 分钟即成功生成演示文稿,且过程中未再出现校验错误。说明优化策略成效显著🎉!不过,最终成品的质量仍仅处于及格边缘。

我注意到“HTML2PPTX 安全尺寸规范”文档中要求底部预留 60pt 可能过于保守,且模型自主选择的配色缺乏美感。为此,我调整底部预留空间至 50pt,并强制指定 Sage & Terracotta 配色方案,要求模型重新生成。这次生成的结果相对来说质量提高了一些,但整体上仍然不及预期。

综上,我在使用原生的 PPTX Skill 生成演示文稿后,针对生成过程中出现的问题,优化了相关文件并最终解决了问题,但使用 Skill 生成的演示文稿质量没有达到开箱即用的地步。
我认为将内容设计这一步骤提取出来,先根据内容生成设计文档,再作为提示词让模型生成演示文稿,可以进一步优化最终的质量。不过这一步留待下篇文章再优化了。
PPT 生成哪家强
本人苦 PPT 久矣。然而经过耗时耗力的探索,PPTX Skill 仅能交付 60 分的答卷,远未达预期。为此,我全面测试了市面上主流的 AI 演示文稿生成工具,结果如下。
最强王者:Manus
上传文稿并输入提示词 分析Boris的9条技巧,生成Claude Code最佳实践的演示文稿(PPTX)。,仅耗时 4 分钟,Manus 1.6 Lite 模型给出了一份 85 分的答案,演示文稿的内容和设计有 80 分水平,将 Boris 的推特原文截图放在 PPT 中大大超出我的预期,再加 5 分!
Manus 唯一的缺点是贵(当然这是我的问题),最便宜的套餐也要 17 美元一个月,提供 4000 积分。上面这次任务消耗了 142 积分,也就是说不做其他事情,17 美元的套餐一个月可以让你生成 28 张演示文稿。
目前 Manus 对于免费用户,每天也会赠送 300 积分,建议先与 AI 讨论并确认最终的演示文稿设计方案,再要求 Manus 生成,相信足以应对工作中的一般任务了(需要科学上网)。

食之无味:NotebookLM
NotebookLM 同样生成了超出我预期的演示文稿,它本质上是生成图片而不是 PPTX 文件,因此它的设计效果是最好的,并且根据内容生成了非常棒的配图。
但也因此,页面上的字都是“画”上去的,细节处常显模糊甚至结构混乱,远看是字,近看却像小儿涂鸦。
且最终输出仅为 PDF 格式,完全无法应对领导轮番的修改需求,实属“食之无味,弃之可惜”的鸡肋。

勉强及格:Gemini Canvas
打开 Gemini 网页,选择 Canvas 模式,即可让 Gemini 根据内容生成幻灯片,任务完成后可以导出到谷歌幻灯片,就能下载为 PPTX 格式。注意:如果首次生成后你觉得不满意,让 AI 调整格式,就无法导出到谷歌幻灯片了。
我选择了 Gemini Pro 模型,使用的提示词为:分析Boris的9条技巧,生成Claude Code最佳实践的 PPT 。使用16:9 的比例,浅色背景,所有内容必须使用中文。,产出质量不太稳定,需要多次生成来获得最佳结果。优化提示词应该能获得更好的效果。
Gemini 生成的演示文稿,内容和排版属于“勉强可以用”的程度,但是图标和图表都被转换成图片且清晰度较低,图表旁的文字也会被合并在图片里,需耗费大量精力进行二次调整。

值得期待:Ima
腾讯的 Ima 近期上线了与 Manus 近似的“任务模式”,官方的定义是“适合处理复杂任务,并自主交付结果”,经我实测,每次生成 PPT 需要 20-40 分钟,时间较长,不过最终可以交付一份 60 分的演示文稿。考虑到这个功能还在内测阶段,可以期待它后续的迭代。
Ima 的“任务模式”目前还在内测阶段,每个人每天仅可使用 5 次,邀请朋友注册 Ima 即可解锁。

小结
实际上,优化 SKILL 的过程并非如文中描述般顺畅。这不仅仅是“发现 - 分析 - 解决”的线性流程,而是经历了二十余次反复试错,耗费整整一周业余时间探索后的成果。
要想驾驭当前的 SKILL,门槛依然较高:不仅需要理解 Agent Skills 原理,还需具备代码基础及脚本调试能力。目前它更适合专业开发者,距离大众化的“开箱即用”尚有距离。
如果你要问我接下来使用哪个工具来生成演示文稿?那当然是 Manus😛。
