Claude PPTX Skill 实践：AI 生成的 PPT 到底能不能用？

【导语】

AI 写代码已经习以为常，但 AI 做 PPT 依然是很多人的痛点。Anthropic 官方随 Agent Skills 发布了一套 PPTX Skill 示例，号称能让 Claude 具备生成专业演示文稿的能力。这究竟是解决 PPT 噩梦的终极武器，还是又一个“看起来很美”的玩具？本文将带你从代码层面拆解这个 Skill，经历一次从“翻车”到“魔改”的完整探索，并顺带看看市面上其他 AI 工具的表现究竟如何。

【你能从这篇文章收获什么】

🔍 深度拆解：理解 Claude 官方 PPTX Skill 的核心工作原理与 Prompt 设计逻辑。
🛠️ 避坑指南：揭秘官方文档中不适配中文环境的“深坑”，并提供具体的代码级优化方案。
📊 工具横评：Claude PPTX Skill、Manus、NotebookLM、Gemini Canvas、Ima……谁才是目前 AI 生成 PPT 的最佳选择？

PPTX Skill 是如何“思考”的？

在人机协作中，Prompt 的质量决定了 AI 产出的上限。Agent Skills 的本质是可复用的 Prompt 工程。要用好 PPTX Skill，我们有必要深入剖析其内部逻辑与核心工作原理。

PPTX Skill 是 Anthropic 发布 Agent Skills 功能时的官方示例。其 SKILL.md 文件定义了三种生成能力：（1）无模板创建演示文稿，（2）基于模板创建演示文稿，（3）编辑现有演示文稿。

本文重点探索“无模板创建”场景。其核心工作流包含四步：

根据用户提供的内容设计演示文稿
为每张幻灯片生成对应的 HTML 文件
使用脚本将全部的 HTML 文件转换成演示文稿
将演示文稿转换成缩略图，验证每张幻灯片的布局和设计

随着模型能力的提升，生成美观的 HTML 已非难事。PPTX SKill 在核心文档 SKILL.md 为 AI 提供了详尽的设计指导，包括：

根据内容匹配设计元素，兼顾主题、品牌标识与配色方案
为几何图案、图表、背景等元素设定具体规则
优先采用双栏布局与全幻灯片布局

screenshot-20260108-155419.png|500 — *我将 18 个配色方案转换成了可视化的卡片，你可以在生成演示文稿时指定配色*

然而，将 HTML 转换为 PPTX 尚无成熟通用的方案。为确保样式精准还原，PPTX Skill 在 html2pptx.md 中预设了严格的约束条件，例如：

文本约束：所有文本必须在特定标签 <p>、<h1> 内；不能使用手动项目符号，必须使用 <ul> 或 <ol> 列表；
样式约束：背景、边框、阴影仅适用于 DIV 元素，不适用于文本元素；不能使用 CSS 渐变；
验证规则：内容不能溢出 body

Skill 要求 AI 严格遵循约束生成 HTML，随后调用 html2pptx.js 脚本进行转换。脚本内置了严格的校验逻辑，一旦失败即返回错误信息，驱动 AI 进行自我修正。

最后，PPTX Skill 还要求 AI 在生成演示文稿后，使用 thumbnail.py 脚本将演示文稿转换成缩略图，通过缩略图验证每张幻灯片的布局和设计，而不仅仅依赖 html2pptx.js 脚本中的校验逻辑，为整个工作流提供了重要的自我纠错能力。

综上所述，PPTX Skill 融合了精心设计的提示词、严谨的工程转换能力以及视觉验证机制。相比竞品宛如“抽奖游戏”一般的生成质量，它更像是一项严谨的系统工程。然而在实际测试中，其表现却未达预期。

魔改 Skill

实际工作场景中，我们经常要根据具体的内容创作演示文稿，为了贴合实际场景，这里我选择了宝玉老师博客的一篇文章 Claude Code 之父 Boris 的 9 条实战技巧：原来高手的配置这么“朴实无华” 作为 PPT 生成的内容基础。

前期准备

SKILL.md 文档末尾列出了所需依赖，并且在原文中提示 “Required dependencies (should already be installed)”，但普通用户的运行环境通常不具备这些条件。这也反映出 Anthropic 在设计这个 SKill 时仅从专业人士角度出发，而忽略了一般用户的使用场景。

另一方面，鉴于运行过程中会生成大量中间文件（如 HTML、缩略图等），为保持项目整洁，建议建立独立的专用目录来部署环境。

如果你也是 macOS 用户，可以参考下面的安装步骤：

# 1. 创建项目  
mkdir pptx-project && cd pptx-project  

# 2. 初始化 npm  
npm init -y  

# 3. 安装依赖  
npm install pptxgenjs playwright react-icons react react-dom sharp  

# 4. 安装 Playwright 浏览器  
npx playwright install

# 5. 安装 poppler-utils 和 libreoffice （原文提到的 apt-get 只能在 Linux 中使用，因此替换为 homebrew 在 macOS 中安装）
brew install --cask libreoffice
brew install poppler

# 6. 安装 markitdown
pip install "markitdown[pptx]"

发现问题

我分别使用了 Claude Code + DeepSeek-V3.2、Vscode Github Copilot Chat + Claude Sonnet 4.5 两种不同的工具和模型的组合来生成演示文稿。

我将博客文章提前保存为本地 markdown 文档，使用如下提示词要求 AI 生成演示文稿：

根据 file:Claude Code 之父 Boris 的 9 条实战技巧：原来高手的配置这么“朴实无华”.md 文档，分析Boris的9条技巧，生成Claude Code最佳实践的演示文稿（PPTX)

其中 Claude Code + DeepSeek-V3.2 耗时近 25 分钟，结果却完全不可用。我仔细查看了它的执行过程，发现其行为多处违背 SKILL.md 规范：

没有在生成 HTML 前阐述自己的设计方案；
在 html2pptx.js 校验多次失败后，模型竟擅自跳过脚本，直接调用 PptxGenJS API 创建文档；
未将渐变 CSS 和图标栅格化为 PNG；
未生成缩略图并自我验证。

Vscode Github Copilot Chat + Claude Sonnet 4.5 同样耗时 20 分钟，生成的结果只比 DeepSeek 稍好，内容提取尚可，但缺乏排版设计。且同样因脚本校验失败导致了超过 40 次的反复迭代！

claude-best-practices-boris-thumbs.jpg|500

对比 DeepSeek 的执行过程，Claude 阐述了自己的设计方案，将渐变背景栅格化为 PNG，并生成缩略图验证结果，由此推断，前述三个问题主要归因于模型的执行能力差异。

而对于两者都出现的脚本校验不通过问题，我进一步查看了 html2pptx.js 脚本校验失败的错误提示，发现全部集中在内容溢出和底部边距不足上，也就是说，模型设计的幻灯片太高了，超过了脚本限制的高度。

这表明模型未能严格遵循 html2pptx.md 的约束条件。 并且为了通过脚本校验，模型在修复过程中大幅简化了原始 HTML，严重牺牲了排版效果。这是导致最终质量低下的核心原因。

除了上述与 SKILL.md 文档中要求的工作流明显相悖的情况，我还发现 thumbnail.py 脚本生成的缩略图清晰度非常差，模型很难借助图片完成自我纠错。

SKILL.md 文档设计存在缺陷

我仔细阅读了 SKILL.md 文档，结合上面的观察，发现可能存在以下的几点缺陷：

文档冗长、结构混乱，且违背了“渐进式披露”原则。参照 Anthropic 官方提供的技能创作最佳实践 - Claude Docs ，明确指出“保持 SKILL.md 正文在 500 行以下...使用目录结构化较长的参考文件...按领域组织内容以避免加载无关的上下文”，反观 PPTX Skill 的 SKILL.md 文档：

共 484 行，已经接近 500 行的上限；
没有在文档开头列出目录结构；
文档先列出了大篇幅的设计原则，在 150 行才开始有第一个场景的工作流步骤；
文档混合了三种场景的工作流，本应拆分为独立的参考文件，由模型根据具体场景按需加载。

设置的工作流步骤可能会误导模型。针对“无模板生成演示文稿”这一场景，文档先列出了大篇幅的设计原则，之后在工作流的第一步要求模型阅读 html2pptx.md 文档。

而在我的观察中，模型在读取 SKILL.md 文档后，遵循工作流要求立即读取了 html2pptx.md 文档，之后开始设计演示文稿的内容。这会导致设计演示文稿的上下文内容影响模型遵循 html2pptx.md 文档的约束。更合理的流程应是：先专注于内容设计，再读取 html2pptx.md 规范，并立即开始生成 HTML。

提供的设计原则不匹配中文内容。原文档的设计原则仅针对英文环境，直接应用于中文内容时会出现“水土不服”：

“Use web-safe fonts only: Arial, Helvetica, Times New Roman...”：强制使用拉丁字体，导致中文显示依赖系统回退，字重与行距失衡；
“All-caps headers with wide letter spacing”：中文没有大小写概念，易造成视觉松散；
“Extreme size contrast (72pt headlines vs 11pt body)”：72pt 标题配合 11pt 正文，在中文演示中正文显得过于细小；
“Condensed fonts (Arial Narrow) for dense information”：中文窄体并不普遍，可能会导致字体挤在一起。

优化文档及脚本

针对上述缺陷，我进行了如下优化：

直接删除了 SKILL.md 中“使用模板生成演示文稿”和“编辑演示文稿”这两个场景相关的提示词，以缩减上下文长度。正确做法应当是拆分出三个场景的工作流文档，并在 SKILL.md 文档中引用，这里我为了快速测试，简化了流程。

调整 SKILL.md 文档结构，将工作流放在文档开头，“设计原则”之前，让模型能遵循正确的步骤执行。

修改工作流步骤，添加“设计演示文稿内容”作为工作流的第一步，防止模型先读取 html2ppt.md 文档再生成 HTML，弱化约束条件作用。

修改 SKILL.md 文档中不适配中文的设计原则以符合中文排版习惯。

优化 thumbnail.py 脚本，支持为每张幻灯片生成更大且 DPI 更高的图片，以提供更清晰的缩略图。

二次挑战

除了针对文档和脚本的优化，我还要求模型根据 40 多次迭代的过程，总结出将 HTML 转换为 PPTX 的安全尺寸规范，并保存为“HTML2PPTX 安全尺寸规范”文档，方便在首轮对话中作为上下文提供给模型。

同时我还优化了提供给模型的初始提示词，在提示词中明确要求模型使用 PPTX Skill，并提醒模型生成 HTML 文件时要遵循 html2pptx.md 文档中的约束，最终的提示词如下：

分析Boris的9条技巧，使用 pptx Skill 生成Claude Code最佳实践的演示文稿（PPTX），务必遵循 html2pptx.md 文档中的约束，了解所有验证规则（特别是底部边距要求），然后再开始设计 HTML.
严格遵守HTML2PPTX 安全尺寸规范文档来设计页面布局。

本轮测试仅耗时 3 分钟即成功生成演示文稿，且过程中未再出现校验错误。说明优化策略成效显著🎉！不过，最终成品的质量仍仅处于及格边缘。

我注意到“HTML2PPTX 安全尺寸规范”文档中要求底部预留 60pt 可能过于保守，且模型自主选择的配色缺乏美感。为此，我调整底部预留空间至 50pt，并强制指定 Sage & Terracotta 配色方案，要求模型重新生成。这次生成的结果相对来说质量提高了一些，但整体上仍然不及预期。

综上，我在使用原生的 PPTX Skill 生成演示文稿后，针对生成过程中出现的问题，优化了相关文件并最终解决了问题，但使用 Skill 生成的演示文稿质量没有达到开箱即用的地步。

我认为将内容设计这一步骤提取出来，先根据内容生成设计文档，再作为提示词让模型生成演示文稿，可以进一步优化最终的质量。不过这一步留待下篇文章再优化了。

PPT 生成哪家强

本人苦 PPT 久矣。然而经过耗时耗力的探索，PPTX Skill 仅能交付 60 分的答卷，远未达预期。为此，我全面测试了市面上主流的 AI 演示文稿生成工具，结果如下。

最强王者：Manus

上传文稿并输入提示词 分析Boris的9条技巧，生成Claude Code最佳实践的演示文稿（PPTX）。，仅耗时 4 分钟，Manus 1.6 Lite 模型给出了一份 85 分的答案，演示文稿的内容和设计有 80 分水平，将 Boris 的推特原文截图放在 PPT 中大大超出我的预期，再加 5 分！

Manus 唯一的缺点是贵（当然这是我的问题），最便宜的套餐也要 17 美元一个月，提供 4000 积分。上面这次任务消耗了 142 积分，也就是说不做其他事情，17 美元的套餐一个月可以让你生成 28 张演示文稿。

目前 Manus 对于免费用户，每天也会赠送 300 积分，建议先与 AI 讨论并确认最终的演示文稿设计方案，再要求 Manus 生成，相信足以应对工作中的一般任务了（需要科学上网）。

Manus_Claude_Code_thumbnails_4cols_clean.jpg|500

食之无味：NotebookLM

NotebookLM 同样生成了超出我预期的演示文稿，它本质上是生成图片而不是 PPTX 文件，因此它的设计效果是最好的，并且根据内容生成了非常棒的配图。

但也因此，页面上的字都是“画”上去的，细节处常显模糊甚至结构混乱，远看是字，近看却像小儿涂鸦。

且最终输出仅为 PDF 格式，完全无法应对领导轮番的修改需求，实属“食之无味，弃之可惜”的鸡肋。

NotebookLM_Claude_Code_thumbnails_clean.jpg|500

勉强及格：Gemini Canvas

打开 Gemini 网页，选择 Canvas 模式，即可让 Gemini 根据内容生成幻灯片，任务完成后可以导出到谷歌幻灯片，就能下载为 PPTX 格式。注意：如果首次生成后你觉得不满意，让 AI 调整格式，就无法导出到谷歌幻灯片了。

我选择了 Gemini Pro 模型，使用的提示词为：分析Boris的9条技巧，生成Claude Code最佳实践的 PPT 。使用16:9 的比例，浅色背景，所有内容必须使用中文。，产出质量不太稳定，需要多次生成来获得最佳结果。优化提示词应该能获得更好的效果。

Gemini 生成的演示文稿，内容和排版属于“勉强可以用”的程度，但是图标和图表都被转换成图片且清晰度较低，图表旁的文字也会被合并在图片里，需耗费大量精力进行二次调整。

Claude_Code_Boris_Tips_thumbnails_clean.jpg|500 — *不知为何，缩略图中的文字和原文件中不相同，请忽略字体样式*

值得期待：Ima

腾讯的 Ima 近期上线了与 Manus 近似的“任务模式”，官方的定义是“适合处理复杂任务，并自主交付结果”，经我实测，每次生成 PPT 需要 20-40 分钟，时间较长，不过最终可以交付一份 60 分的演示文稿。考虑到这个功能还在内测阶段，可以期待它后续的迭代。

Ima 的“任务模式”目前还在内测阶段，每个人每天仅可使用 5 次，邀请朋友注册 Ima 即可解锁。

小结

实际上，优化 SKILL 的过程并非如文中描述般顺畅。这不仅仅是“发现 - 分析 - 解决”的线性流程，而是经历了二十余次反复试错，耗费整整一周业余时间探索后的成果。

要想驾驭当前的 SKILL，门槛依然较高：不仅需要理解 Agent Skills 原理，还需具备代码基础及脚本调试能力。目前它更适合专业开发者，距离大众化的“开箱即用”尚有距离。

如果你要问我接下来使用哪个工具来生成演示文稿？那当然是 Manus😛。