当我用Codex做PPT,这可能是目前最好的解法之一

通过 Codex + GPT Image 2 的视觉风格迁移 Skill,将参考图/网页风格精准迁移到 PPT,用 Style Lock + 多宫格两段式生成解决多页视觉一致性难题

基本信息

  • 来源类型:文章(人人都是产品经理)
  • 原文位置:raw/articles/2026-05-09-071356-tg-8296cf.md
  • 原文 URLhttps://www.woshipm.com/ai/6391732.html
  • 作者:阿真Irene
  • 发布日期:2026-05-08
  • 消化日期:2026-05-09

核心观点

  1. Style Lock 是解决多页 PPT 视觉一致性的核心机制:通过明确限定一个 Style source 和一个 Style Lock,将风格细节(配色、框形、装饰元素、字号层级)“锁死”在 prompts.md 中,防止不同页面混入历史参考图或其它风格。相比之前 Coze 上的 PPT 风格克隆技能(仅 5 人评分且均为最低分),一致性大幅提升。

  2. 多宫格 → 逐页放大的两段式生成策略:先生成一张多宫格缩略图锁定整体版式节奏,再逐页生成独立成品图。Image 2 在放大时不但遵循版式,还会优化多宫格阶段处理不好的细节,这一点优于 Nano Banana Pro;但人像和角色相关仍 Nano Banana Pro 更好。

  3. Codex 是目前执行此类 Skill 的最佳平台:Codex 足够聪明来理解并输出复杂的文本内容(outline.md + prompts.md),还能批量完成极高质量的带文本图片。替代方案包括 Lovart、LibTV、扣子(Coze),但 Codex 效果最佳。

  4. 路线选择:图片版 PPT 而非可编辑 PPT:这个 Skill 走的是”先把视觉风格资产化,再用 Image 2 生成整页图,最后封装成图片版 PPTX”的路线,而非生成可编辑文字的 PPT。修改须在图片阶段完成,打包后无法再改文字。

  5. Style-used 文件实现风格复用和追加:最终输出的 Style-used 文件是可复用的风格模板,后续生成、返修、复用都可调用同一风格设定。即使 PPT 超过 9 页,直接在此基础上补内容也风格统一。

实操内容保留

操作步骤

10 步完整工作流

  1. 判断任务类型:提炼风格 / 调用风格库 / 文档转 PPT / 已有图片版 PPT 返修 / 单页视觉重做
  2. 选择或提炼风格:明确只使用一个 Style source 和一个 Style Lock,防止混入历史参考图或其它风格
  3. 理解内容:从文档或主题里抽出——一句话主张、受众、3-6 个核心观点、可视觉化对象、建议页数
  4. 确认生产参数:页数、比例、输出类型、语言、文字密度、是否需要日期/作者/Logo/水印(默认:中文优先、16:9、低密度、无日期)
  5. 规划页型:从封面、目录、核心观点、对比、流程、框架、时间线、数据、案例、清单、结论等页型中为每页定角色
  6. 先产出文档:必须先生成 outline.md(内容框架)和 prompts.md(完整提示词,包含完整 Style Lock)
  7. 两段式生成:先做一张多宫格缩略图锁定整体节奏,再逐页生成独立成品图
  8. 用户确认图片:确认通过后才组装 PPTX 和 zip
  9. 局部返修:重做被点名的页,保留其它页和同一风格系统
  10. 最终打包质检:检查风格一致、中文可读、信息不拥挤、页型匹配、无黑色外框、无假日期、一页一图、PPTX 全屏铺图

5 步使用流程

  1. 在 Codex 安装 visual-style-ppt Skill(GitHub 链接:https://github.com/irenerachel/visual-style-ppt-skill)
  2. 给它参考图,让它提炼风格 DNA
  3. 给它文档,让它基于文档生成 PPT 图片(会先生成 outline + prompts 两个文档待确认)
  4. 检查和修改图片细节,没问题后让它打包文件
  5. Style-used 文件下次可复用,觉得有用可让 Codex 直接存到 Skill 里

Prompt 模板

关键提示词结构:prompts.md 前面包含详细的制作参数标准默认与统一 + Style Lock(将风格和层级细节锁死),后面是每张 PPT 的详细提示词

关键概念

  • Codex — 执行 visual-style-ppt Skill 的核心平台,OpenAI 推出的任务执行型 AI 工具
  • GPT Image 2 — 实现视觉风格迁移的图像生成模型,支持带文本的高质量图片生成
  • Style Lock — 锁定视觉细节的机制,限定了配色、框形、装饰元素、字号层级等风格参数
  • Landbook — 网页设计灵感库网站(land-book.com),可作为 Style source 的参考图来源
  • visual-style-ppt Skill — 阿真Irene 开发的 Codex Skill,GitHub 开源,实现视觉风格迁移 PPT 全流程

与其他素材的关联

  • 2026-04-29-deepseek-5-killer-combinations 的关系:那篇素材介绍了 DeepSeek + Gamma 的 PPT 快速生成工作流(可编辑 PPT 路线),本文则是 Codex + Image 2 的图片版 PPT 路线,两条路线互补——前者适合需要编辑文字的场景,后者适合追求视觉品质的场景
  • 2026-04-29-deepseek-photoshop-script 的关系:两者都是”AI + 视觉设计自动化”范式,PS 脚本走的是代码驱动自动化路线,本文走的是 Skill + 图片生成路线

原文精彩摘录

首先这个 Skill 不是做可编辑 PPT 的路线,走的路线还是”先把视觉风格资产化,再用 Image2 生成整页图,最后封装成图片版 PPTX “。这主要还是依托 Image 2 自身强大的能力实现的。

明确只使用一个 Style source (用于参考风格的资源)和一个 Style Lock(锁定视觉细节),防止混入历史参考图或其它风格。

输出 PPT 图片的时候,我的逻辑是先输出多宫格图,把基本的版式定下来,后续它再一个个放大,而 GPT Image 2 不让人失望的一点就是它放的时候不但基本遵循了版式,在多宫格时候一些处理不好的地方它放大之后反而有可能进一步优化,这一点我觉得是 Nano Banana Pro 做得有点不如它的。但是人像和角色相关还是 Nano Banana Pro 更好。

相关页面