Prompt-Vault:一个适合测试 AI 编程能力的 Prompt 规格库

整理 w512/Prompt-Vault 项目:它把 Bubble Sort 可视化、待办事项、排序可视化、Kanban 看板和 Tauri Markdown 编辑器整理成分级 prompt,可用于测试 AI coding agent 的需求理解、UI 实现、状态管理和工程完整度。

w512/Prompt-Vault 是一个很小但有用的 prompt 仓库。它不是收集“万能咒语”,而是把一组可执行的 coding prompt 按难度整理成规格文档,用来测试 LLM 或 coding agent 能不能真正完成一个小项目。

项目地址:https://github.com/w512/Prompt-Vault

截至写作时,这个仓库只有少量文件和提交,但结构很清楚:EasyMediumHard 三个目录,每个 Markdown 文件都是一个独立任务。README 里也写得很直接:这些 prompt 适合测试大语言模型,或者给开发者当练手项目。

它不是 prompt 收藏夹

很多 prompt 仓库的问题,是内容看起来很多,但很难判断质量。标题很吸引人,真正拿去用时却缺少验收标准。

Prompt-Vault 更像一个小型规格库。每个任务都尽量写清楚:

  • 要做什么应用
  • 必须有哪些功能
  • UI 应该是什么风格
  • 技术约束是什么
  • 是否必须单文件运行
  • 是否允许外部依赖
  • 数据是否需要持久化

这种结构比“请帮我做一个好看的看板”更适合测试模型。因为它能看出模型是否真的理解需求,而不是只生成一份看似完整的页面。

Easy:测试基础交互

Easy 目录里有两个任务。

第一个是 Bubble_Sort_Visualizer.md,要求做一个单文件 index.html,用柱状条实时展示冒泡排序。它要求有开始按钮、重置按钮、速度滑块、比较次数统计和深色主题。

这个任务适合测试模型的基础前端能力:

  • 能不能把算法状态映射到 UI
  • 能不能做动画节奏控制
  • 能不能正确处理重置和运行状态
  • 能不能保持代码简单可读

第二个是 ToDo_List.md,从静态 HTML 开始,一步步增加添加任务、完成状态、删除按钮、计数器、Active / Completed 统计和 localStorage 持久化。

这个任务看起来普通,但很适合测试模型是否会按步骤演进,而不是一口气堆出一份混乱代码。

Medium:测试复杂状态和动画

Medium/Sorting_Visualization.md 把排序可视化升级了一档。

它要求同一个页面支持 6 种排序算法:

  • Bubble Sort
  • Insertion Sort
  • Selection Sort
  • Merge Sort
  • Quick Sort
  • Heap Sort

同时还要有算法选择、速度滑块、数组大小滑块、重置按钮、开始 / 暂停切换,以及实时统计面板。

这个任务能测出不少问题。很多模型可以写出一个冒泡排序动画,但一旦要支持多个算法、暂停恢复、统计比较次数和交换次数,就容易出现状态混乱。

如果用它做评测,可以重点看这些点:

  • 每种算法是否真的按预期排序
  • 动画是否和算法步骤一致
  • 暂停后能否继续
  • 重置是否会停止旧动画
  • 数组大小变化是否会破坏状态
  • 统计数据是否可信

这类 prompt 很适合作为前端 coding agent 的中等难度 smoke test。

Hard:测试完整产品感

Hard 目录目前有两个任务。

一个是 Kanban_Board.md。它要求做一个完整的看板应用:默认四列、可新增列、双击重命名、空列删除、卡片标题和描述、优先级、截止日期、拖拽、搜索、优先级过滤、localStorage 持久化、底部统计栏、深色玻璃拟态风格和响应式横向滚动。

这个 prompt 的价值在于它不是只测单点能力,而是测“产品完整度”:

  • 原生 Drag & Drop 是否可靠
  • 新增列和卡片后状态是否持久化
  • 搜索和过滤是否影响布局
  • overdue 逻辑是否正确
  • Done 列是否触发视觉状态变化
  • 删除、重命名、取消、保存这些边界是否完整

另一个是 Markdown_Editor_Desktop.md,要求用 Tauri 2 做跨平台 Markdown 编辑器。它包含分栏编辑与预览、同步滚动、实时渲染、预览模式、专注模式、打开文件、保存、另存为、窗口标题未保存标记、格式化工具栏、快捷键、主题、字体设置、Vue 3、Pinia、marked.jsprism.js 和 Tauri 插件。

这已经不是普通网页 prompt,而是一个能测试桌面应用工程能力的规格。模型需要理解前端状态、Tauri 插件、文件系统权限、IPC 边界和跨平台打包。

为什么这种仓库有价值

Prompt-Vault 的价值不在于任务数量,而在于它给了可复用的评测样本。

如果你在比较不同模型或 coding agent,可以用同一个 prompt 反复测试:

  • 哪个模型更能遵守约束
  • 哪个模型更少漏功能
  • 哪个模型更会处理边界状态
  • 哪个模型生成的代码更容易维护
  • 哪个模型更擅长 UI 细节
  • 哪个模型在单文件约束下更稳定

这比“我感觉这个模型更聪明”可靠得多。

尤其是前端任务,很多失败不是语法错误,而是体验细节缺失。比如按钮能不能禁用、动画是否卡住、刷新后数据是否还在、拖拽目标是否高亮、统计是否同步更新。这些都需要具体 prompt 才能测出来。

可以怎么扩展

如果要把 Prompt-Vault 变成更完整的评测库,可以继续补几类任务。

第一类是验收清单。每个 prompt 后面加一组 checklist,比如“刷新后任务仍存在”“删除空列成功,非空列不能删除”“暂停排序后数组状态不变”。这样人和 agent 都更容易验收。

第二类是失败用例。比如给排序可视化任务补充“快速连续点击 Start / Reset 不应产生多个动画循环”。这能测出状态管理是否扎实。

第三类是评分维度。可以按功能完整度、代码可维护性、UI 质量、可访问性、性能、边界处理打分。

第四类是参考实现。不是为了让模型抄答案,而是给评测者一个基准,方便判断输出是不是合理。

第五类是跨模型记录。把不同模型在同一 prompt 下的结果、失败点和 token 成本记录下来,就能形成真正的 coding benchmark。

使用建议

如果你想用这个仓库测试 AI 编程工具,建议不要只看“能不能生成页面”。

更好的做法是:

  1. 选一个 prompt,原样交给模型。
  2. 不做额外提示,看第一次输出能完成多少。
  3. 打开生成结果,按功能逐项验收。
  4. 记录漏掉的功能和明显 bug。
  5. 再给一次修复机会。
  6. 比较总耗时、token 成本和最终代码质量。

这样测出来的结果更接近真实开发。因为真正的 coding agent 不只是生成代码,还要理解规格、处理反馈、修复缺陷,并保持代码可维护。

小结

Prompt-Vault 是一个轻量级 prompt 规格库。它适合拿来做 AI 编程测试,也适合前端开发者练习小项目。

它提醒我们:好的 prompt 不只是描述愿望,而是写清需求、约束、交互、状态、验收和运行方式。越是想测试模型能力,越不能只给一句模糊指令。

如果你正在比较 Codex、Claude Code、Cursor、Gemini CLI 或其他 coding agent,这类分级 prompt 很值得收藏。它们能帮你把“感觉好用”变成“具体哪里做对了,哪里漏了,修一次能不能补回来”。

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计