Prompt-Vault：一个适合测试 AI 编程能力的 Prompt 规格库

w512/Prompt-Vault 是一个很小但有用的 prompt 仓库。它不是收集“万能咒语”，而是把一组可执行的 coding prompt 按难度整理成规格文档，用来测试 LLM 或 coding agent 能不能真正完成一个小项目。

项目地址：https://github.com/w512/Prompt-Vault

截至写作时，这个仓库只有少量文件和提交，但结构很清楚：Easy、Medium、Hard 三个目录，每个 Markdown 文件都是一个独立任务。README 里也写得很直接：这些 prompt 适合测试大语言模型，或者给开发者当练手项目。

它不是 prompt 收藏夹

很多 prompt 仓库的问题，是内容看起来很多，但很难判断质量。标题很吸引人，真正拿去用时却缺少验收标准。

Prompt-Vault 更像一个小型规格库。每个任务都尽量写清楚：

要做什么应用
必须有哪些功能
UI 应该是什么风格
技术约束是什么
是否必须单文件运行
是否允许外部依赖
数据是否需要持久化

这种结构比“请帮我做一个好看的看板”更适合测试模型。因为它能看出模型是否真的理解需求，而不是只生成一份看似完整的页面。

Easy：测试基础交互

Easy 目录里有两个任务。

第一个是 Bubble_Sort_Visualizer.md，要求做一个单文件 index.html，用柱状条实时展示冒泡排序。它要求有开始按钮、重置按钮、速度滑块、比较次数统计和深色主题。

这个任务适合测试模型的基础前端能力：

能不能把算法状态映射到 UI
能不能做动画节奏控制
能不能正确处理重置和运行状态
能不能保持代码简单可读

第二个是 ToDo_List.md，从静态 HTML 开始，一步步增加添加任务、完成状态、删除按钮、计数器、Active / Completed 统计和 localStorage 持久化。

这个任务看起来普通，但很适合测试模型是否会按步骤演进，而不是一口气堆出一份混乱代码。

Medium：测试复杂状态和动画

Medium/Sorting_Visualization.md 把排序可视化升级了一档。

它要求同一个页面支持 6 种排序算法：

Bubble Sort
Insertion Sort
Selection Sort
Merge Sort
Quick Sort
Heap Sort

同时还要有算法选择、速度滑块、数组大小滑块、重置按钮、开始 / 暂停切换，以及实时统计面板。

这个任务能测出不少问题。很多模型可以写出一个冒泡排序动画，但一旦要支持多个算法、暂停恢复、统计比较次数和交换次数，就容易出现状态混乱。

如果用它做评测，可以重点看这些点：

每种算法是否真的按预期排序
动画是否和算法步骤一致
暂停后能否继续
重置是否会停止旧动画
数组大小变化是否会破坏状态
统计数据是否可信

这类 prompt 很适合作为前端 coding agent 的中等难度 smoke test。

Hard：测试完整产品感

Hard 目录目前有两个任务。

一个是 Kanban_Board.md。它要求做一个完整的看板应用：默认四列、可新增列、双击重命名、空列删除、卡片标题和描述、优先级、截止日期、拖拽、搜索、优先级过滤、localStorage 持久化、底部统计栏、深色玻璃拟态风格和响应式横向滚动。

这个 prompt 的价值在于它不是只测单点能力，而是测“产品完整度”：

原生 Drag & Drop 是否可靠
新增列和卡片后状态是否持久化
搜索和过滤是否影响布局
overdue 逻辑是否正确
Done 列是否触发视觉状态变化
删除、重命名、取消、保存这些边界是否完整

另一个是 Markdown_Editor_Desktop.md，要求用 Tauri 2 做跨平台 Markdown 编辑器。它包含分栏编辑与预览、同步滚动、实时渲染、预览模式、专注模式、打开文件、保存、另存为、窗口标题未保存标记、格式化工具栏、快捷键、主题、字体设置、Vue 3、Pinia、marked.js、prism.js 和 Tauri 插件。

这已经不是普通网页 prompt，而是一个能测试桌面应用工程能力的规格。模型需要理解前端状态、Tauri 插件、文件系统权限、IPC 边界和跨平台打包。

为什么这种仓库有价值

Prompt-Vault 的价值不在于任务数量，而在于它给了可复用的评测样本。

如果你在比较不同模型或 coding agent，可以用同一个 prompt 反复测试：

哪个模型更能遵守约束
哪个模型更少漏功能
哪个模型更会处理边界状态
哪个模型生成的代码更容易维护
哪个模型更擅长 UI 细节
哪个模型在单文件约束下更稳定

这比“我感觉这个模型更聪明”可靠得多。

尤其是前端任务，很多失败不是语法错误，而是体验细节缺失。比如按钮能不能禁用、动画是否卡住、刷新后数据是否还在、拖拽目标是否高亮、统计是否同步更新。这些都需要具体 prompt 才能测出来。

可以怎么扩展

如果要把 Prompt-Vault 变成更完整的评测库，可以继续补几类任务。

第一类是验收清单。每个 prompt 后面加一组 checklist，比如“刷新后任务仍存在”“删除空列成功，非空列不能删除”“暂停排序后数组状态不变”。这样人和 agent 都更容易验收。

第二类是失败用例。比如给排序可视化任务补充“快速连续点击 Start / Reset 不应产生多个动画循环”。这能测出状态管理是否扎实。

第三类是评分维度。可以按功能完整度、代码可维护性、UI 质量、可访问性、性能、边界处理打分。

第四类是参考实现。不是为了让模型抄答案，而是给评测者一个基准，方便判断输出是不是合理。

第五类是跨模型记录。把不同模型在同一 prompt 下的结果、失败点和 token 成本记录下来，就能形成真正的 coding benchmark。

使用建议

如果你想用这个仓库测试 AI 编程工具，建议不要只看“能不能生成页面”。

更好的做法是：

选一个 prompt，原样交给模型。
不做额外提示，看第一次输出能完成多少。
打开生成结果，按功能逐项验收。
记录漏掉的功能和明显 bug。
再给一次修复机会。
比较总耗时、token 成本和最终代码质量。

这样测出来的结果更接近真实开发。因为真正的 coding agent 不只是生成代码，还要理解规格、处理反馈、修复缺陷，并保持代码可维护。

小结

Prompt-Vault 是一个轻量级 prompt 规格库。它适合拿来做 AI 编程测试，也适合前端开发者练习小项目。

它提醒我们：好的 prompt 不只是描述愿望，而是写清需求、约束、交互、状态、验收和运行方式。越是想测试模型能力，越不能只给一句模糊指令。

如果你正在比较 Codex、Claude Code、Cursor、Gemini CLI 或其他 coding agent，这类分级 prompt 很值得收藏。它们能帮你把“感觉好用”变成“具体哪里做对了，哪里漏了，修一次能不能补回来”。