<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Prompt on KnightLi的博客</title>
        <link>https://www.knightli.com/tags/prompt/</link>
        <description>Recent content in Prompt on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Fri, 15 May 2026 09:00:52 +0800</lastBuildDate><atom:link href="https://www.knightli.com/tags/prompt/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Prompt-Vault：一个适合测试 AI 编程能力的 Prompt 规格库</title>
        <link>https://www.knightli.com/2026/05/15/prompt-vault-coding-prompt-benchmark/</link>
        <pubDate>Fri, 15 May 2026 09:00:52 +0800</pubDate>
        
        <guid>https://www.knightli.com/2026/05/15/prompt-vault-coding-prompt-benchmark/</guid>
        <description>&lt;p&gt;&lt;code&gt;w512/Prompt-Vault&lt;/code&gt; 是一个很小但有用的 prompt 仓库。它不是收集“万能咒语”，而是把一组可执行的 coding prompt 按难度整理成规格文档，用来测试 LLM 或 coding agent 能不能真正完成一个小项目。&lt;/p&gt;
&lt;p&gt;项目地址：&lt;a class=&#34;link&#34; href=&#34;https://github.com/w512/Prompt-Vault&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/w512/Prompt-Vault&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;截至写作时，这个仓库只有少量文件和提交，但结构很清楚：&lt;code&gt;Easy&lt;/code&gt;、&lt;code&gt;Medium&lt;/code&gt;、&lt;code&gt;Hard&lt;/code&gt; 三个目录，每个 Markdown 文件都是一个独立任务。README 里也写得很直接：这些 prompt 适合测试大语言模型，或者给开发者当练手项目。&lt;/p&gt;
&lt;h2 id=&#34;它不是-prompt-收藏夹&#34;&gt;它不是 prompt 收藏夹
&lt;/h2&gt;&lt;p&gt;很多 prompt 仓库的问题，是内容看起来很多，但很难判断质量。标题很吸引人，真正拿去用时却缺少验收标准。&lt;/p&gt;
&lt;p&gt;Prompt-Vault 更像一个小型规格库。每个任务都尽量写清楚：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;要做什么应用&lt;/li&gt;
&lt;li&gt;必须有哪些功能&lt;/li&gt;
&lt;li&gt;UI 应该是什么风格&lt;/li&gt;
&lt;li&gt;技术约束是什么&lt;/li&gt;
&lt;li&gt;是否必须单文件运行&lt;/li&gt;
&lt;li&gt;是否允许外部依赖&lt;/li&gt;
&lt;li&gt;数据是否需要持久化&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这种结构比“请帮我做一个好看的看板”更适合测试模型。因为它能看出模型是否真的理解需求，而不是只生成一份看似完整的页面。&lt;/p&gt;
&lt;h2 id=&#34;easy测试基础交互&#34;&gt;Easy：测试基础交互
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Easy&lt;/code&gt; 目录里有两个任务。&lt;/p&gt;
&lt;p&gt;第一个是 &lt;code&gt;Bubble_Sort_Visualizer.md&lt;/code&gt;，要求做一个单文件 &lt;code&gt;index.html&lt;/code&gt;，用柱状条实时展示冒泡排序。它要求有开始按钮、重置按钮、速度滑块、比较次数统计和深色主题。&lt;/p&gt;
&lt;p&gt;这个任务适合测试模型的基础前端能力：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;能不能把算法状态映射到 UI&lt;/li&gt;
&lt;li&gt;能不能做动画节奏控制&lt;/li&gt;
&lt;li&gt;能不能正确处理重置和运行状态&lt;/li&gt;
&lt;li&gt;能不能保持代码简单可读&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;第二个是 &lt;code&gt;ToDo_List.md&lt;/code&gt;，从静态 HTML 开始，一步步增加添加任务、完成状态、删除按钮、计数器、Active / Completed 统计和 &lt;code&gt;localStorage&lt;/code&gt; 持久化。&lt;/p&gt;
&lt;p&gt;这个任务看起来普通，但很适合测试模型是否会按步骤演进，而不是一口气堆出一份混乱代码。&lt;/p&gt;
&lt;h2 id=&#34;medium测试复杂状态和动画&#34;&gt;Medium：测试复杂状态和动画
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Medium/Sorting_Visualization.md&lt;/code&gt; 把排序可视化升级了一档。&lt;/p&gt;
&lt;p&gt;它要求同一个页面支持 6 种排序算法：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Bubble Sort&lt;/li&gt;
&lt;li&gt;Insertion Sort&lt;/li&gt;
&lt;li&gt;Selection Sort&lt;/li&gt;
&lt;li&gt;Merge Sort&lt;/li&gt;
&lt;li&gt;Quick Sort&lt;/li&gt;
&lt;li&gt;Heap Sort&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;同时还要有算法选择、速度滑块、数组大小滑块、重置按钮、开始 / 暂停切换，以及实时统计面板。&lt;/p&gt;
&lt;p&gt;这个任务能测出不少问题。很多模型可以写出一个冒泡排序动画，但一旦要支持多个算法、暂停恢复、统计比较次数和交换次数，就容易出现状态混乱。&lt;/p&gt;
&lt;p&gt;如果用它做评测，可以重点看这些点：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每种算法是否真的按预期排序&lt;/li&gt;
&lt;li&gt;动画是否和算法步骤一致&lt;/li&gt;
&lt;li&gt;暂停后能否继续&lt;/li&gt;
&lt;li&gt;重置是否会停止旧动画&lt;/li&gt;
&lt;li&gt;数组大小变化是否会破坏状态&lt;/li&gt;
&lt;li&gt;统计数据是否可信&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这类 prompt 很适合作为前端 coding agent 的中等难度 smoke test。&lt;/p&gt;
&lt;h2 id=&#34;hard测试完整产品感&#34;&gt;Hard：测试完整产品感
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Hard&lt;/code&gt; 目录目前有两个任务。&lt;/p&gt;
&lt;p&gt;一个是 &lt;code&gt;Kanban_Board.md&lt;/code&gt;。它要求做一个完整的看板应用：默认四列、可新增列、双击重命名、空列删除、卡片标题和描述、优先级、截止日期、拖拽、搜索、优先级过滤、&lt;code&gt;localStorage&lt;/code&gt; 持久化、底部统计栏、深色玻璃拟态风格和响应式横向滚动。&lt;/p&gt;
&lt;p&gt;这个 prompt 的价值在于它不是只测单点能力，而是测“产品完整度”：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;原生 Drag &amp;amp; Drop 是否可靠&lt;/li&gt;
&lt;li&gt;新增列和卡片后状态是否持久化&lt;/li&gt;
&lt;li&gt;搜索和过滤是否影响布局&lt;/li&gt;
&lt;li&gt;overdue 逻辑是否正确&lt;/li&gt;
&lt;li&gt;Done 列是否触发视觉状态变化&lt;/li&gt;
&lt;li&gt;删除、重命名、取消、保存这些边界是否完整&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;另一个是 &lt;code&gt;Markdown_Editor_Desktop.md&lt;/code&gt;，要求用 Tauri 2 做跨平台 Markdown 编辑器。它包含分栏编辑与预览、同步滚动、实时渲染、预览模式、专注模式、打开文件、保存、另存为、窗口标题未保存标记、格式化工具栏、快捷键、主题、字体设置、Vue 3、Pinia、&lt;code&gt;marked.js&lt;/code&gt;、&lt;code&gt;prism.js&lt;/code&gt; 和 Tauri 插件。&lt;/p&gt;
&lt;p&gt;这已经不是普通网页 prompt，而是一个能测试桌面应用工程能力的规格。模型需要理解前端状态、Tauri 插件、文件系统权限、IPC 边界和跨平台打包。&lt;/p&gt;
&lt;h2 id=&#34;为什么这种仓库有价值&#34;&gt;为什么这种仓库有价值
&lt;/h2&gt;&lt;p&gt;Prompt-Vault 的价值不在于任务数量，而在于它给了可复用的评测样本。&lt;/p&gt;
&lt;p&gt;如果你在比较不同模型或 coding agent，可以用同一个 prompt 反复测试：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;哪个模型更能遵守约束&lt;/li&gt;
&lt;li&gt;哪个模型更少漏功能&lt;/li&gt;
&lt;li&gt;哪个模型更会处理边界状态&lt;/li&gt;
&lt;li&gt;哪个模型生成的代码更容易维护&lt;/li&gt;
&lt;li&gt;哪个模型更擅长 UI 细节&lt;/li&gt;
&lt;li&gt;哪个模型在单文件约束下更稳定&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这比“我感觉这个模型更聪明”可靠得多。&lt;/p&gt;
&lt;p&gt;尤其是前端任务，很多失败不是语法错误，而是体验细节缺失。比如按钮能不能禁用、动画是否卡住、刷新后数据是否还在、拖拽目标是否高亮、统计是否同步更新。这些都需要具体 prompt 才能测出来。&lt;/p&gt;
&lt;h2 id=&#34;可以怎么扩展&#34;&gt;可以怎么扩展
&lt;/h2&gt;&lt;p&gt;如果要把 Prompt-Vault 变成更完整的评测库，可以继续补几类任务。&lt;/p&gt;
&lt;p&gt;第一类是验收清单。每个 prompt 后面加一组 checklist，比如“刷新后任务仍存在”“删除空列成功，非空列不能删除”“暂停排序后数组状态不变”。这样人和 agent 都更容易验收。&lt;/p&gt;
&lt;p&gt;第二类是失败用例。比如给排序可视化任务补充“快速连续点击 Start / Reset 不应产生多个动画循环”。这能测出状态管理是否扎实。&lt;/p&gt;
&lt;p&gt;第三类是评分维度。可以按功能完整度、代码可维护性、UI 质量、可访问性、性能、边界处理打分。&lt;/p&gt;
&lt;p&gt;第四类是参考实现。不是为了让模型抄答案，而是给评测者一个基准，方便判断输出是不是合理。&lt;/p&gt;
&lt;p&gt;第五类是跨模型记录。把不同模型在同一 prompt 下的结果、失败点和 token 成本记录下来，就能形成真正的 coding benchmark。&lt;/p&gt;
&lt;h2 id=&#34;使用建议&#34;&gt;使用建议
&lt;/h2&gt;&lt;p&gt;如果你想用这个仓库测试 AI 编程工具，建议不要只看“能不能生成页面”。&lt;/p&gt;
&lt;p&gt;更好的做法是：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;选一个 prompt，原样交给模型。&lt;/li&gt;
&lt;li&gt;不做额外提示，看第一次输出能完成多少。&lt;/li&gt;
&lt;li&gt;打开生成结果，按功能逐项验收。&lt;/li&gt;
&lt;li&gt;记录漏掉的功能和明显 bug。&lt;/li&gt;
&lt;li&gt;再给一次修复机会。&lt;/li&gt;
&lt;li&gt;比较总耗时、token 成本和最终代码质量。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这样测出来的结果更接近真实开发。因为真正的 coding agent 不只是生成代码，还要理解规格、处理反馈、修复缺陷，并保持代码可维护。&lt;/p&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;Prompt-Vault 是一个轻量级 prompt 规格库。它适合拿来做 AI 编程测试，也适合前端开发者练习小项目。&lt;/p&gt;
&lt;p&gt;它提醒我们：好的 prompt 不只是描述愿望，而是写清需求、约束、交互、状态、验收和运行方式。越是想测试模型能力，越不能只给一句模糊指令。&lt;/p&gt;
&lt;p&gt;如果你正在比较 Codex、Claude Code、Cursor、Gemini CLI 或其他 coding agent，这类分级 prompt 很值得收藏。它们能帮你把“感觉好用”变成“具体哪里做对了，哪里漏了，修一次能不能补回来”。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
