Prompt-Vault：一個適合測試 AI 編程能力的 Prompt 規格庫

w512/Prompt-Vault 是一個很小但有用的 prompt 倉庫。它不是收集萬能咒語，而是把一組可執行的 coding prompt 按難度整理成規格文件，用來測試 LLM 或 coding agent 能不能真正完成小專案。

專案地址：https://github.com/w512/Prompt-Vault

倉庫結構很清楚：Easy、Medium、Hard 三個目錄，每個 Markdown 檔案都是一個獨立任務。README 也說這些 prompt 適合測試大語言模型，或給開發者當練習專案。

它不是 prompt 收藏夾

很多 prompt 倉庫看起來內容很多，但很難判斷品質。標題吸引人，真正拿去用時卻缺少驗收標準。

Prompt-Vault 更像小型規格庫。每個任務都盡量寫清楚要做什麼應用、必須有哪些功能、UI 風格、技術約束、是否單檔執行、是否允許外部依賴、資料是否持久化。

這比「幫我做一個好看的看板」更適合測試模型，因為它能看出模型是否真的理解需求。

Easy：測試基礎互動

Bubble_Sort_Visualizer.md 要求做一個單檔 index.html，用柱狀條即時展示冒泡排序，包含開始、重置、速度滑桿、比較次數統計和深色主題。

它適合測試模型能否把演算法狀態映射到 UI、控制動畫節奏、處理重置和運行狀態，並保持程式碼簡潔。

ToDo_List.md 從靜態 HTML 開始，逐步增加新增任務、完成狀態、刪除按鈕、計數器、Active / Completed 統計和 localStorage 持久化。

這個任務普通，但很適合測試模型是否會按步驟演進，而不是一口氣堆出混亂程式碼。

Medium：測試複雜狀態和動畫

Sorting_Visualization.md 把排序視覺化升級成支援 Bubble Sort、Insertion Sort、Selection Sort、Merge Sort、Quick Sort、Heap Sort 六種演算法。

它還要求演算法選擇、速度滑桿、陣列大小滑桿、重置、開始 / 暫停切換，以及即時統計面板。

很多模型能寫出一個冒泡排序動畫，但一旦要支援多演算法、暫停恢復、比較次數和交換次數統計，就容易暴露狀態管理問題。

Hard：測試完整產品感

Kanban_Board.md 要求完整看板：預設四列、新增列、雙擊改名、刪除空列、卡片標題與描述、優先級、截止日期、拖拽、搜尋、優先級過濾、localStorage、底部統計、深色玻璃擬態和響應式橫向滾動。

它測的是產品完整度，而不是單點功能。

Markdown_Editor_Desktop.md 要求用 Tauri 2 做跨平台 Markdown 編輯器，包含分欄編輯與預覽、同步滾動、即時渲染、預覽模式、專注模式、打開、保存、另存為、未保存標記、格式化工具列、快捷鍵、主題、字體設定、Vue 3、Pinia、marked.js、prism.js 和 Tauri 插件。

這已經能測桌面應用工程能力。

為什麼有價值

Prompt-Vault 的價值不在任務數量，而在於提供可重用的評測樣本。

如果你比較不同模型或 coding agent，可以用同一個 prompt 反覆測試：誰更遵守約束、誰更少漏功能、誰更會處理邊界狀態、誰的程式碼更容易維護、誰更擅長 UI 細節。

這比「我感覺這個模型更聰明」可靠得多。

前端任務尤其適合評測，因為很多失敗不是語法錯誤，而是體驗細節缺失：按鈕狀態、動畫、持久化、拖拽目標、統計同步。

可以怎麼擴展

如果要變成更完整的評測庫，可以補驗收清單、失敗用例、評分維度、參考實作和跨模型記錄。

例如排序任務可以補「快速連續點擊 Start / Reset 不應產生多個動畫循環」。看板任務可以明確非空列是否允許刪除。

使用建議

測 AI 編程工具時，不要只看能不能生成頁面。更好的做法是原樣給 prompt，不額外提示，打開結果按功能逐項驗收，記錄漏掉的功能和 bug，再給一次修復機會，最後比較耗時、token 成本和程式碼品質。

小結

Prompt-Vault 是一個輕量級 prompt 規格庫，適合做 AI 編程測試，也適合前端開發者練習小專案。

它提醒我們：好的 prompt 不只是描述願望，而是寫清需求、約束、互動、狀態、驗收和執行方式。