Prompt-Vault：AI コーディング能力を測るための prompt 仕様集

w512/Prompt-Vault は小さいが有用な prompt リポジトリだ。万能の呪文を集めるのではなく、実行可能な coding prompt を難易度別に整理し、LLM や coding agent のテストに使えるようにしている。

プロジェクト：https://github.com/w512/Prompt-Vault

構造は Easy、Medium、Hard の三つ。各 Markdown ファイルが独立したタスクだ。README も、これらは大規模言語モデルのテストや練習プロジェクトに向くと説明している。

prompt スクラップブックではない

多くの prompt 集は数が多くても品質を判断しにくい。見出しは魅力的でも、受け入れ基準が足りない。

Prompt-Vault は仕様集に近い。各タスクは、作るアプリ、必須機能、UI スタイル、技術制約、単一ファイル実行か、外部依存の可否、永続化の有無を明確にしようとしている。

これは「きれいな看板を作って」よりもモデル評価に向いている。モデルが要件を理解しているかが見えるからだ。

Easy：基本的なインタラクション

Bubble_Sort_Visualizer.md は、単一 index.html でバブルソートを棒グラフ表示する。開始、リセット、速度スライダー、比較回数、ダークテーマが必要だ。

アルゴリズム状態を UI に結びつけられるか、アニメーションを制御できるか、リセットと実行状態を扱えるかを測れる。

ToDo_List.md は静的 HTML から始まり、タスク追加、完了状態、削除、カウンタ、Active / Completed 統計、localStorage を段階的に追加する。

単純だが、段階的にコードを進化させられるかを測るのに向いている。

Medium：状態とアニメーション

Sorting_Visualization.md は 6 種類のソートを同じページで扱う。Bubble Sort、Insertion Sort、Selection Sort、Merge Sort、Quick Sort、Heap Sort だ。

さらにアルゴリズム選択、速度、配列サイズ、リセット、開始 / 一時停止、統計パネルも必要になる。

ひとつのバブルソートは書けても、複数アルゴリズム、停止再開、統計を合わせると状態管理の弱点が出やすい。

Hard：製品としての完成度

Kanban_Board.md は、列追加、改名、空列削除、カードのタイトルと説明、優先度、期限、ドラッグ、検索、フィルタ、localStorage、統計、ダークな glassmorphism、横スクロール対応を求める。

これは単機能ではなく、製品としての完成度を測る prompt だ。

Markdown_Editor_Desktop.md は Tauri 2 のクロスプラットフォーム Markdown エディタを求める。分割編集とプレビュー、同期スクロール、ライブレンダリング、保存、未保存表示、ツールバー、ショートカット、テーマ、Vue 3、Pinia、marked.js、prism.js、Tauri plugins などを含む。

Web ページを超えて、デスクトップアプリの設計力を測れる。

価値

Prompt-Vault の価値は数ではなく、再利用できる評価サンプルにある。

同じ prompt を複数モデルで使えば、制約を守るか、機能漏れが少ないか、境界状態を扱えるか、コードが保守しやすいか、UI 細部に強いかを比較できる。

これは「賢そうに感じる」よりずっと信頼できる。

フロントエンドタスクでは、失敗は構文エラーだけではない。ボタン状態、アニメーション停止、永続化、ドラッグ対象、統計更新など、体験の細部が評価になる。

拡張案

より本格的な benchmark にするなら、受け入れチェックリスト、失敗ケース、採点軸、参照実装、モデル別の結果記録を追加できる。

たとえばソート可視化には「Start / Reset を連打しても複数ループが走らない」などのチェックを入れるとよい。

使い方

AI コーディングツールを試すなら、prompt をそのまま渡し、追加ヒントなしで出力を実行する。機能ごとに確認し、漏れと bug を記録し、一度だけ修正させる。最後に時間、token コスト、コード品質を比べる。

まとめ

Prompt-Vault は軽量な prompt 仕様集だ。AI コーディングのテストにも、フロントエンド練習にも使える。

良い prompt は願望ではなく、要件、制約、インタラクション、状態、受け入れ基準、実行方法を書くものだと教えてくれる。