<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Small Models on KnightLiブログ</title>
        <link>https://www.knightli.com/ja/tags/small-models/</link>
        <description>Recent content in Small Models on KnightLiブログ</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>ja</language>
        <lastBuildDate>Fri, 15 May 2026 08:59:33 +0800</lastBuildDate><atom:link href="https://www.knightli.com/ja/tags/small-models/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Token Efficiency とは何か：DeepSeek V4 から見る大モデルの計画と小モデルの実行</title>
        <link>https://www.knightli.com/ja/2026/05/15/token-efficiency-agent-orchestration/</link>
        <pubDate>Fri, 15 May 2026 08:59:33 +0800</pubDate>
        
        <guid>https://www.knightli.com/ja/2026/05/15/token-efficiency-agent-orchestration/</guid>
        <description>&lt;p&gt;AI コーディングで次に重要になる指標は、最強モデルを使うことではなく、より少ない token、低いコスト、安定したプロセスで、より多くの検証可能な仕事を終えることかもしれない。&lt;/p&gt;
&lt;p&gt;それが Token Efficiency の価値だ。&lt;/p&gt;
&lt;p&gt;多くの人は Token Efficiency を、安いモデル、長いコンテキスト、安い cache hit と考える。しかしそれは基礎条件にすぎない。本当に生産性に変えるのは、モデルの役割分担、タスク編成、コンテキスト予算、評価体系だ。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-の位置づけ&#34;&gt;DeepSeek V4 の位置づけ
&lt;/h2&gt;&lt;p&gt;DeepSeek V4 は単に強いモデルを出しただけではない。Token Efficiency に必要な二つの能力を &lt;code&gt;V4 Pro&lt;/code&gt; と &lt;code&gt;V4 Flash&lt;/code&gt; に分けた。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;V4 Pro&lt;/code&gt; は計画、推論、アーキテクチャ判断、重要レビューに向く。&lt;code&gt;V4 Flash&lt;/code&gt; は高頻度実行、バッチ書き換え、コード補完、資料整理、agent ループ内の通常ノードに向く。&lt;/p&gt;
&lt;p&gt;AI コーディングでは次のように使える。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;V4 Pro&lt;/code&gt;: planner / consultant。要件分解、技術設計、複雑な bug 分析、アーキテクチャレビュー、最終受け入れ。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;V4 Flash&lt;/code&gt;: executor。ファイル走査、単純実装、テスト補完、文書整理、候補生成、反復タスク。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;DeepSeek の API 文書では、&lt;code&gt;V4 Flash&lt;/code&gt; と &lt;code&gt;V4 Pro&lt;/code&gt; はどちらも &lt;code&gt;1M&lt;/code&gt; context、JSON Output、Tool Calls、Chat Prefix Completion、FIM Completion をサポートする。価格ページでは cache hit input が別価格で、input cache hit 価格が公開時の 10 分の 1 になったことも示されている。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;1M&lt;/code&gt; context は複雑な agent タスクの圧縮問題を減らす。低い cache hit 価格は、長い system prompt、プロジェクト文書、コード片、履歴を繰り返し入れるコストを下げる。&lt;code&gt;Flash / Pro&lt;/code&gt; の分離は、全ステップを高価なモデルで走らせるか、不安定な小モデルだけで走らせるか、という二択を避ける。&lt;/p&gt;
&lt;p&gt;DeepSeek V4 の意味は、別のモデル選択肢ではなく、「consultant model + executor model + harness orchestration」の現実的なコスト構造を提供することにある。&lt;/p&gt;
&lt;h2 id=&#34;最強モデルにすべてをさせない&#34;&gt;最強モデルにすべてをさせない
&lt;/h2&gt;&lt;p&gt;従来は最も賢いモデルに、要件分析、実装、テスト、まとめを全部任せがちだった。&lt;/p&gt;
&lt;p&gt;しかし多くの作業は最高レベルの推論を必要としない。高価なモデルは、重要な判断点だけに出る consultant、architect、planner のように使うべきだ。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;大モデルは問題分解と重要判断。&lt;/li&gt;
&lt;li&gt;小モデルは実行、バッチ処理、反復修正。&lt;/li&gt;
&lt;li&gt;tool と harness はプロセス、状態、コンテキスト、検証。&lt;/li&gt;
&lt;li&gt;人間は製品定義、受け入れ、取捨選択。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;これで最先端推論を機械的な実行に浪費しにくくなる。&lt;/p&gt;
&lt;h2 id=&#34;コンテキストは大きければよいわけではない&#34;&gt;コンテキストは大きければよいわけではない
&lt;/h2&gt;&lt;p&gt;coding agent では、コード、文書、会話履歴、テスト出力、ログがコンテキストを消費する。上限に近づくと圧縮、忘却、誤判断が起きやすい。&lt;/p&gt;
&lt;p&gt;しかし長いコンテキストは、すべてを詰め込んでよいという意味ではない。&lt;/p&gt;
&lt;p&gt;各タスクは、必要ファイル、判断に関係する文書、現在段階に必要な履歴、明確な入出力、次ノードへ渡す構造化要約だけを持つべきだ。&lt;/p&gt;
&lt;p&gt;安い context は無関係な情報を入れたくさせる。だがノイズはモデルを賢くしない。&lt;/p&gt;
&lt;h2 id=&#34;harness-が単体モデルより重要&#34;&gt;Harness が単体モデルより重要
&lt;/h2&gt;&lt;p&gt;Claude Code、Codex、その他の coding agent を安いモデルにつなぐだけでは十分ではない。小モデルは長いタスクでずれやすく、強いプロセス制御が必要だ。&lt;/p&gt;
&lt;p&gt;harness は調度システムであり、タスク分割、ノード実行、モデル選択、結果検証、失敗時の再試行、コンテキスト受け渡しを決める。&lt;/p&gt;
&lt;p&gt;この層がなければ、小モデルは安いだけだ。この層があると、小モデルはレバレッジになる。&lt;/p&gt;
&lt;h2 id=&#34;dag-でタスクを分ける&#34;&gt;DAG でタスクを分ける
&lt;/h2&gt;&lt;p&gt;複雑なタスクは DAG に分けられる。たとえば機能開発は、要件確認、技術設計、タスク分解、実装、テスト補完、Code Review、修正、PR 提出にできる。&lt;/p&gt;
&lt;p&gt;各ノードは独立した agent にできる。役割、prompt、tool 権限、出力形式を分け、長い会話ではなく構造化結果を渡す。&lt;/p&gt;
&lt;p&gt;これによりノードは短くなり、小モデルで完了しやすくなり、どこが失敗しているかも測りやすくなる。&lt;/p&gt;
&lt;h2 id=&#34;タスクは複数回走らせてもよい&#34;&gt;タスクは複数回走らせてもよい
&lt;/h2&gt;&lt;p&gt;token が十分安ければ、同じタスクを一度だけ走らせる必要はない。異なるモデル、prompt、編成で複数回走らせ、最良の結果を選ぶ、または有用部分を統合できる。&lt;/p&gt;
&lt;p&gt;向いているのは設計案、文章、テストケース、bug 仮説、リファクタリング案、Code Review だ。共有状態を変える作業や外部副作用がある作業には向かない。&lt;/p&gt;
&lt;p&gt;目的は運試しではなく、比較可能なサンプルを得て、編成とモデル選択を改善することだ。&lt;/p&gt;
&lt;h2 id=&#34;評価体系が必要&#34;&gt;評価体系が必要
&lt;/h2&gt;&lt;p&gt;Token Efficiency は価格だけでは測れない。安くても失敗率が高ければ、人間の時間を食って高くつく。&lt;/p&gt;
&lt;p&gt;タスク完了率、人間の介入回数、tool call 失敗率、テスト通過率、review 指摘数、タスクごとの token コスト、時間、手戻り回数、モデル組み合わせの差を記録する。&lt;/p&gt;
&lt;p&gt;このデータがあって初めて、小モデルでよい作業、大モデルが必要な作業、人間が判断すべき作業を分けられる。&lt;/p&gt;
&lt;h2 id=&#34;業務フローを原子化する&#34;&gt;業務フローを原子化する
&lt;/h2&gt;&lt;p&gt;全員が harness を自作する必要はない。しかし自分の業務を原子ノードに分解することは今からできる。&lt;/p&gt;
&lt;p&gt;コンテンツ制作なら、企画、調査、アウトライン、初稿、ファクトチェック、スタイル調整、SEO タイトル、多言語翻訳、公開チェック。&lt;/p&gt;
&lt;p&gt;ソフトウェア開発なら、要件確認、技術設計、データ構造、API 変更、単体テスト、実装、移行スクリプト、文書、Review。&lt;/p&gt;
&lt;p&gt;各ノードは入力、出力、受け入れ条件、コンテキストを明確にする。harness が成熟すれば、そのまま接続できる。&lt;/p&gt;
&lt;h2 id=&#34;ハードウェアは最優先ではない&#34;&gt;ハードウェアは最優先ではない
&lt;/h2&gt;&lt;p&gt;Token Efficiency の話はすぐローカルデプロイや GPU に向かう。しかし多くの人にとって最初の選択は API でよい。&lt;/p&gt;
&lt;p&gt;経済モデルが通る前に高価なハードを買うのは、コストの前払いにすぎない。まず API で workflow を通し、評価とコストを記録し、高頻度の実行ノードを見つけてから、ローカル化を検討すべきだ。&lt;/p&gt;
&lt;h2 id=&#34;まとめ&#34;&gt;まとめ
&lt;/h2&gt;&lt;p&gt;Token Efficiency の本質は、高いモデルを安いモデルで置き換えることではない。AI workflow を設計し直すことだ。&lt;/p&gt;
&lt;p&gt;大モデルが重要判断をし、小モデルが大量実行し、harness が調度と検証を行い、人間が目標と受け入れを決める。この四層が揃って初めて token は生産性に変わる。&lt;/p&gt;
&lt;p&gt;将来の差は、最強モデルを呼んだかではなく、同じ token でどれだけ現実の成果を出せるかに現れる。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
