<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>ベクトルモデル on KnightLiブログ</title>
        <link>https://www.knightli.com/ja/tags/%E3%83%99%E3%82%AF%E3%83%88%E3%83%AB%E3%83%A2%E3%83%87%E3%83%AB/</link>
        <description>Recent content in ベクトルモデル on KnightLiブログ</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>ja</language>
        <lastBuildDate>Thu, 23 Apr 2026 15:23:47 +0800</lastBuildDate><atom:link href="https://www.knightli.com/ja/tags/%E3%83%99%E3%82%AF%E3%83%88%E3%83%AB%E3%83%A2%E3%83%87%E3%83%AB/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>代表的な埋め込みモデルはどう選ぶべきか: OpenAI・BGE・E5・GTE・Jina の比較</title>
        <link>https://www.knightli.com/ja/2026/04/23/compare-openai-bge-e5-gte-jina-embedding-models/</link>
        <pubDate>Thu, 23 Apr 2026 15:23:47 +0800</pubDate>
        
        <guid>https://www.knightli.com/ja/2026/04/23/compare-openai-bge-e5-gte-jina-embedding-models/</guid>
        <description>&lt;p&gt;RAG、セマンティック検索、ナレッジベース検索を始めると、多くの人が最初に同じ疑問にぶつかります。埋め込みモデルはたくさんあるけれど、結局どれを選べばいいのか、ということです。&lt;/p&gt;
&lt;p&gt;代表的なモデルは大きく二つに分けられます。一つは中国語・英語・多言語タスクを広くカバーする汎用テキスト埋め込みです。もう一つは中国語向けの用途により適していて、中国語検索、中国語 QA、中国語ナレッジベースでの性能を重視したものです。&lt;/p&gt;
&lt;p&gt;まず短い結論だけ言うなら、次のように考えると分かりやすいです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;手間を減らして API をそのまま使いたいなら: &lt;code&gt;text-embedding-3-small&lt;/code&gt; または &lt;code&gt;text-embedding-3-large&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;中国語検索をやりたくて、かつオープンソースを自前で運用したいなら: &lt;code&gt;bge-base-zh-v1.5&lt;/code&gt;、&lt;code&gt;bge-m3&lt;/code&gt;、&lt;code&gt;gte-large-zh&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;多言語にも対応したいなら: &lt;code&gt;multilingual-e5-base&lt;/code&gt;、&lt;code&gt;multilingual-e5-large&lt;/code&gt;、&lt;code&gt;jina-embeddings-v3&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;中国語用途でコストを抑えたいなら: &lt;code&gt;bge-small-zh-v1.5&lt;/code&gt;、&lt;code&gt;gte-base-zh&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;1-まずは種類ごとに見る&#34;&gt;1. まずは種類ごとに見る
&lt;/h2&gt;&lt;h3 id=&#34;1-openai-系&#34;&gt;1. OpenAI 系
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;text-embedding-3-small&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;text-embedding-3-large&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;この系統の特徴は、呼び出しが簡単で安定していることです。API を直接使って検索、RAG、分類、類似度マッチングを行うのに向いています。強みは「特定の中国語ベンチマークで飛び抜けて高得点」という点ではなく、全体としての使いやすさにあります。導入ハードルが低く、品質が安定していて、エンジニアリングコストも低いです。&lt;/p&gt;
&lt;p&gt;チームとしてモデルを自前でホストしたくない、推論サービスの運用もしたくないなら、OpenAI 系はたいてい最も時間を節約しやすい選択です。&lt;/p&gt;
&lt;h3 id=&#34;2-bge-系&#34;&gt;2. BGE 系
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;BAAI/bge-small-zh-v1.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;BAAI/bge-base-zh-v1.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;bge-m3&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;BGE は中国語検索で非常によく見かける系統です。&lt;code&gt;bge-small-zh-v1.5&lt;/code&gt; と &lt;code&gt;bge-base-zh-v1.5&lt;/code&gt; は中国語単一言語タスク寄りで、中国語セマンティック検索、ナレッジベース検索、FAQ マッチングに向いています。&lt;code&gt;bge-m3&lt;/code&gt; はより汎用的で、多言語、多粒度、より複雑な検索シナリオもカバーできます。&lt;/p&gt;
&lt;p&gt;データの大半が中国語テキストなら、BGE は候補に入れやすいモデル群です。&lt;/p&gt;
&lt;h3 id=&#34;3-e5-系&#34;&gt;3. E5 系
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;intfloat/multilingual-e5-base&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;multilingual-e5-large&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;E5 系の特徴は、多言語性能のバランスがよいことです。中国語と英語が混在する環境、クロスリンガル検索、国際向けコンテンツ基盤に向いています。中国語だけを見るモデルではなく、「異なる言語を一つの検索基盤にまとめる」ことを重視した設計です。&lt;/p&gt;
&lt;p&gt;コーパスが中国語だけでなく、英語、日本語、あるいはさらに多くの言語を含むなら、中国語専用モデルより E5 の方が安定しやすいです。&lt;/p&gt;
&lt;h3 id=&#34;4-gte-系&#34;&gt;4. GTE 系
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Alibaba-NLP/gte-base-zh&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gte-large-zh&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;GTE も中国語タスクでよく使われます。位置づけは BGE に近く、どちらも中国語検索の実用派です。比較的バランスが良く、導入のハードルも高くありません。中国語ナレッジベース、サイト内検索、社内ドキュメント検索に向いています。&lt;/p&gt;
&lt;p&gt;中国語オープンソースモデルを複数比較したいなら、GTE は一緒に評価する価値があります。&lt;/p&gt;
&lt;h3 id=&#34;5-jina-embeddings&#34;&gt;5. Jina Embeddings
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;jina-embeddings-v3&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Jina はより汎用的で、現代的な実装シナリオに寄った選択肢です。多言語検索、長文、Web コンテンツ処理などでよく使われます。「一つのモデルでより多くのタスク形態をカバーしたい」という文脈でよく名前が挙がり、embedding 層を統一したいチームに向いています。&lt;/p&gt;
&lt;p&gt;Web ページ、文書、多言語テキストなど、データソースが混在しているなら、Jina は試す価値のある候補です。&lt;/p&gt;
&lt;h2 id=&#34;2-中国語シナリオでよく使われるモデル&#34;&gt;2. 中国語シナリオでよく使われるモデル
&lt;/h2&gt;&lt;p&gt;対象を中国語シナリオに絞ると、代表的な候補はほぼ次の通りです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;bge-small-zh-v1.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;bge-base-zh-v1.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;bge-m3&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gte-base-zh&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gte-large-zh&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;multilingual-e5-base&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;multilingual-e5-large&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;ここで大事なのは、「どれが絶対に一番強いか」ではなく、次の三つです。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;データの中心は中国語か&lt;/li&gt;
&lt;li&gt;多言語対応が必要か&lt;/li&gt;
&lt;li&gt;品質、コスト、導入しやすさのどれを優先するか&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;3-これらのモデルを並べて考える&#34;&gt;3. これらのモデルを並べて考える
&lt;/h2&gt;&lt;h3 id=&#34;1-中国語性能だけを見る場合&#34;&gt;1. 中国語性能だけを見る場合
&lt;/h3&gt;&lt;p&gt;中国語ナレッジベース、中国語 QA、中国語文書検索であれば、まず BGE と GTE を見るのが一般的です。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;bge-small-zh-v1.5&lt;/code&gt;: 軽量で、コスト重視の場面に向く&lt;/li&gt;
&lt;li&gt;&lt;code&gt;bge-base-zh-v1.5&lt;/code&gt;: 中国語用途でバランスが良い定番&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gte-base-zh&lt;/code&gt;: 軽量 BGE に近く、まずベースラインを作るのに向く&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gte-large-zh&lt;/code&gt;: 検索品質をより重視する場面に向く&lt;/li&gt;
&lt;li&gt;&lt;code&gt;bge-m3&lt;/code&gt;: 中国語検索に加えて、より複雑な要件も視野に入れたいときに向く&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;コーパスがほぼ中国語だけなら、E5 も使えますが、最優先になることは多くありません。&lt;/p&gt;
&lt;h3 id=&#34;2-多言語が必要な場合&#34;&gt;2. 多言語が必要な場合
&lt;/h3&gt;&lt;p&gt;この場合は優先順位がかなり変わります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;multilingual-e5-base&lt;/code&gt; と &lt;code&gt;multilingual-e5-large&lt;/code&gt; は多言語を統一的に検索するのに向いています&lt;/li&gt;
&lt;li&gt;&lt;code&gt;jina-embeddings-v3&lt;/code&gt; も多言語と汎用テキスト処理に向いています&lt;/li&gt;
&lt;li&gt;&lt;code&gt;bge-m3&lt;/code&gt; は従来の中国語専用モデルより、多言語へ拡張しやすいです&lt;/li&gt;
&lt;li&gt;&lt;code&gt;text-embedding-3-small&lt;/code&gt; と &lt;code&gt;text-embedding-3-large&lt;/code&gt; は API ベースで素早く進めたい場合に向いています&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;中国語、英語、製品ドキュメント、Web コピー、ユーザー問い合わせが同じ基盤に入るなら、多言語モデルの方が後からの改修コストをかなり減らせます。&lt;/p&gt;
&lt;h3 id=&#34;3-推論コストと保存コストを抑えたい場合&#34;&gt;3. 推論コストと保存コストを抑えたい場合
&lt;/h3&gt;&lt;p&gt;ここでは軽量モデルが有利です。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;bge-small-zh-v1.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gte-base-zh&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;multilingual-e5-base&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;text-embedding-3-small&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;これらは次のようなケースに向いています。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;文書量が多い&lt;/li&gt;
&lt;li&gt;更新頻度が高い&lt;/li&gt;
&lt;li&gt;大量のベクトル化が必要&lt;/li&gt;
&lt;li&gt;レイテンシとコストに敏感&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;データ規模が大きい場合、embedding の次元数、推論速度、インデックスサイズは総コストに直結します。そのため、まず小さいモデルでベースラインを作るのは堅実なやり方です。&lt;/p&gt;
&lt;h3 id=&#34;4-まず性能上限を優先したい場合&#34;&gt;4. まず性能上限を優先したい場合
&lt;/h3&gt;&lt;p&gt;より大きいモデルは、複雑な検索や高品質な再現率を求める場面に向いています。たとえば次のようなモデルです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;text-embedding-3-large&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;multilingual-e5-large&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gte-large-zh&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;bge-base-zh-v1.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;bge-m3&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;ただし、モデルが大きいほど本番体験が必ず良くなるわけではありません。多くのプロジェクトでは、本当のボトルネックはモデルそのものではなく、チャンク分割、取得件数、再ランキング、データクリーニング、評価方法にあります。&lt;/p&gt;
&lt;h2 id=&#34;4-各モデルはどんなタスクに向くか&#34;&gt;4. 各モデルはどんなタスクに向くか
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;モデル&lt;/th&gt;
          &lt;th&gt;向いている場面&lt;/th&gt;
          &lt;th&gt;ざっくりした判断&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;text-embedding-3-small&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;汎用検索、RAG、素早い導入&lt;/td&gt;
          &lt;td&gt;API 利用が簡単でコストにも優しい&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;text-embedding-3-large&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;品質重視の汎用検索&lt;/td&gt;
          &lt;td&gt;品質優先で実装負担も小さい&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;bge-small-zh-v1.5&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;中国語の軽量検索&lt;/td&gt;
          &lt;td&gt;中国語用途の定番入門モデル&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;bge-base-zh-v1.5&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;中国語ナレッジベース、FAQ、セマンティック検索&lt;/td&gt;
          &lt;td&gt;中国語シナリオでバランスが良い&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;bge-m3&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;中国語中心だが、より複雑な検索にも広げたい場合&lt;/td&gt;
          &lt;td&gt;拡張性が高い&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;multilingual-e5-base&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;多言語の基本検索&lt;/td&gt;
          &lt;td&gt;国際化プロジェクトでよく使われる&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;multilingual-e5-large&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;多言語で高品質な再現率が欲しい場合&lt;/td&gt;
          &lt;td&gt;より品質重視&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;gte-base-zh&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;中国語の軽量検索&lt;/td&gt;
          &lt;td&gt;まずベースラインを作るのに向く&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;gte-large-zh&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;中国語で品質重視の場面&lt;/td&gt;
          &lt;td&gt;BGE との比較対象として使いやすい&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;jina-embeddings-v3&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;多言語、Web、汎用テキストタスク&lt;/td&gt;
          &lt;td&gt;embedding 層を統一したいときに試す価値がある&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;5-実際の選定をどう進めるか&#34;&gt;5. 実際の選定をどう進めるか
&lt;/h2&gt;&lt;p&gt;論文を書くのではなく、実際にシステムを作るなら、選定手順はもっとシンプルで大丈夫です。&lt;/p&gt;
&lt;h3 id=&#34;シナリオ-1-中国語ナレッジベース&#34;&gt;シナリオ 1: 中国語ナレッジベース
&lt;/h3&gt;&lt;p&gt;まずは次の組み合わせを試します。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;bge-base-zh-v1.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gte-large-zh&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;bge-small-zh-v1.5&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;予算が厳しいなら小さいモデルから始めて、検索品質をより重視するなら大きいモデルへ広げます。&lt;/p&gt;
&lt;h3 id=&#34;シナリオ-2-中国語と英語が混在するナレッジベース&#34;&gt;シナリオ 2: 中国語と英語が混在するナレッジベース
&lt;/h3&gt;&lt;p&gt;まずは次を試します。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;multilingual-e5-base&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;multilingual-e5-large&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;text-embedding-3-small&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;text-embedding-3-large&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;自前運用を避けたいなら OpenAI がより直接的です。自前でホストしたいなら、E5 の方が一般的です。&lt;/p&gt;
&lt;h3 id=&#34;シナリオ-3-今は中国語中心だが将来的に多言語へ広げる可能性がある&#34;&gt;シナリオ 3: 今は中国語中心だが、将来的に多言語へ広げる可能性がある
&lt;/h3&gt;&lt;p&gt;まずは次を試します。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;bge-m3&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;multilingual-e5-base&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;jina-embeddings-v3&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;このタイプの場面で一番怖いのは、最初は中国語だけを前提に設計し、後からベクトル基盤を丸ごと作り直すことです。&lt;/p&gt;
&lt;h2 id=&#34;6-最後に大事なのはランキング1位ではない&#34;&gt;6. 最後に大事なのは「ランキング1位」ではない
&lt;/h2&gt;&lt;p&gt;埋め込みモデル選定で最も陥りやすい失敗は、公開ベンチマークの点数だけを見て、そのまま本番投入してしまうことです。&lt;/p&gt;
&lt;p&gt;より確実なのは、だいたい次の手順です。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;まず 2 から 4 個の候補モデルを選ぶ&lt;/li&gt;
&lt;li&gt;自分たちの実データで embedding を作る&lt;/li&gt;
&lt;li&gt;一度検索評価を回す&lt;/li&gt;
&lt;li&gt;そのうえでコスト、遅延、導入方法を合わせて最終判断する&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;実際に結果を決めるのは、モデル名そのものよりも、そのモデルが自分のコーパス、チャンク戦略、クエリ形式に合っているかどうかだからです。&lt;/p&gt;
&lt;h2 id=&#34;まとめ&#34;&gt;まとめ
&lt;/h2&gt;&lt;p&gt;実用的な結論だけ覚えるなら、次のように整理できます。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;中国語優先: &lt;code&gt;bge-base-zh-v1.5&lt;/code&gt;、&lt;code&gt;gte-large-zh&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;コスト優先: &lt;code&gt;bge-small-zh-v1.5&lt;/code&gt;、&lt;code&gt;gte-base-zh&lt;/code&gt;、&lt;code&gt;text-embedding-3-small&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;多言語優先: &lt;code&gt;multilingual-e5-base&lt;/code&gt;、&lt;code&gt;multilingual-e5-large&lt;/code&gt;、&lt;code&gt;jina-embeddings-v3&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;API をそのまま使いたい: &lt;code&gt;text-embedding-3-small&lt;/code&gt;、&lt;code&gt;text-embedding-3-large&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;中国語と将来の拡張性を両立したい: &lt;code&gt;bge-m3&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;すべてのプロジェクトに合う単一のモデルはありませんが、多くのプロジェクトでは、まずこの数グループから第一候補をかなり素早く絞り込めます。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
