<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>圖像向量化 on KnightLi的博客</title>
        <link>https://www.knightli.com/zh-tw/tags/%E5%9C%96%E5%83%8F%E5%90%91%E9%87%8F%E5%8C%96/</link>
        <description>Recent content in 圖像向量化 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Thu, 23 Apr 2026 15:08:19 +0800</lastBuildDate><atom:link href="https://www.knightli.com/zh-tw/tags/%E5%9C%96%E5%83%8F%E5%90%91%E9%87%8F%E5%8C%96/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>什麼是圖像向量化：從像素圖到可搜尋可分析的向量表示</title>
        <link>https://www.knightli.com/zh-tw/2026/04/23/what-is-image-vectorization-vector-search-vision-workflow/</link>
        <pubDate>Thu, 23 Apr 2026 15:08:19 +0800</pubDate>
        
        <guid>https://www.knightli.com/zh-tw/2026/04/23/what-is-image-vectorization-vector-search-vision-workflow/</guid>
        <description>&lt;p&gt;圖片一直很多，但圖片真正能被系統「理解」和「利用」，並不是一件自然而然就會發生的事。&lt;/p&gt;
&lt;p&gt;對人來說，一張圖裡有沒有貓、是不是同一件商品、是不是某種異常缺陷，往往一眼就能看出來。可對系統來說，原始圖片首先只是像素排列。沒有額外處理時，它更像一堆顏色點，而不是一份可以直接拿來做檢索、分群、推薦和識別的資料。&lt;/p&gt;
&lt;p&gt;圖像向量化解決的就是這一步。它把原本以像素形式存在的圖片，轉換成一組可以被機器高效比較和計算的向量表示。很多「以圖搜圖」、相似圖片推薦、視覺檢索、圖像聚類和多模態理解，真正的底層都在這裡。&lt;/p&gt;
&lt;h2 id=&#34;一圖像向量化到底是什麼&#34;&gt;一、圖像向量化到底是什麼
&lt;/h2&gt;&lt;p&gt;先把概念壓成一句話：&lt;/p&gt;
&lt;p&gt;圖像向量化，就是把圖片轉成一串能表示圖像特徵的數字向量。&lt;/p&gt;
&lt;p&gt;這個向量通常不是給人看的，而是給模型和檢索系統用的。它的價值在於，圖片從此不再只是檔案，而變成一種可以參與計算、排序和相似度比較的資料物件。&lt;/p&gt;
&lt;p&gt;例如一張貓的照片，原始檔案裡保存的是像素資訊；做完向量化之後，系統拿到的是一個固定長度的數值向量。這個向量不會直接寫著「這是貓」，但它會把輪廓、紋理、顏色分布、局部結構、語義資訊等特徵編碼進去。這樣系統就能拿它去和其他圖片做距離計算，判斷哪些更相似，哪些差得更遠。&lt;/p&gt;
&lt;p&gt;所以圖像向量化真正改變的，不是圖片本身，而是圖片被系統處理的方式。&lt;/p&gt;
&lt;h2 id=&#34;二為什麼不能直接用原始像素做檢索和分析&#34;&gt;二、為什麼不能直接用原始像素做檢索和分析
&lt;/h2&gt;&lt;p&gt;原始像素當然也能算，但效果和效率都很受限。&lt;/p&gt;
&lt;p&gt;問題主要有三類：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;資料維度高，直接比較成本很高&lt;/li&gt;
&lt;li&gt;像素接近不等於語義接近&lt;/li&gt;
&lt;li&gt;光線、裁切、背景、解析度變化都可能干擾結果&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最典型的例子就是商品圖檢索。兩張商品圖片就算拍攝角度不同、背景不同、尺寸不同，人看時還是知道它們是同一類商品；但如果只是逐像素比對，系統很容易把它們判成完全不同的圖片。&lt;/p&gt;
&lt;p&gt;向量化的意義，就是把「像不像」從像素層面的比較，提升到更接近語義和特徵層面的比較。&lt;/p&gt;
&lt;h2 id=&#34;三圖像向量化一般是怎麼做出來的&#34;&gt;三、圖像向量化一般是怎麼做出來的
&lt;/h2&gt;&lt;p&gt;從流程上看，圖像向量化通常不是一步完成，而是一條比較標準的處理鏈：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;先做前處理&lt;/li&gt;
&lt;li&gt;再提取圖像特徵&lt;/li&gt;
&lt;li&gt;把特徵壓成固定長度向量&lt;/li&gt;
&lt;li&gt;存進向量庫或檢索系統&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;其中每一步都會影響最後效果。&lt;/p&gt;
&lt;h3 id=&#34;1-前處理&#34;&gt;1. 前處理
&lt;/h3&gt;&lt;p&gt;前處理一般包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;縮放圖片尺寸&lt;/li&gt;
&lt;li&gt;歸一化輸入&lt;/li&gt;
&lt;li&gt;去除部分噪聲&lt;/li&gt;
&lt;li&gt;統一顏色或輸入格式&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;它的目的不是「讓畫面更好看」，而是讓後面的模型輸入更穩定。&lt;/p&gt;
&lt;h3 id=&#34;2-特徵提取&#34;&gt;2. 特徵提取
&lt;/h3&gt;&lt;p&gt;這裡是圖像向量化的核心。&lt;/p&gt;
&lt;p&gt;早期方法更依賴人工設計特徵，例如 &lt;code&gt;SIFT&lt;/code&gt;、&lt;code&gt;SURF&lt;/code&gt;、&lt;code&gt;HOG&lt;/code&gt; 這一類演算法，擅長提取邊緣、角點、局部結構等低層特徵。現在更常見的是用深度學習模型來做這件事，例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;ResNet&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;VGG&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Inception&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;ViT&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;CLIP&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這些模型會把圖片編碼成更高層、更抽象的視覺特徵。和傳統特徵工程相比，它們更擅長表達語義，也更適合做相似度檢索、多模態理解和大規模聚類。&lt;/p&gt;
&lt;h3 id=&#34;3-向量生成&#34;&gt;3. 向量生成
&lt;/h3&gt;&lt;p&gt;特徵提取之後，系統通常會把中間表示進一步壓縮成固定長度的向量，例如 &lt;code&gt;512&lt;/code&gt; 維、&lt;code&gt;768&lt;/code&gt; 維、&lt;code&gt;1024&lt;/code&gt; 維。&lt;/p&gt;
&lt;p&gt;這一步的關鍵，不是維度越高越好，而是要在表達能力、儲存成本和檢索速度之間找到平衡。&lt;/p&gt;
&lt;h3 id=&#34;4-儲存與檢索&#34;&gt;4. 儲存與檢索
&lt;/h3&gt;&lt;p&gt;向量生成之後，通常不會再像普通圖片檔那樣管理，而是會進入支援向量檢索的系統，例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Faiss&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Milvus&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;具備向量能力的搜尋系統&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這時圖片就可以參與近似最近鄰檢索、聚類分析和相似度排序。&lt;/p&gt;
&lt;h2 id=&#34;四技術路線是怎麼演進的&#34;&gt;四、技術路線是怎麼演進的
&lt;/h2&gt;&lt;p&gt;圖像向量化不是這兩年才有，只是近幾年效果和應用場景擴展得更快。&lt;/p&gt;
&lt;p&gt;大致可以分成三段來看：&lt;/p&gt;
&lt;h3 id=&#34;1-傳統特徵工程階段&#34;&gt;1. 傳統特徵工程階段
&lt;/h3&gt;&lt;p&gt;這個階段的重點是人工定義圖像特徵，例如邊緣、紋理、角點和局部描述子。優點是成熟、可解釋，缺點是對複雜場景和語義理解能力有限。&lt;/p&gt;
&lt;h3 id=&#34;2-cnn-主導階段&#34;&gt;2. CNN 主導階段
&lt;/h3&gt;&lt;p&gt;卷積神經網路讓圖像向量化進入自動學習特徵的階段。和手工特徵相比，它能學到更複雜、更穩定的視覺表示，適合分類、識別和相似檢索。&lt;/p&gt;
&lt;h3 id=&#34;3-transformer-和多模態階段&#34;&gt;3. Transformer 和多模態階段
&lt;/h3&gt;&lt;p&gt;這一步把圖像向量化從「看圖特徵」進一步推向「圖文語義對齊」。像 &lt;code&gt;ViT&lt;/code&gt; 和 &lt;code&gt;CLIP&lt;/code&gt; 這類模型，已經不只是拿來識別圖片本身，而是在讓圖片進入更大的多模態系統裡，和文字、標籤、知識庫一起工作。&lt;/p&gt;
&lt;p&gt;這也是為什麼現在很多圖像檢索系統，不只是「以圖搜圖」，而是已經能做「文本搜圖」或圖文混合檢索。&lt;/p&gt;
&lt;h2 id=&#34;五它最常見的應用場景有哪些&#34;&gt;五、它最常見的應用場景有哪些
&lt;/h2&gt;&lt;p&gt;圖像向量化並不是只服務於學術研究，它在業務裡非常實用。&lt;/p&gt;
&lt;h3 id=&#34;1-相似圖片檢索&#34;&gt;1. 相似圖片檢索
&lt;/h3&gt;&lt;p&gt;這是最直觀的場景。&lt;/p&gt;
&lt;p&gt;系統把圖片轉成向量之後，就可以做：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;以圖搜圖&lt;/li&gt;
&lt;li&gt;重複圖片識別&lt;/li&gt;
&lt;li&gt;相似商品匹配&lt;/li&gt;
&lt;li&gt;視覺去重&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;電商、內容平台、素材管理系統裡，這類需求都很常見。&lt;/p&gt;
&lt;h3 id=&#34;2-推薦系統&#34;&gt;2. 推薦系統
&lt;/h3&gt;&lt;p&gt;很多推薦問題，本質上都是「這張圖和使用者剛看過的內容像不像」。&lt;/p&gt;
&lt;p&gt;向量化之後，系統可以把圖片內容本身也納入推薦邏輯，而不是只依賴文字標籤或人工分類。對商品推薦、內容推薦和廣告匹配來說，這一步很有價值。&lt;/p&gt;
&lt;h3 id=&#34;3-圖像聚類和自動分類&#34;&gt;3. 圖像聚類和自動分類
&lt;/h3&gt;&lt;p&gt;當圖片規模很大時，人工整理會非常慢。&lt;/p&gt;
&lt;p&gt;向量化之後，可以先按相似度把圖片自動聚成若干組，再做：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;圖片歸檔&lt;/li&gt;
&lt;li&gt;場景分組&lt;/li&gt;
&lt;li&gt;素材整理&lt;/li&gt;
&lt;li&gt;自動標籤建議&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這在製造、醫療、教育和媒體內容管理裡都很常見。&lt;/p&gt;
&lt;h3 id=&#34;4-異常檢測和質檢&#34;&gt;4. 異常檢測和質檢
&lt;/h3&gt;&lt;p&gt;如果「正常樣本」已經能被穩定向量化，那麼偏離正常分布的圖片就更容易被識別出來。&lt;/p&gt;
&lt;p&gt;典型場景包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;工業缺陷檢測&lt;/li&gt;
&lt;li&gt;監控異常識別&lt;/li&gt;
&lt;li&gt;票據或影像異常篩查&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這裡向量化的作用，不是直接給出最終判斷，而是先把圖像變成適合比較和建模的輸入。&lt;/p&gt;
&lt;h3 id=&#34;5-多模態檢索和圖文理解&#34;&gt;5. 多模態檢索和圖文理解
&lt;/h3&gt;&lt;p&gt;這是現在更值得關注的一塊。&lt;/p&gt;
&lt;p&gt;當圖像和文字都能被編碼到相近的向量空間裡，系統就可以做：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;文本搜圖&lt;/li&gt;
&lt;li&gt;圖文對齊&lt;/li&gt;
&lt;li&gt;圖像內容檢索&lt;/li&gt;
&lt;li&gt;多模態知識檢索&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這類能力和現在很多生成式 AI、視覺問答、企業知識庫增強檢索都能接起來。&lt;/p&gt;
&lt;h2 id=&#34;六企業落地時真正要面對哪些問題&#34;&gt;六、企業落地時真正要面對哪些問題
&lt;/h2&gt;&lt;p&gt;圖像向量化聽起來很順，但真正落地時，難點通常不在「知不知道這個概念」，而在下面這些細節：&lt;/p&gt;
&lt;h3 id=&#34;1-向量維度和成本怎麼平衡&#34;&gt;1. 向量維度和成本怎麼平衡
&lt;/h3&gt;&lt;p&gt;維度太低，表達不夠；維度太高，儲存和檢索成本就會上升。這個問題沒有統一答案，必須結合資料規模、回應時間和準確率一起看。&lt;/p&gt;
&lt;h3 id=&#34;2-模型效果能不能跨場景複用&#34;&gt;2. 模型效果能不能跨場景複用
&lt;/h3&gt;&lt;p&gt;一個模型在公開資料集上表現不錯，不代表它在你的業務圖片上也一樣有效。商品圖、工業圖、醫學影像、監控截圖，這些分布差異很大，很多時候都要重新評估。&lt;/p&gt;
&lt;h3 id=&#34;3-檢索系統能不能跟上規模增長&#34;&gt;3. 檢索系統能不能跟上規模增長
&lt;/h3&gt;&lt;p&gt;當圖片量從幾萬變成幾百萬、幾千萬時，向量生成只是前半段，後面的索引、召回、更新策略和線上查詢能力，才是真正決定體驗的部分。&lt;/p&gt;
&lt;h3 id=&#34;4-圖像向量化不是業務閉環本身&#34;&gt;4. 圖像向量化不是業務閉環本身
&lt;/h3&gt;&lt;p&gt;這一點特別容易被忽略。&lt;/p&gt;
&lt;p&gt;向量化解決的是「把圖片變成可計算物件」的問題，但它不等於完整方案。後面你還需要：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;檢索邏輯&lt;/li&gt;
&lt;li&gt;標籤體系&lt;/li&gt;
&lt;li&gt;結果評估&lt;/li&gt;
&lt;li&gt;人工校驗流程&lt;/li&gt;
&lt;li&gt;和業務系統的連接方式&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果這些沒有接上，向量本身並不會自動產生價值。&lt;/p&gt;
&lt;h2 id=&#34;七怎麼看它的實際價值&#34;&gt;七、怎麼看它的實際價值
&lt;/h2&gt;&lt;p&gt;如果只看技術定義，圖像向量化像是一個底層術語；但從業務角度看，它的價值其實很具體：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;讓圖片第一次具備可搜尋性&lt;/li&gt;
&lt;li&gt;讓相似度比較從像素層走向語義層&lt;/li&gt;
&lt;li&gt;讓圖像能接進推薦、檢索、聚類和識別鏈路&lt;/li&gt;
&lt;li&gt;讓視覺資料真正進入企業分析和自動化流程&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;可以把它理解成視覺資料進入 AI 系統的「標準化入口」。沒有這一步，很多圖片相關能力都只能停留在檔案管理層；有了這一步，圖片才開始變成能參與決策和自動化處理的資料資產。&lt;/p&gt;
&lt;h2 id=&#34;結語&#34;&gt;結語
&lt;/h2&gt;&lt;p&gt;圖像向量化不是一個孤立的小技巧，而是現代視覺系統裡非常基礎的一層。&lt;/p&gt;
&lt;p&gt;它做的事並不神祕：把圖片從「像素集合」變成「可檢索、可比較、可分析的向量表示」。但就是這一步，決定了圖片能不能真正進入 AI、搜尋、推薦和多模態應用鏈路裡。&lt;/p&gt;
&lt;p&gt;如果只記一句話，可以先記住這個判斷：&lt;/p&gt;
&lt;p&gt;圖像向量化的本質，不是壓縮圖片，而是把圖片變成機器真正能用的資料表示。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
