<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>向量检索 on KnightLi的博客</title>
        <link>https://www.knightli.com/tags/%E5%90%91%E9%87%8F%E6%A3%80%E7%B4%A2/</link>
        <description>Recent content in 向量检索 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Thu, 23 Apr 2026 15:08:19 +0800</lastBuildDate><atom:link href="https://www.knightli.com/tags/%E5%90%91%E9%87%8F%E6%A3%80%E7%B4%A2/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>什么是图像向量化：从像素图到可搜索可分析的向量表示</title>
        <link>https://www.knightli.com/2026/04/23/what-is-image-vectorization-vector-search-vision-workflow/</link>
        <pubDate>Thu, 23 Apr 2026 15:08:19 +0800</pubDate>
        
        <guid>https://www.knightli.com/2026/04/23/what-is-image-vectorization-vector-search-vision-workflow/</guid>
        <description>&lt;p&gt;图片一直都很多，但图片真正能被系统“理解”和“利用”，并不是一件天然发生的事。&lt;/p&gt;
&lt;p&gt;对人来说，一张图里有没有猫、是不是同一件商品、是不是某种异常缺陷，往往一眼就能看出来。可对系统来说，原始图片首先只是像素排列。没有额外处理时，它更像一堆颜色点，而不是一份可以直接做检索、聚类、推荐和识别的数据。&lt;/p&gt;
&lt;p&gt;图像向量化解决的就是这一步。它把原本以像素形式存在的图片，转换成一组可以被机器高效比较和计算的向量表示。很多“以图搜图”、相似图片推荐、视觉检索、图像聚类和多模态理解，真正的基础都在这里。&lt;/p&gt;
&lt;h2 id=&#34;一图像向量化到底是什么&#34;&gt;一、图像向量化到底是什么
&lt;/h2&gt;&lt;p&gt;先把概念压缩成一句话：&lt;/p&gt;
&lt;p&gt;图像向量化，就是把图片转换成一串能表示图像特征的数字向量。&lt;/p&gt;
&lt;p&gt;这个向量通常不是给人看的，而是给模型和检索系统用的。它的价值在于，图片从此不再只是文件，而变成了一种可以参与计算、排序和相似度比较的数据对象。&lt;/p&gt;
&lt;p&gt;比如一张猫的图片，原始文件里保存的是像素信息；做完向量化之后，系统拿到的是一个固定长度的数值向量。这个向量不会直接写着“这是猫”，但它会把轮廓、纹理、颜色分布、局部结构、语义信息等特征编码进去。这样系统就能把它和别的图片做距离计算，判断哪些更相似，哪些差得更远。&lt;/p&gt;
&lt;p&gt;所以图像向量化真正改变的，不是图片本身，而是图片被系统处理的方式。&lt;/p&gt;
&lt;h2 id=&#34;二为什么不直接用原始像素做检索和分析&#34;&gt;二、为什么不直接用原始像素做检索和分析
&lt;/h2&gt;&lt;p&gt;原始像素当然也能算，但效果和效率都很受限。&lt;/p&gt;
&lt;p&gt;问题主要有三类：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;数据维度高，直接比较成本很高&lt;/li&gt;
&lt;li&gt;像素接近不等于语义接近&lt;/li&gt;
&lt;li&gt;光照、裁切、背景、分辨率变化都可能干扰结果&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最典型的例子就是商品图检索。两张商品图片哪怕拍摄角度不同、背景不同、尺寸不同，人在看时还是知道它们是同一类商品；但如果只是逐像素对比，系统很容易把它们判成完全不同的图片。&lt;/p&gt;
&lt;p&gt;向量化的意义，就是把“像不像”从像素层面的比较，提升到更接近语义和特征层面的比较。&lt;/p&gt;
&lt;h2 id=&#34;三图像向量化一般是怎么做出来的&#34;&gt;三、图像向量化一般是怎么做出来的
&lt;/h2&gt;&lt;p&gt;从流程上看，图像向量化通常不是一步完成，而是一条比较标准的处理链：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;先做预处理&lt;/li&gt;
&lt;li&gt;再提取图像特征&lt;/li&gt;
&lt;li&gt;把特征压成固定长度向量&lt;/li&gt;
&lt;li&gt;存进向量库或检索系统&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;其中每一步都在影响最后效果。&lt;/p&gt;
&lt;h3 id=&#34;1-预处理&#34;&gt;1. 预处理
&lt;/h3&gt;&lt;p&gt;预处理做的事情一般包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;缩放图片尺寸&lt;/li&gt;
&lt;li&gt;归一化输入&lt;/li&gt;
&lt;li&gt;去除部分噪声&lt;/li&gt;
&lt;li&gt;统一颜色或输入格式&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;它的目的不是“优化视觉效果”，而是让后面的模型输入尽可能稳定。&lt;/p&gt;
&lt;h3 id=&#34;2-特征提取&#34;&gt;2. 特征提取
&lt;/h3&gt;&lt;p&gt;这里是图像向量化的核心。&lt;/p&gt;
&lt;p&gt;早期方法更依赖人工设计特征，比如 &lt;code&gt;SIFT&lt;/code&gt;、&lt;code&gt;SURF&lt;/code&gt;、&lt;code&gt;HOG&lt;/code&gt; 这一类算法，擅长提取边缘、角点、局部结构等低层特征。现在更常见的是深度学习模型来做这件事，比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;ResNet&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;VGG&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Inception&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;ViT&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;CLIP&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些模型会把图片编码成更高层、更抽象的视觉特征。和传统特征工程相比，它们更擅长表达语义，也更适合做相似度检索、多模态理解和大规模聚类。&lt;/p&gt;
&lt;h3 id=&#34;3-向量生成&#34;&gt;3. 向量生成
&lt;/h3&gt;&lt;p&gt;特征提取之后，系统通常会把中间表示进一步压缩成固定长度的向量，比如 &lt;code&gt;512&lt;/code&gt; 维、&lt;code&gt;768&lt;/code&gt; 维、&lt;code&gt;1024&lt;/code&gt; 维。&lt;/p&gt;
&lt;p&gt;这个步骤的关键，不是维度越高越好，而是要在表达能力、存储成本和检索速度之间找到平衡。&lt;/p&gt;
&lt;h3 id=&#34;4-存储与检索&#34;&gt;4. 存储与检索
&lt;/h3&gt;&lt;p&gt;向量生成之后，通常不会再按普通图片文件那样管理，而是会进入支持向量检索的系统，比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Faiss&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Milvus&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;带向量能力的搜索系统&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这时候图片就可以参与近似最近邻检索、聚类分析、相似度排序等任务。&lt;/p&gt;
&lt;h2 id=&#34;四技术路线是怎么演进过来的&#34;&gt;四、技术路线是怎么演进过来的
&lt;/h2&gt;&lt;p&gt;图像向量化不是这两年才有，只是近几年效果和应用场景扩展得更快。&lt;/p&gt;
&lt;p&gt;大致可以分成三段看：&lt;/p&gt;
&lt;h3 id=&#34;1-传统特征工程阶段&#34;&gt;1. 传统特征工程阶段
&lt;/h3&gt;&lt;p&gt;这时候的重点是人工定义图像特征，比如边缘、纹理、角点和局部描述子。优点是实现成熟、可解释性强，缺点是对复杂场景和语义理解能力有限。&lt;/p&gt;
&lt;h3 id=&#34;2-cnn-主导阶段&#34;&gt;2. CNN 主导阶段
&lt;/h3&gt;&lt;p&gt;卷积神经网络让图像向量化进入了自动学习特征的阶段。相比手工特征，它可以学到更复杂、更稳定的视觉表达，适合分类、识别、相似检索等任务。&lt;/p&gt;
&lt;h3 id=&#34;3-transformer-和多模态阶段&#34;&gt;3. Transformer 和多模态阶段
&lt;/h3&gt;&lt;p&gt;这一步把图像向量化从“看图特征”进一步推向“图文语义对齐”。像 &lt;code&gt;ViT&lt;/code&gt; 和 &lt;code&gt;CLIP&lt;/code&gt; 这一类模型，已经不只是为了识别图像本身，而是在让图像进入更大的多模态系统里，和文本、标签、知识库一起工作。&lt;/p&gt;
&lt;p&gt;这也是为什么现在很多图像检索系统，不只是“以图搜图”，而是已经能做“文本搜图”或者图文混合检索。&lt;/p&gt;
&lt;h2 id=&#34;五它最常见的应用场景有哪些&#34;&gt;五、它最常见的应用场景有哪些
&lt;/h2&gt;&lt;p&gt;图像向量化并不是只服务于学术研究，它在业务里非常实用。&lt;/p&gt;
&lt;h3 id=&#34;1-相似图片检索&#34;&gt;1. 相似图片检索
&lt;/h3&gt;&lt;p&gt;这是最直观的场景。&lt;/p&gt;
&lt;p&gt;系统把图片转成向量之后，就可以做：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;以图搜图&lt;/li&gt;
&lt;li&gt;重复图片识别&lt;/li&gt;
&lt;li&gt;相似商品匹配&lt;/li&gt;
&lt;li&gt;视觉去重&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;电商、内容平台、图库管理系统里，这类需求都很常见。&lt;/p&gt;
&lt;h3 id=&#34;2-推荐系统&#34;&gt;2. 推荐系统
&lt;/h3&gt;&lt;p&gt;很多推荐问题，本质上是“这张图和用户刚看过的内容像不像”。&lt;/p&gt;
&lt;p&gt;向量化之后，系统可以把图片内容本身也纳入推荐逻辑，而不是只依赖文本标签或人工分类。对商品推荐、内容推荐、广告匹配来说，这一步很有价值。&lt;/p&gt;
&lt;h3 id=&#34;3-图像聚类和自动分类&#34;&gt;3. 图像聚类和自动分类
&lt;/h3&gt;&lt;p&gt;当图片规模很大时，人工整理会非常慢。&lt;/p&gt;
&lt;p&gt;向量化之后，可以先按相似度把图片自动聚成若干组，再做：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;图片归档&lt;/li&gt;
&lt;li&gt;场景分组&lt;/li&gt;
&lt;li&gt;素材整理&lt;/li&gt;
&lt;li&gt;自动标签建议&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这在制造、医疗、教育、媒体内容管理里都很常见。&lt;/p&gt;
&lt;h3 id=&#34;4-异常检测和质检&#34;&gt;4. 异常检测和质检
&lt;/h3&gt;&lt;p&gt;如果“正常样本”已经能被稳定向量化，那么偏离正常分布的图片就更容易被识别出来。&lt;/p&gt;
&lt;p&gt;典型场景包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;工业缺陷检测&lt;/li&gt;
&lt;li&gt;监控异常识别&lt;/li&gt;
&lt;li&gt;票据或影像异常筛查&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这里向量化的作用，不是直接给出最终判断，而是先把图像变成适合比较和建模的输入。&lt;/p&gt;
&lt;h3 id=&#34;5-多模态检索和图文理解&#34;&gt;5. 多模态检索和图文理解
&lt;/h3&gt;&lt;p&gt;这是现在更值得关注的一块。&lt;/p&gt;
&lt;p&gt;当图像和文本都能被编码到相近的向量空间里，系统就可以做：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;文本搜图&lt;/li&gt;
&lt;li&gt;图文对齐&lt;/li&gt;
&lt;li&gt;图像内容检索&lt;/li&gt;
&lt;li&gt;多模态知识检索&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这类能力和当前很多生成式 AI、视觉问答、企业知识库增强检索都能接起来。&lt;/p&gt;
&lt;h2 id=&#34;六企业落地时真正要面对哪些问题&#34;&gt;六、企业落地时真正要面对哪些问题
&lt;/h2&gt;&lt;p&gt;图像向量化听起来很顺，但真正落地时，难点通常不在“知不知道这个概念”，而在下面这些细节：&lt;/p&gt;
&lt;h3 id=&#34;1-向量维度和成本怎么平衡&#34;&gt;1. 向量维度和成本怎么平衡
&lt;/h3&gt;&lt;p&gt;维度太低，表达不够；维度太高，存储和检索成本就会上去。这个问题没有统一答案，必须结合数据规模、响应时间和准确率一起看。&lt;/p&gt;
&lt;h3 id=&#34;2-模型效果能不能跨场景复用&#34;&gt;2. 模型效果能不能跨场景复用
&lt;/h3&gt;&lt;p&gt;一个模型在公开数据集上表现不错，不代表它在你的业务图片上也同样有效。商品图、工业图、医学影像、监控截图，这些分布差异很大，很多时候都要重新评估。&lt;/p&gt;
&lt;h3 id=&#34;3-检索系统能不能跟上规模增长&#34;&gt;3. 检索系统能不能跟上规模增长
&lt;/h3&gt;&lt;p&gt;当图片量从几万变成几百万、几千万时，向量生成只是前半段，后面的索引、召回、更新策略和在线查询能力才是真正决定体验的部分。&lt;/p&gt;
&lt;h3 id=&#34;4-图像向量化不是业务闭环本身&#34;&gt;4. 图像向量化不是业务闭环本身
&lt;/h3&gt;&lt;p&gt;这一点特别容易被忽略。&lt;/p&gt;
&lt;p&gt;向量化解决的是“把图片变成可计算对象”的问题，但它不等于完整方案。你后面还需要：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;检索逻辑&lt;/li&gt;
&lt;li&gt;标签体系&lt;/li&gt;
&lt;li&gt;结果评估&lt;/li&gt;
&lt;li&gt;人工校验流程&lt;/li&gt;
&lt;li&gt;和业务系统的连接方式&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果这些没接上，向量本身并不会自动产生价值。&lt;/p&gt;
&lt;h2 id=&#34;七怎么看它的实际价值&#34;&gt;七、怎么看它的实际价值
&lt;/h2&gt;&lt;p&gt;如果只看技术定义，图像向量化像是一个底层术语；但从业务角度看，它的价值其实很具体：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;让图片第一次具备可搜索性&lt;/li&gt;
&lt;li&gt;让相似度比较从像素层走向语义层&lt;/li&gt;
&lt;li&gt;让图像能接进推荐、检索、聚类和识别链路&lt;/li&gt;
&lt;li&gt;让视觉数据真正进入企业分析和自动化流程&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;可以把它理解成视觉数据进入 AI 系统的“标准化入口”。没有这一步，很多图片相关能力都只能停留在文件管理层；有了这一步，图片才开始变成能参与决策和自动化处理的数据资产。&lt;/p&gt;
&lt;h2 id=&#34;结语&#34;&gt;结语
&lt;/h2&gt;&lt;p&gt;图像向量化不是一个孤立的小技巧，而是现代视觉系统里非常基础的一层。&lt;/p&gt;
&lt;p&gt;它做的事并不神秘：把图片从“像素集合”变成“可检索、可比较、可分析的向量表示”。但就是这一步，决定了图片能不能真正进入 AI、搜索、推荐和多模态应用链路里。&lt;/p&gt;
&lt;p&gt;如果只记一句话，可以先记住这个判断：&lt;/p&gt;
&lt;p&gt;图像向量化的本质，不是压缩图片，而是把图片变成机器真正能用的数据表示。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
