飞牛 NAS AI 相册用了哪些模型:人脸、物体与语义搜索拆解

梳理飞牛 NAS AI 相册的核心技术栈,包括人脸识别、目标检测、语义搜索与硬件加速路径。

飞牛 NAS(fnOS)的 AI 相册并不是从零自研整套算法,而是基于主流开源模型做工程化集成,用于完成人脸识别、场景识别和自然语言搜图。

1) 人脸识别:InsightFace

在人脸能力上,核心通常是 InsightFace。

  • 常见特征提取方法:ArcFace
  • 主要作用:检测人脸、提取特征向量、做人脸聚类与人物识别

2) 目标检测与场景识别:YOLO 系列

照片里的物体识别(如猫、狗、车、电脑)和部分场景理解,通常由 YOLO 系列承担(常见为 YOLOv8 或轻量化版本)。

  • 优点:精度与速度平衡较好
  • 适配场景:NAS 这类边缘设备的有限算力环境

3) 语义搜索:CLIP / Chinese-CLIP

飞牛相册支持用自然语言搜图,例如“草地上的小狗”“戴墨镜的男人”。

常见实现方式是 CLIP:

  • 图像和文本会映射到同一向量空间
  • 在中文场景下,通常会结合 Chinese-CLIP 或同类中文增强方案

总结

可以把飞牛 AI 相册理解为三层组合:

  • InsightFace 负责人脸
  • YOLO 负责物体与场景
  • CLIP 负责人类语言到图像语义的对齐

核心竞争力主要在工程集成、本地化能力和硬件加速优化,而不是底层模型从零训练。

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计