飛牛 NAS AI 相簿用了哪些模型:人臉、物件與語義搜尋拆解

整理飛牛 NAS AI 相簿的核心技術棧,包含人臉辨識、目標檢測、語義搜尋與硬體加速路徑。

飛牛 NAS(fnOS)的 AI 相簿通常不是從零自研完整模型,而是把主流開源方案做工程化整合,用於人臉辨識、場景/物件識別與自然語言搜圖。

1) 人臉辨識:InsightFace

在人臉能力上,核心通常是 InsightFace。

  • 常見特徵學習方法:ArcFace
  • 主要用途:人臉偵測、特徵向量提取、人物分群與辨識

2) 物件與場景識別:YOLO 系列

照片中的物件(例如貓、狗、車、電腦)和部分場景理解,通常由 YOLO 系列承擔(常見為 YOLOv8 或輕量化版本)。

  • 優點:速度與精度平衡好
  • 適用:NAS 這類算力較有限的邊緣設備

3) 語義搜尋:CLIP / Chinese-CLIP

飛牛相簿支援用自然語言搜圖,例如「草地上的小狗」「戴墨鏡的男人」。

常見做法是 CLIP:

  • 圖像與文字映射到同一向量空間
  • 中文場景通常會搭配 Chinese-CLIP 或同類中文增強模型

總結

可以把飛牛 AI 相簿理解為三層組合:

  • InsightFace 負責人臉
  • YOLO 負責物件與場景
  • CLIP 負責文字與影像語義對齊

其主要價值在於工程整合、本地化能力與硬體加速優化,而不是底層模型從零訓練。

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計