飞牛 NAS(fnOS)的 AI 相册并不是从零自研整套算法,而是基于主流开源模型做工程化集成,用于完成人脸识别、场景识别和自然语言搜图。
1) 人脸识别:InsightFace
在人脸能力上,核心通常是 InsightFace。
- 常见特征提取方法:ArcFace
- 主要作用:检测人脸、提取特征向量、做人脸聚类与人物识别
2) 目标检测与场景识别:YOLO 系列
照片里的物体识别(如猫、狗、车、电脑)和部分场景理解,通常由 YOLO 系列承担(常见为 YOLOv8 或轻量化版本)。
- 优点:精度与速度平衡较好
- 适配场景:NAS 这类边缘设备的有限算力环境
3) 语义搜索:CLIP / Chinese-CLIP
飞牛相册支持用自然语言搜图,例如“草地上的小狗”“戴墨镜的男人”。
常见实现方式是 CLIP:
- 图像和文本会映射到同一向量空间
- 在中文场景下,通常会结合 Chinese-CLIP 或同类中文增强方案
总结
可以把飞牛 AI 相册理解为三层组合:
- InsightFace 负责人脸
- YOLO 负责物体与场景
- CLIP 负责人类语言到图像语义的对齐
核心竞争力主要在工程集成、本地化能力和硬件加速优化,而不是底层模型从零训练。