Feiniu NAS (fnOS) の AI フォト アルバムは、一連のアルゴリズムを一から開発するのではなく、主流のオープンソース モデルに基づいてエンジニアリングを統合し、顔認識、シーン認識、自然言語画像検索を完成させます。
1) 顔認識: InsightFace
顔の機能に関しては、通常、コアは InsightFace です。
- 一般的な特徴抽出方法: ArcFace
- 主な機能: 顔の検出、特徴ベクトルの抽出、顔クラスタリング、文字認識の実行
2) ターゲット検出とシーン認識:YOLOシリーズ
オブジェクト認識 (猫、犬、車、コンピューターなど) と写真内の部分的なシーンの理解は通常、YOLO シリーズ (通常は YOLOv8 または軽量バージョン) によって行われます。
- 利点: 精度と速度のバランスが良い
- 適応シナリオ: NAS などのエッジデバイスの限られたコンピューティング能力環境
3) 意味検索: CLIP / Chinese-CLIP
Feiniu Photo Album は、「草の上の子犬」や「サングラスをかけた男性」など、自然言語を使用した写真の検索をサポートしています。
一般的な実装は CLIP です。
- 画像とテキストは同じベクトル空間にマッピングされます
- 中国語のシナリオでは、通常、 Chinese-CLIP または同様の中国語の拡張ソリューションと組み合わせられます。
要約する
Feiniu AI フォト アルバムは、次の 3 層の組み合わせとして理解できます。
- InsightFace は人間の顔を担当します
- YOLO はオブジェクトとシーンを担当します
- CLIP は人間の言語を画像のセマンティクスに合わせる役割を果たします。
中核となる競争力は、基盤となるモデルをゼロからトレーニングするのではなく、主にエンジニアリングの統合、ローカリゼーション機能、ハードウェア アクセラレーションの最適化にあります。