YOLO on KnightLiブログ

Feiniu NAS AI フォトアルバムで使用されているモデル: 顔、オブジェクトの分解、セマンティック検索

Sat, 11 Apr 2026 08:27:57 +0800

Feiniu NAS (fnOS) の AI フォトアルバムは、一連のアルゴリズムを一から開発するのではなく、主流のオープンソースモデルに基づいてエンジニアリングを統合し、顔認識、シーン認識、自然言語画像検索を完成させます。

1) 顔認識: InsightFace

顔の機能に関しては、通常、コアは InsightFace です。

一般的な特徴抽出方法: ArcFace
主な機能: 顔の検出、特徴ベクトルの抽出、顔クラスタリング、文字認識の実行

2) ターゲット検出とシーン認識：YOLOシリーズ

オブジェクト認識 (猫、犬、車、コンピューターなど) と写真内の部分的なシーンの理解は通常、YOLO シリーズ (通常は YOLOv8 または軽量バージョン) によって行われます。

利点: 精度と速度のバランスが良い
適応シナリオ: NAS などのエッジデバイスの限られたコンピューティング能力環境

3) 意味検索: CLIP / Chinese-CLIP

Feiniu Photo Album は、「草の上の子犬」や「サングラスをかけた男性」など、自然言語を使用した写真の検索をサポートしています。

一般的な実装は CLIP です。

画像とテキストは同じベクトル空間にマッピングされます
中国語のシナリオでは、通常、 Chinese-CLIP または同様の中国語の拡張ソリューションと組み合わせられます。

要約する

Feiniu AI フォトアルバムは、次の 3 層の組み合わせとして理解できます。

InsightFace は人間の顔を担当します
YOLO はオブジェクトとシーンを担当します
CLIP は人間の言語を画像のセマンティクスに合わせる役割を果たします。

中核となる競争力は、基盤となるモデルをゼロからトレーニングするのではなく、主にエンジニアリングの統合、ローカリゼーション機能、ハードウェアアクセラレーションの最適化にあります。