DINOv2 : L’apprentissage auto-supervisé

Ionut Mihalcea
MoveNext
Published in
2 min readFeb 26, 2024

Nous travaillons actuellement sur le sujet de la compréhension sémantique et structurelle des documents. La méthode DINO (DIstillation with NO labels), décrite dans la publication “Emerging Properties in Self-Supervised Vision Transformers”, représente une avancée significative dans le domaine de l’apprentissage automatique, en particulier dans l’utilisation de l’apprentissage auto-supervisé pour les Vision Transformers (ViTs).

Contrairement à l’apprentissage supervisé, qui repose sur des données étiquetées, l’apprentissage auto-supervisé n’en a pas besoin. DINO n’utilise pas d’annotations fournies par des humains pour comprendre ou classifier les images.

L’une des découvertes majeures est le fait que les caractéristiques apprises par le modèle contiennent des informations explicites sur la segmentation sémantique d’une image.

Dans cette vidéo on peut voir une projection de ce que l’algorithme “retient” comme information importante.

La vidéo d’exemple a été fabriquée selon le processus suivant : pour chaque “frame” de la vidéo d’origine on extrait grâce à DINO les caractéristiques de la frame et on obtient un vecteur. Ce dernier encode les informations importantes de l’image, et nous appliquons un traitement de nettoyage du “background” et de PCA (Principal Component Analysis) sur ses 3 composants les plus importants.

Voici plusieurs apects qui rendent DINO révolutionnaire :

  1. Apprentissage auto-supervisé efficace : DINO repose sur une technique d’apprentissage auto-supervisé, ce qui signifie qu’elle n’utilise pas d’étiquettes annotées pour l’entraînement. Cette approche réduit considérablement la dépendance aux vastes ensembles de données annotées, qui sont souvent coûteux et longs à produire
  2. Utilisation des Vision Transformers (ViTs) : DINO tire parti des ViTs, une classe de modèles qui a récemment gagné en popularité pour le traitement d’images. Contrairement aux réseaux de neurones convolutionnels traditionnels, les ViTs traitent les images comme une série de patches et peuvent capturer des relations globales dans les données d’image. C’est exactement le même type d’approche que les modèles de langages.
  3. Distillation sans étiquettes : la méthode consiste à entraîner un modèle étudiant à imiter un modèle enseignant, mais sans utiliser d’étiquettes pour guider l’apprentissage. C’est une approche novatrice qui permet d’obtenir des caractéristiques de haute qualité sans supervision directe.
  4. Extraction de caractéristiques sémantiques : L’une des découvertes clés de la recherche sur DINO est que les caractéristiques apprises par le modèle contiennent des informations explicites sur la segmentation sémantique d’une image. Cela indique une compréhension plus profonde du contenu de l’image que ce qui est typiquement observé dans les modèles supervisés ou les réseaux de neurones convolutionnels.
  5. Performance en tant que classificateur k-NN : Les caractéristiques apprises par DINO se sont avérées exceptionnellement efficaces lorsqu’elles sont utilisées dans un cadre de classification k-NN simple, démontrant une précision impressionnante dans les benchmarks.
  6. Potentiel : Les propriétés uniques de DINO ouvrent la voie à de nouvelles applications en vision par ordinateur, en traitement d’images et dans d’autres domaines où la compréhension fine des images est cruciale.

--

--