[Data & crise] Saison #3 E4 — Super Caméléon protège les abeilles (1/2)

Nadia Zabeti
INVYO
Published in
3 min readDec 14, 2021

Bienvenue dans cette nouvelle aventure de Super Caméléon! Après l’avoir accompagné dans sa mise en place de résumé automatique 👇

Le voilà prêt pour… protéger les abeilles ! 🐝

Il a découvert un jeu de données provenant des Etats-Unis, où plus de 5000 images issues de vidéos filmant des abeilles ont été prises.

Ce dataset regroupe non seulement les images des abeilles, mais des informations comme leurs éventuelles maladies et leur localisation.

Si on fait un zoom sur les abeilles malades, voilà la répartition des maladies que l’on obtient :

Différents parasites et problèmes survenant dans une ruche

L’idée est de faire une modélisation pour voir si notre modèle retrouve ces catégories et permettra ainsi à partir d’une photo, de dire si l’abeille est malade ou non, et si oui, de quelle maladie sa ruche souffre.

Avant cela (qui sera l’objet de notre épisode prochain, gardez patience 😄), nous avons besoin de préparer nos images à la modélisation.

Traitement d’image

Lorsqu’il s’agit de créer un modèle qui va s’entraîner sur des images, la première étape à suivre est de traiter l’image pour qu’elle convienne au modèle.

1- On redimensionne l’image (ici, on choisit une largeur de 224), car les réseaux de neurones ont besoin de lire des images de même taille

2- On convertit les couleurs en nuances de gris, pour que chaque pixel de l’image contienne le minimum d’informations

3- On réduit le “bruit” de l’image, c’est à dire qu’on lisse l’image pour pouvoir plus facilement extraire les caractéristiques

Image avant traitement
Image après traitement

Extraction de features

Maintenant que nos images sont uniformisées pour être traitées par le modèle de Machine Learning, nous pouvons extraire leurs features ou caractéristiques.

Nous allons tester 3 méthodes : la méthode ORB, la méthode SURF, et la méthode SIFT.

Elles ont en commun de retraiter l’image pour en extraire les keypoints ou points marquants.

La méthode ORB est la plus rapide, et voici par exemple ce qu’elle détecte comme keypoints pour notre image d’abeille vue plus haut :

Elle détecte 96 keypoints.

La méthode SURF est celle qui détecte le plus de keypoints (ici, 210)

La méthode SIFT quant à elle détecte le moins de keypoints (64), mais ce sont les plus pertinents:

Afin de ne pas alourdir inutilement notre modèle, nous choisissons de continuer pour ce jeu de données avec la méthode SIFT 🏆.

Prochaine étape : le réseau de neurones ! 🧠

Rdv le mois prochain pour la suite✨✨

--

--