Comment faire de l’intelligence artificielle avec des données aux formats multiples ?

Published in

demain.ai

3 min readJan 15, 2019

Les données étiquetées sont le carburant de l’apprentissage machine supervisé et constituent souvent un obstacle majeur au déploiement de l’IA.

Vous y êtes,
vous avez initié la démarche d’intégration de solutions d’intelligence artificielle dans votre entreprise et vous êtes bien décidé à passer au stade opérationnel.

Et là, c’est le bug !

Bien souvent, les entreprises sont confrontées à un premier obstacle de taille : la préparation des données. En effet, les sociétés ne disposent pas, en général, de données propres, correctement étiquetées, immédiatement exploitables pour débuter l’apprentissage machine.

On comprend immédiatement que si les données d’apprentissage ne sont pas propres, homogènes et correctement étiquetées, la précision du résultat de l’apprentissage machine s’en trouvera fortement dégradée.

De très nombreux data scientists (pour ne pas dire tous) doivent faire face à cet écueil. Ils sont alors contraints de réaliser ce travail long et fastidieux eux-mêmes. On estime que 70% du temps des data scientists est consacré à préparer les données ! Inutile de dire que les data scientists, même s’ils sont parfois aidés par des data analysts dans cette tâche, ne s’enthousiasment pas à la perspective de passer une grande partie de leurs journées à nettoyer et préparer les données. Mais …

sans data, pas de data science !

Les entreprises qui veulent intégrer des solutions d’intelligence artificielle ont donc souvent un grand besoin de normalisation et d’étiquetage de données. Ces tâches peuvent parfois être sous-traitées.

Le marché est immense et, si on s’en d’abord tourné vers l’offshoring, plusieurs start-up ont flairé la bonne affaire et proposé des plateformes Saas de préparation préalable des données (data wrangling). Elles proposent des interfaces ergonomiques ne nécessitant pas de compétences en code.

Les leaders du marché du data wrangling sont américains.

Parmi eux, on peut citer Trifacta, qui revendique 12 000 clients dans 143 pays et travaille avec des entreprises telles que LinkedIn, Orange, GoPro, Sanofi ou Pepsico.

Mais d’autres sociétés existent comme Paxata (qui propose une interface qui ressemble à Excel) ou TIBCO software qui occupent également une position de leader sur ce marché. Quant à Unify Software, elle propose une promesse de valeur extrêmement explicite : « Unifi was founded to satisfy a frustrating industry need ». Tout est dit !

Certains GAFAM sous-traitent à Trifacta.

Chez Google, le service Cloud DataPrep est soustraité à Trifacta. La tarification dépend globalement des ressources machines nécessaires et du temps d’utilisation (un simulateur est disponible).

Amazon Marketplace propose également une solution Trifacta : Wrangler Pro ; tout comme la Marketplace Azur de Microsoft qui propose le Wrangler Enterprise de Trifacta.

Comme dans toute approche business, c’est le pragmatisme qui prévaut.

Alors, avant de payer un data scientist ou un Chief Data Officer (CDO) pour nettoyer et préparer vos données, regardez ces plateformes. Les tarifs sont relativement peu élevés et votre CDO ou vos Data Scientists vous seront extrêmement reconnaissants de leur avoir épargné ce travail bien éloigné de leurs qualifications.