Comment Lydia utilise le Machine Learning pour vaincre la fraude

Christelle Marfaing, Data Scientist chez Lydia, a présenté ses travaux, et plus particulièrement son algorithme de lutte contre la fraude à la conférence NeurIPS (Neural Information Processing Systems) de Montréal, en décembre 2018. En voici un résumé. Pour consulter son article scientifique, cliquez ici.

La fraude aux moyens de paiement est une pratique vieille comme le monde. Dès l’apparition des pièces de monnaie au VIIe siècle avant Jésus-Christ, certains faussaires s’amusaient à répliquer ces moyens de paiement. Au Moyen-Âge, le “faux-monnayage” était un crime de lèse-majesté : la peine de mort attendait ceux qui s’y osaient. En 1960, l’Américain Frank Abagnale, qui a inspiré le film “Arrête-moi si tu peux”, fait fortune en produisant de faux chèques en série.

A chaque fois, la fraude aux moyens de paiement est plus ingénieuse, plus rapide et plus grandiose. Elle devance de loin les régulateurs. Le chat ne parvient jamais à attraper la souris pour de bon. Mais c’est en train de changer.

Les trois visages de la fraude chez Lydia

Comme tout système de paiement, l’application Lydia est confrontée à des cas de fraude au quotidien. On distingue notamment trois grands types de fraudeurs :

  1. Ceux qui s’attaquent à Lydia. Ces fraudeurs cherchent à trouver et à exploiter une faille supposée dans notre système. Ils peuvent potentiellement coûter cher à l’entreprise, surtout en terme d’image. Et c’est souvent le but.
  2. Ceux qui utilisent Lydia comme relais. Ces fraudeurs peuvent essayer d’ajouter des cartes volées pour les utiliser sur Lydia, ou alors ils font transiter de l’argent par de nombreux comptes, généralement afin de le blanchir. Ils multiplient les relais pour brouiller les pistes et compliquer la tâche des enquêteurs. En tant qu’acteur du paiement, Lydia a la responsabilité de traquer ces pratiques sur son application et de les signaler aux services étatiques de lutte contre le blanchiment d’argent et le financement du terrorisme.
  3. Les “petits malins”. Ces fraudeurs font un usage interdit de certaines fonctionnalités de l’application. Il vont par exemple ouvrir plusieurs comptes pour toucher plusieurs fois l’euro que Lydia vous offre lors de votre inscription.

L’enjeu est donc de stopper les fraudeurs avant qu’ils ne puissent passer à l’acte. C’est bien connu : il vaut mieux prévenir que guérir.

Comment nous traitions la fraude jusqu’à aujourd’hui

Au fil du développement de l’entreprise et de l’application, nous avons établi des règles qui distinguaient un usage standard d’un usage atypique de l’application. Ces règles complexes étaient établies à partir d’informations dont nous disposions sur le profil et sur le comportement de nos utilisateurs (nombre et montant des transactions, nature des moyens de paiement utilisés, appareil, etc.).

En se fondant sur ces règles, un algorithme détectait les usages “anormaux” des utilisateurs et envoyait une ou plusieurs alertes à notre équipe en charge de la lutte contre la fraude, afin qu’elle approfondisse l’analyse de ces cas suspects. Ces alertes étaient parfois justifiées. Souvent, non.

Cette approche présentait deux problèmes :

  1. Nous avions du mal à déceler les cas urgents : l’algorithme nous envoyait trop de fausses alertes à longueur de journée. De plus, ces alertes étaient priorisées de façon assez rudimentaire. Elles reflétaient difficilement le caractère urgent, important ou grave d’une fraude potentielle.
  2. Nous ne voulions plus perdre de temps à écrire des règles : les usages évoluent en permanence, la fraude aussi. À chaque fois que nous établissions de nouvelles règles, les fraudeurs trouvaient un moyen de les contourner. Il fallait sans cesse éditer de nouvelles règles. C’est autant de temps que nous ne passions pas à traiter des cas suspects.

Notre équipe responsable de la lutte contre la fraude a passé du temps à trier les cas de fraude avérée et les cas de fausse suspicion. Ces cas ont été recensés dans un document : une base de travail pour l’algorithme de machine learning.

Les possibilités offertes par le Machine Learning

Le Machine Learning, c’est un terme qui peut rebuter, mais c’est en réalité très simple d’en comprendre le principe : on apprend à une machine à effectuer des tâches complexes, en lui montrant une batterie d’exemples. Ce champ d’étude de l’intelligence artificielle est particulièrement intéressant pour lutter contre la fraude : l’ordinateur va reproduire le comportement de l’analyste de la fraude qui a lui-même déjà détecté des fraudeurs auparavant.

Deux grandes approches du Machine Learning existent :

  • Le Machine Learning “supervisé” : dans ce paradigme, on fournit à l’algorithme une base de données avec les comportements des fraudeurs que nous avons identifiés. L’algorithme va ensuite chercher à retrouver ces comportements parmi tous les utilisateurs. Cette méthode part du principe que la fraude répond à des comportements figés, alors qu’en réalité, elle est en constante évolution.
  • Le Machine Learning “non supervisé” : cette approche est pratique lorsqu’aucune donnée dans la base n’indique si un utilisateur est un fraudeur ou non. En partant du principe que la majorité des utilisateurs a un comportement normal, l’algorithme analyse tous les comportements et signale les comportements “inhabituels”. Il ne s’agira pas forcément de fraude — il peut simplement s’agir de quelqu’un de très dépensier lors de ses insomnies, par exemple.

À la pointe de la lutte contre la fraude

Chaque approche a ses avantages et ses inconvénients. Plutôt que de choisir l’une d’entre elles, nous avons fait le choix de combiner plusieurs méthodes et de les faire fonctionner ensemble. Pour deux raisons :

  • Notre ensemble de données n’est pas complet : nous considérons que nous ne connaissons pas encore l’intégralité des comportements de fraude dans l’application. Nous avons besoin d’explorer davantage les comportements de nos utilisateurs.
  • La fraude évolue constamment : avec l’arrivée de nouvelles fonctionnalités, les usages changent. La fraude aussi. Nous avons besoin d’une méthode qui s’adapte à ces évolutions.

Nous avons donc développé notre propre méta-méthode intitulée “CAFDA”, pour “Computer Assisted Fraud Detection Algorithm” (algorithme de détection de la fraude assistée par ordinateur). Cet algorithme se veut :

  • Dynamique. Il s’adapte en permanence à l’évolution des comportements frauduleux. Pour chaque cas, CAFDA choisit la meilleure stratégie de détection à adopter.
  • Évolutif. CAFDA apprend de ses échecs. Pour s’améliorer et continuer à découvrir les comportements frauduleux, l’algorithme se nourrit constamment des retours des personnes en charge de la lutte contre la fraude via une interface dédiée.

Dans le coeur de CAFDA

Concrètement, CAFDA est un méta-algorithme composé de deux moteurs principaux. Chaque moteur (ou stratégie) est lui-même constitué d’une dizaine d’algorithmes qui analysent la base de données en continu. Ses missions sont :

  1. L’exploitation : le premier moteur analyse le comportement des utilisateurs par rapport à celui des fraudeurs et leur attribue un score. Plus leur comportement ressemble au comportement connu d’un fraudeur, plus le score sera élevé. Ce moteur signale les profils ayant les scores les plus élevés aux analystes de la fraude.
  2. L’exploration : ce deuxième module utilise à la fois une approche de Machine Learning “non supervisé” en cherchant les comportements les plus anormaux, et d’autres approches qui vont proposer des profils plus variés.

Programmé pour s’améliorer

Chacune de ces stratégies est continuellement notée en fonction de son taux de réussite. Si la stratégie “d’exploitation” produit à chaque fois des résultats concluants — donc si elle signale à chaque fois des cas de fraude qui s’avèrent réels — sa note augmente. CAFDA comptera davantage sur celle-ci pour faire remonter des cas de fraude. À chaque fois que la stratégie d’exploitation se trompe, sa note baisse.

Ce système de notation continue permet à CAFDA de :

  • Signaler les cas de fraudes les plus pertinents : CAFDA maximise son taux de réussite en adoptant à chaque fois la stratégie de recherche de fraude la plus performante.
  • S’adapter à l’évolution de la fraude : lorsqu’une stratégie se trompe trop souvent (donc lorsque son “logiciel” est dépassé), sa note baisse, au profit d’une autre stratégie qui signalera d’autres types de fraudeurs.

Dans le respect de la réglementation

CAFDA n’automatise pas la décision mais bien la détection des cas de fraude. Conformément à l’article 22 du Règlement Général sur la Protection des Données (RGPD), chaque décision légale concernant un utilisateur (une fermeture de compte, un signalement aux services de police) doit être vérifiée par un être humain. L’humain doit donc rester central dans ce dispositif.

Tout l’objectif de CAFDA est donc d’envoyer aux personnes en charge de la lutte contre la fraude chez Lydia les cas les plus pertinents, les plus graves et les plus urgents, de manière automatisée, en tirant le meilleur du Machine Learning.

Pour la fraude moins prioritaire (pour les “petits malins”), un traitement automatique pourra être mis en place. Nous pourrons par exemple utiliser les résultats de CAFDA pour dégrader l’expérience utilisateur des fraudeurs de moindre échelle.

> Retrouvez les travaux de Christelle Marfaing, Data Scientist chez Lydia, à ce lien : https://arxiv.org/abs/1811.08212


Cet article vous a plu ? Vous aimerez aussi découvrir comment les pirates font pour payer avec vos numéros de carte bancaire sur Internet.