Stories by KOULODJI Dona Éric on Medium

UNDERSTAND DATA ARCHITECTURES MODERNS

KOULODJI Dona Éric — Tue, 06 Jan 2026 14:07:07 GMT

À l’ère de l’intelligence artificielle, les données sont comme du carburants pour les motos,les voitures etc… Sans données,L’IA n’existe pas. Alors une chose est sûre les données existent et en quantité énormes(des tweets, des images, des documents..) mais on se pose généralement une question :

Comment traiter efficacement les données massives(Big Data), les historiques et en Streaming plus rapidement et à moindre coût ?

C’est là qu’entre en jeu les architectures modernes :

✡ Lambda Architecture
✡ Kappa Architecture
deux architectures qui dominent les systèmes data modernes aujourd’hui.

Parlons-en …….

🖌 Lambda Architecture ?

✒Lambda Architecture : est un modèle de traitement des données conçu pour gérer des volumes massif de données en combinant traitement par lots et traitement en temps réel. Elle a été introduite pour répondre aux défis de l’analyse en temps réel tout en garantissant la tolérance aux pannes et l’évolutivité.

Elle est divisée en trois couches :

✒Couche de traitement par lots(Batch Layer) : traite les données par grands intervalles prédéfinis afin de calculer les résultats les plus précis, offrant ainsi une vue historique complète des données.

✒Couche de vitesse(Speed Layer) : Gère les flux de données en temps réel pour fournir des informations immédiates avec une précision moindre, compensant ainsi le délai de traitement par lots.

✒Couche de service(Service Layer) : Combine les résultats des couches de traitement par lots et de vitesse pour fournir une vue complète des données aux utilisateurs ou aux applications.
Elle est robuste, mais son double pipeline (traitement par lots et traitement rapide) ajoute de la complexité, nécessitant souvent plus de maintenance et de ressources.

🖌 Kappa Architecture ?

L’architecture Kappa est un modèle simplifié de traitement des données conçu pour l’analyse en temps réel. Contrairement à l’architecture Lambda, qui sépare le traitement par lots et le traitement en temps réel, Kappa se concentre exclusivement sur le traitement de flux, traitant toutes les données comme un flux en temps réel.

L’architecture Kappa possède des caractéristiques principales comme:

✒Pipeline de traitement unique : les données sont traitées en temps réel dès leur arrivée, sans nécessiter de couche de traitement par lots distincte. L’architecture s’en trouve simplifiée et la maintenance facilitée.

✒Capacité de retraitement : si des données historiques doivent être retraitées, le même moteur de traitement de flux peut les rejouer, éliminant ainsi le besoin d’un système de traitement par lots distinct.

Kappa est donc idéal pour les systèmes où les données en temps réel sont essentielles, car il offre une complexité moindre et des analyses plus rapides que Lambda. Cependant, il n’est peut-être pas le meilleur choix pour les scénarios exigeant un traitement par lots de haute précision.

Quand utiliser l’Architecture Lambda ou Kappa ???

Si votre système nécessite une analyse en temps réel , une analyse complète des historiques des données , avec une haute précision des données : lorsque le traitement de données précis est demandé, notamment pour l’analyse et la création de rapports , la tolérance aux pannes et fiabilités des données : lorsque vous admettez que votre systèmes peut tomber en cacahuète, l’architecture lambda offre une solution fiable en maintenant en actif votre système de traitement de données par lots et en temps réel.

Vous devriez envisager d’utiliser l’architecture Kappa dans les scénarios suivants :

Besoins en traitement de données en temps réel : Si votre système nécessite principalement des analyses en temps réel et des informations immédiates, l’architecture Kappa excelle en traitant les données sous forme de flux continu sans les frais généraux du traitement par lots.
Traitement simplifié des données : lorsque vous avez besoin d’une architecture plus simple qui évite la complexité de la maintenance de couches de traitement par lots et en temps réel séparées, le pipeline unique de Kappa est plus facile à gérer et à maintenir.
Exigences de faible latence : Dans les applications où le traitement des données à faible latence est essentiel, comme dans les systèmes de surveillance, la détection des fraudes ou les moteurs de recommandation, l’approche de Kappa axée sur le streaming offre des résultats quasi instantanés.
Flux de données continus : Si vos données arrivent en continu (par exemple, appareils IoT, journaux d’événements ou flux de médias sociaux) et ne nécessitent pas de traitement par lots historique complexe, Kappa est une solution adaptée.
Retraitement fréquent des données : lorsque vous devez retraiter ou relire de grandes quantités de données, Kappa le permet efficacement en utilisant le même moteur de traitement de flux sans avoir besoin d’un traitement par lots séparé.
Évolutivité avec le traitement de flux : si votre système doit évoluer principalement pour des charges de travail de données en flux continu, Kappa est optimisé pour le traitement en temps réel et peut gérer un débit élevé dans des environnements distribués.

Le choix de votre architecture vous revient ! Laquelle utilisez-vous donc ?? Si, partagez en commentaire et N’oubliez pas surtout de Likez, Partagez et Abonnez-vous ….

Architecture data moderns

if user==read:
  print(f"Url of linkedin : https://linkedin.com/in/dona-erick")
else:
  print("Like ! Share and Submit !")

Régression Linéaire :

KOULODJI Dona Éric — Wed, 12 Feb 2025 10:26:01 GMT

Comprendre l'Algorithme de Base du Machine Learning

🔍 Présentation

La régression linéaire est l'un des modèles fondamentaux du Machine Learning supervisé . Elle permet d' établir une relation mathématique entre une variable dépendante et une ou plusieurs variables indépendantes .

Cet algorithme est utilisé dans divers domaines pour prédire les valeurs continues , comme les ventes, la température, ou encore les prix immobiliers.

🏗 Comprendre le Modèle Mathématique

1️⃣ Régression Linéaire Simple (une seule variable)

La régression linéaire simple cherche à modéliser la relation entre une variable indépendante X et une variable dépendante Y en ajustant une droite d'équation :

Y=unX+b+εY = aX + b + \varepsilonY=un X+b+ε

Y : Variable cible (valeur à prédire)

X : Variable explicative

a : Coefficient directeur (indiquer le commentaire Y change lorsque X varie)

b : Intercept (valeur de Y quand X = 0)

ε : Erreur résiduelle (différence entre la prédiction et la valeur réelle)

👉 Exemple : Prédire le prix d'une maison en fonction de sa superficie.

2️⃣ Régression Linéaire Multiple (plusieurs variables)

Lorsque plusieurs variables indépendantes influencent la variable cible, on utilise une régression linéaire multiple , dont l'équation devient :

Y=un1X1+un2X2+...+unnXn+b+εY = a_1X_1 + a_2X_2 + ... + a_nX_n + b + \varepsilonY=un1X1+un2X2+...+unnXn+b+ε

👉 Exemple : Prédire le prix d'une maison en fonction de plusieurs paramètres comme la superficie, le nombre de chambres et l'emplacement.

📊 Comment l'algorithme apprend-il ? (Optimisation par Moindres Carrés)

L'algorithme ajuste les coefficients ( a, b ) en minimisant l' erreur quadratique moyenne :

MSE=1n∑je=1n(Yje−Y^je)2MSE = \frac{1}{n} \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2MSE=n1je = 1∑n( Yje−Y^je)2

Où :

YjeY_iYjec'est la vraie valeur,

Y^je\hat{Y}_iY^jeest la valeur prédite par le modèle,

nnnest le nombre d'observations.

L'algorithme ajuste les coefficients pour que la somme des carrés des erreurs soit la plus faible possible.

💡 Méthodes d'optimisation :

Moindres carrés ordinaires (OLS) : La méthode la plus courante, basée sur l'inversion de matrices.

Descente de Gradient : Méthode itérative pour trouver les coefficients optimaux.

🏢 Applications en Entreprise

1️⃣ Prévision des ventes et des revenus 📈

Une entreprise de e-commerce peut estimer ses ventes futures en fonction du budget marketing et du nombre de visiteurs sur son site.

2️⃣ Estimation des prix immobiliers 🏡

Un agent immobilier peut prédire le prix d'un bien en fonction de sa superficie, du quartier et des équipements disponibles.

3️⃣ Optimisation des coûts en logistique 🚚

Une entreprise de transport peut anticiper ses coûts de carburant en fonction de la distance et du poids des marchandises.

4️⃣ Analyse des performances publicitaires 🎯

Une marque peut évaluer l'impact de ses campagnes publicitaires en fonction du budget investi et du retour sur investissement (ROI).

🔥 Forces et Faiblesses de la Régression Linéaire

✅ Avantages :
✔️ Simple à comprendre et interpréter.
✔️ Performant sur des données bien corrélées.
✔️ Facile à mettre en œuvre et rapide à entraîner.

❌ Limites :
⚠️ Supposons une relation linéaire entre les variables (ce qui n'est pas toujours vrai).
⚠️ Sensible aux valeurs aberrantes qui peuvent fausser les prédictions.
⚠️ Supposons une indépendance des variables (colinéarité peut poser problème en régression multiple).

🚀 Techniques pour Améliorer la Régression Linéaire

🔹 Transformation des variables : Utiliser des logarithmes ou des polynômes si la relation n'est pas strictement linéaire.
🔹 Régularisation (Ridge & Lasso) : Pour éviter le surajustement en régression multiple.
🔹 Sélection de variables (Feature Selection) : Supprimez les variables inutiles qui n'apportent pas d'information.
🔹 Détection des valeurs aberrantes : Utiliser des méthodes statistiques comme l'IQR ou la distance de Cook.

🎯 Conclusion et appel à l'action

La régression linéaire est un outil puissant pour prédire des valeurs numériques en entreprise. Cependant, elle nécessite une bonne compréhension des hypothèses et une bonne préparation des données pour être efficace.

💬 Et vous, avez-vous déjà utilisé la régression linéaire dans vos analyses ? Quels défis avez-vous rencontrés ? Partagez votre expérience en commentaire !

🔥 Prochain épisode : La Régression Logistique.

OPTIMISATION DES MODÈLES D’APPRENTISSAGE POUR LA PRODUCTION

KOULODJI Dona Éric — Thu, 23 Jan 2025 11:34:42 GMT

Introduction : Que signifie optimiser les modèles pour la production ?

L’optimisation des modèles d’apprentissage automatique pour la production implique le processus de transformation de modèles expérimentaux en systèmes fonctionnels qui sont déployés de manière transparente dans des applications réelles. Même si un modèle fonctionne exceptionnellement bien dans un environnement de développement contrôlé, il rencontre souvent des problèmes tels que la dérive des données, les problèmes d’intégration du système et les problèmes d’évolutivité lors du déploiement.

Les aspects importants de l’optimisation des modèles d’apprentissage automatique pour la production incluent :

Prétraitement des données : préparation et nettoyage des données du monde réel pour garantir que le modèle fonctionne de manière cohérente.

Optimisation du modèle : réglage fin des hyperparamètres, sélection d’algorithmes et simplification du modèle pour maximiser l’efficacité.

Déploiement et mise à l’échelle : le modèle doit fonctionner correctement dans des environnements de production à grande échelle.

Surveillance et maintenance : suivre les performances du modèle et le recycler en cas de dérive des données ou de changement des exigences.

Ce guide vous guidera à travers ces procédures étape par étape et vous fournira des mesures concrètes à mettre en œuvre dans la vie réelle.

Principes clés de l’optimisation des modèles d’apprentissage automatique pour la production

1. Défis réels liés aux données

Qualité des données et biais : les données du monde réel sont souvent bruyantes et déséquilibrées. Les techniques de prétraitement telles que la normalisation, la détection des valeurs aberrantes et la gestion des valeurs manquantes sont essentielles.
Dérive des données : les données de production peuvent changer au fil du temps, ce qui nécessite que les modèles soient recyclés et mis à jour périodiquement.
Évolutivité : la gestion de grands ensembles de données nécessite des pipelines de données optimisés pour un traitement efficace.

2. Prétraitement des données pour les environnements de production

Automatisez les pipelines de données : utilisez des outils comme Apache Airflow ou Kubeflow pour automatiser les workflows de prétraitement.
Ingénierie des fonctionnalités : sélectionnez des fonctionnalités robustes et fiables dans les scénarios de production.
Augmentation des données : appliquez des techniques de suréchantillonnage et d’augmentation des données pour traiter les ensembles de données déséquilibrés.

3. Sélection de modèles et d’algorithmes appropriés

Sélection d’algorithmes : choisissez des modèles qui équilibrent la précision, l’interprétabilité et l’efficacité de calcul.
Complexité du modèle : simplifiez les modèles à l’aide de techniques telles que la régularisation pour éviter le surajustement.
Réglage des hyperparamètres : exploitez les outils de recherche de grille ou d’optimisation bayésienne pour affiner efficacement les paramètres.

4. Déploiement des modèles de production

Inférence par lots ou en temps réel : décidez si vous souhaitez traiter les données en temps réel ou par lots en fonction du cas d’utilisation.
Frameworks de service de modèles : utilisez des frameworks tels que TensorFlow Serving, FastAPI ou Flask pour le déploiement.
Intégration avec les API : assurez une interaction transparente avec les systèmes existants via des API RESTful ou des interfaces similaires.

5. Modèles de mise à l’échelle pour la production à grande échelle

Calcul distribué : utilisez des frameworks comme Apache Spark ou Dask pour le traitement distribué.
Compression du modèle : réduisez la taille du modèle à l’aide de techniques telles que la quantification ou l’élagage pour minimiser la latence.
Déploiement dans le cloud : déployez des modèles sur des plateformes cloud telles qu’AWS SageMaker, Azure ML ou Google AI Platform pour plus d’évolutivité.

Meilleures pratiques d’optimisation de la production

Surveillance et maintenance

Mesures de performances : surveillez les mesures telles que la latence, le débit et la précision pour maintenir les performances.
Recyclage et mises à jour : implémentez des pipelines de recyclage automatisés pour gérer les données en évolution.
Gestion des erreurs : créez des systèmes tolérants aux pannes pour récupérer efficacement après une panne sans affecter l’expérience utilisateur.

Sécurité et conformité

Confidentialité des données : respectez les réglementations telles que le RGPD ou le CCPA pour garantir la confidentialité des données des utilisateurs.
Sécurité du modèle : protégez les modèles contre les attaques adverses à l’aide de la validation des entrées et du cryptage.

Collaboration et documentation

Collaboration entre équipes : travaillez en étroite collaboration avec les équipes DevOps et d’ingénierie des données pour rationaliser le déploiement.
Documentation systématique : documentez clairement l’architecture du modèle, les étapes de prétraitement des données et les pipelines de déploiement.

Optimisation de la production en action

Étude de cas : Optimisation d’un modèle de prévision du taux de désabonnement des clients

Je vous partage ce travail projet à travers un repo github : https://github.com/dona-eric/

Avoid Using PCA for Visualisation Unless…

KOULODJI Dona Éric — Mon, 25 Nov 2024 17:02:44 GMT

ACP : Analyse en Composantes Principale, de par sa nature est un technique de réduction de dimensionnalité. Parfois, il est cependant utilisé pour visualiser des ensembles de données de grande dimension en projetant les données en deux dimensions ou trois dimensions(2D ou 3D).

Le problème avec PCA ?? Je vous explique

Après avoir appliqué l’ACP sur les datasets, chaque nouvelle fonctionnalité (PC1, PC2, ….., PC-n) capture une fraction de la variance des données d’origine:

PC1 pourrait capturer 40% de la variance
PC2 pourrait capturer 25 %
et ainsi de suite

Ainsi, l’utilisation de l’acp pour la visualisation en projetant les données sur 2 dimensions n’a de sens que les deux premières composantes expliquent au moins 60% de la variance des données d’origine. Mais en réalité c’est rarement vrai. je vous montre :

Sur la figure ci-dessus, vous pouvez constater qu’après avoir appliqué la pca sur les données standardisées, on constate que projeter les données sur au moins 8 dimensions, pourrait nous aider à capturer en majeur 70% de la variance de nos données. Ce qui n’est pas optimal, car normalement les n =2 devrait capturer 60 % de la variance au moins pour que la pca soit appliquer. Donc , il est important qu’on fasse attention à l’utilisation de pca pour réduire nos données sinon vous risquez de perdre d’informations.

A retenir : Utilisez l’ACP pour la visualisation et la réduction de dimensionnalité uniquement lorsque le n_components = k définir vous permet de capturer le plus d’informations possibles dans vos données.

Je vous partage le code pour réaliser la pca sur vos données afin de comprendre les données :

Réaliser PCA sur vos données

Il existe, en effet des techniques spécifique conçues pour la visualisation comme: le t-SNE, l’UMAP etc ..que j’expliquerai plus tard en détails avec des notebooks.

Enrichissez l’analyse des données manquantes avec des cartes thermiques

KOULODJI Dona Éric — Thu, 17 Oct 2024 20:20:53 GMT

En science de données , data analyst lors de l’exploration des données, une importante étape pour nettoyer les données afin de l’utilisation pour la modélisation est : Identification et Gestion des valeurs manquantes.

Pour identifier les valeurs manquantes dans un dataset , plusieurs méthodes s’offrent à nous.

Première méthode :

df.head(5) # afficher les premières lignes de datasets
df.isnull().sum() # isnull() est un attribut qui identifie les valeurs manquantes 
## ou 
d.isna().sum()

Deuxième méthode: Celle de visualiser une boite à moustaches de la variables. Et les valeurs qui sont en dehors de la bonne supérieure et de la borne inférieure du box-plot sont considérés dans la plupart des cas comme des valeurs manquantes et des outliers.

Troisième méthode: c’est une méthode statistiques le plus utilisées pour détecter les outliers(valeurs aberrantes ) mais aussi utiliser dans certains cas de figure pour identifier les valeurs manquantes : Interquartile Method or Z Scores.. Mais ce n’est pas tout; vous croyez sincèrement que je vais m’en arrêter là ? Non c’est pas vrai ! Cette méthode que je vous dévoile est générale utilisé cela n’a rien d’exceptionnelle: la visualisation de la carte thermique ou le dendrogramme. Voyons un peu le code ci dessous .

### pour la carte thermique 


import seaborn as sns 
missing_values = df.isnull(). sum () 
sns.heatmap(missing_values, annot = True , cmap = "" ) 
## dendogram 
import missingno as msno 
msno.dendogram(df.isnull().sum())

Bien que ses méthodes nous permet d’identifier les valeurs manquantes, nous ne savons réellement pourquoi ses valeurs manquent, si ce sont vraiment des données réelles. A cet effet, il peut y avoir plusieurs raisons pour lesquelles des valeurs sont manquantes mais il est aussi important de savoir quel type de valeurs manquantes nous avons à a fait. Je vous livre très rapidement un récapitulatif :

MCAR (Missing Completely at Random): la valeur est réellement manquante en elle meme et n’a aucun rapport une observation.

MAR(Missing at Random): les données sont manquantes en raison d’une autre variables observée.

MNAR(Missing Not at Random): ce cas est délicat. Le MNAR se produit lorsqu’il existe un modèle défini dans la variable manquante.

On revient maintenant aux tips de l’heure. L’identification de la raison de l’absence de données peut être extrêmement utile pour des analyses, des imputations et des modélisations plus approfondies.

Aujourd’hui, comprenons comment nous pouvons enrichir notre analyse de valeur manquante avec des cartes thermiques.

Considérons que nous disposons d’un ensemble de données de ventes quotidiennes d’un magasin contenant les informations suivantes:

Ensembles de données sur les ventes de magasin

jour et date
heures d’ouverture et de fermeture du magasin
nom du client
Ventes totales
Solde du compte à l’ouverture et à la fermeture

Si on essaye de calculer la fréquence manquante par colonne, on peut constater que :

les valeurs manquantes sont relativement élevées dans deux colones par rapport aux autres;
les valeurs manquantes dans les colonnes d’heure d’ouverture et de fermeture sont les memes(53);

Cependant , le problème avec cette approche est qu’elle cache de nombreux détails importants sur les valeurs manquantes, tels que :

Leur emplacement spécifique dans l’ensemble de données;
Périodicité des valeurs manquantes (le cas échéant);
Corrélation de valeurs manquantes entres les colonnes etc… Ce qui peut être extrêmement utile pour comprendre la raison d’une absence. Autrement dit que le tableau ressemble d’avantage à des statistiques récapitulatives qui nous livrent rarement une image fidèle de la réalité.

Comment Enrichir les données manquantes avec la carte thermique ?

Avec la carte thermique réalisées vous pouvez constater que les lignes verticales blanches indiquent l’emplacement des valeurs manquantes dans une colonne spécifique. Maintenant, il est immédiatement clair que :

des valeurs manquent périodiquement dans les colonnes d’heure d’ouverture et de fermeture.
les valeurs manquantes sont corrélées dans les colonnes d’heure d’ouverture et de fermeture.
les valeurs manquantes dans d’autres colonnes semblent (pas nécessairement) manquer complètement au hasard.

De plus avec une analyse approfondie des horaires d’ouverture et de fermeture, nous pouvons découvrir que le magasin reste toujours fermé le dimanche ; d’où la présence des valeurs manquantes.

Maintenant que nous savons la raison spécifique, nous pouvons passer à l’utilisation des techniques d’imputation et d’enrichissement de ses valeurs manquantes.

Pour MAR en particulier, les techniques pertinentes comme :

Imputation par KNN (K-Nearest Neighbor)
MissForest
Isolation Forest sont assez efficaces pour enrichir les données manquantes dans un ensemble de données.

Pour l’application de ses techniques, je prépare un article spécifique qui va expliquer chaque technique et le notebook , ce qui vous aiderait à des fins bien utiles .

Modélisation de sujets

KOULODJI Dona Éric — Mon, 07 Oct 2024 13:34:22 GMT

La modélisation de sujets, comme de nombreuses autres tâches, a déjà été réalisée et analysée en profondeur par d’autres. Dans cet article, je vais aborder certaines des solutions existantes ainsi que quelques points importants concernant cette tâche.

La modélisation de sujets est une tâche non supervisée permettant de rechercher des sujets dans des documents texte. Cette tâche peut être utilisée non seulement séparément, mais également comme une étape EDA pour comprendre la distribution des données, les sujets corrélés et exploiter ces informations par l’extension des données ou l’utilisation de modèles pré-entraînés basés sur des sujets.

Modélisation et regroupement de sujets

Il faut comprendre la différence entre la modélisation de sujets et le clustering :
* modélisation de sujets — montre les sujets présents dans chaque document, de sorte que chaque document peut contenir plus d’un sujet. La modélisation de sujets peut être considérée comme un processus de transformation des documents en un espace de fonctionnalités — espace de sujets. Nous pouvons utiliser cette représentation de l’espace de sujets des documents pour effectuer un clustering.
* clustering — regroupe les documents en différents clusters en fonction d’une mesure de similarité appropriée. Dans le clustering dur, un seul cluster est associé à chaque document.

Cohérence du sujet

La cohérence des sujets est une mesure qui montre à quel point un sujet est bien pris en charge par un corpus de référence. En d’autres termes, nous estimons à quel point notre sujet créé est cool comme nous le faisons avec la sortie de LDA lorsque (0,005 * voiture + 0,08 * bœuf + 0,001 * herbe) est un mauvais sujet et (0,003 * vacances + 0,009 * avion + 0,01 * touristes) est un bon sujet.
Il est calculé comme un score de mots qui apparaissent ensemble dans le corpus de référence. Nous essayons toujours de maximiser la cohérence des sujets, mais elle est généralement corrélée à un certain ensemble de données et il n’y a aucun moyen de déterminer si le score de cohérence est bon ou mauvais.
La meilleure source pour comprendre le calcul.

Façons de résoudre la modélisation de sujets

Il existe de nombreuses façons de résoudre la modélisation de sujets, en raison de la corrélation des sujets. La liste de la plupart d’entre eux peut être trouvée sur le référentiel tomotopy.

LDA

L’allocation de Dirichlet latente est basée sur l’idée que chaque sujet est un mélange sur un ensemble sous-jacent de mots, et que chaque document est un mélange sur un ensemble de probabilités de sujet. Nous attribuons à chaque mot un certain sujet et répétons la réaffectation en fonction des autres mots du document.
Je recommande de lire une explication courte mais approfondie et une longue explication mathématique pour mieux comprendre l’idée.

LSA

SVD sur matrice terme-document

L’analyse sémantique latente permet de trouver les dépendances cachées entre les mots et les documents à l’aide de la SVD. Nous appliquons une réduction de dimensionnalité à l’aide de la SVD sur notre matrice document-terme et obtenons des matrices sujet-terme et sujet-document. Ces matrices nous permettent de trouver les mots ayant la plus forte association avec chaque sujet. Nous pouvons utiliser ces informations pour décider de ce que représente chaque sujet dérivé. une explication
intéressante

FNM

La factorisation matricielle non négative utilise la même idée que LSA pour transformer la matrice document-terme d’entrée en quelques valeurs, mais permet d’avoir des valeurs supérieures ou égales à 0. En utilisant NMF, vous obtenez deux matrices W et H que vous pouvez observer sur l’image ci-dessous. NMF est une technique de factorisation matricielle non exacte . Cela signifie que vous ne pouvez pas multiplier W et H pour récupérer la matrice document-terme d’origine V. Les matrices W et H sont initialisées de manière aléatoire. Et l’algorithme est exécuté de manière itérative jusqu’à ce que nous trouvions un W et un H qui minimisent la norme de Frobenius de la matrice V — WH

BERT

Une approche connue sous le nom de BertTopic que j’utilise le plus souvent mais en combinant un algorithme de clustering HDBSCAN ou DBSCAN. Mais attention, DBSCAN est mort depuis peu de temps, car il n’arrive pas à faire une meilleure généralisation sur les données. Ce qui le rend moins faible et cela ne veut pas dire qu’il disparait. Lors de son utilisation faite un peu attention avec ses outputs.

Bert est une bouée de sauvetage pour chaque problème de PNL. La modélisation de sujets peut également être résolue à l’aide d’incorporations de phrases de Bert. Notez que vous pouvez également utiliser des incorporations de l’ensemble du texte s’il est suffisamment court. Une approche est connue sous le nom de BertTopic créée par Maarten Grootendorst ):

obtenir des insertions de phrases
algorithme de réduction de dimensionnalité (UMAP par exemple)
algorithme de clustering (HBSCAN)
créer des sujets basés sur TF-IDF ou d’autres algorithmes

🔔notez que dans le cas de HBSCAN, nous ne pouvons pas fournir le nombre de clusters dont nous disposons, seulement le nombre minimum de documents par cluster et certains documents peuvent être considérés comme des valeurs aberrantes, alors gardez-le pertinent pour votre tâche. Une autre approche consiste à utiliser d’autres techniques telles que K-means pour réduire les intégrations. Cette approche présente l’avantage de fournir le nombre de clusters présents dans un ensemble de données.

BERT + LDA

Les deux BERT et LDA peuvent fournir des intégrations représentatives. Mais ils diffèrent dans le sens où les intégrations BERT sont davantage basées sur le contexte, tandis que LDA est davantage basé sur les documents thématiques en utilisant uniquement des corpus d’entraînement. Nous pouvons les concaténer ensemble et les utiliser dans un modèle de clustering de modèle commun comme K-Means. Les vecteurs LDA et les intégrations BERT sont numériquement différents, c’est pourquoi nous devons les concaténer ensemble de manière intelligente — l’une des techniques couramment utilisées est AutoEncoder, une architecture dans laquelle nous essayons de reconstruire l’entrée de la meilleure façon.

Pipeline:

obtenir les plongements BERT et LDA et les concaténer ensemble
modèle d’autoencodeur de train pour la reconstruction d’intégration
utiliser l’intégration de la partie encodeur de l’autoencodeur dans K-means

Il convient de noter que la sortie du codeur est dans une dimension réduite qui permet une meilleure généralisation. Des auto-encodeurs variationnels peuvent également être utilisés à cette fin.
explication de l’approche avec l’exemple

La modélisation thématique est l’une des principales approches pour mieux comprendre vos données textuelles. Il existe un certain nombre de méthodes faciles à mettre en œuvre et un peu plus compliquées. Dans la plupart d’entre elles, le seul inconvénient est de définir une valeur fixe pour les sujets dans les données. De plus, la plupart des approches nécessitent une interprétation humaine des sujets.

Ecrit par KOULODJI Dona Éric

Sur moi

KOULODJI Dona Éric — Tue, 01 Oct 2024 21:03:53 GMT

Mon Premier Article sur Medium

De la Physique fondamentale à la Data Science : Mon voyage vers l’exploration du monde quantique et de la matière condensée.

Je suis Éric KOULODJI, Physicien Théoricien, Data Scientist et aujourd’hui j’ai décidé de partager mon voyage académique en tant que physicien étudiant les fondements de l’univers.

Comme je le disais, j’ai commencé mon voyage académique en tant que physicien étudiant les fondements de notre univers. de la première année de physique-chimie je continuais toujours d’explorer les fondements de la physique et les aspects réels de la chimie et puis de la deuxième année PCI, je me suis retrouvé en 3è année où mon avenir devrait en dépendre du chemin que je prendrais cette fois-ci . Du coup, je peaufine le domaine de la physique fondamentale où je commençais à explorer les vrais face de la physique et ses fondements. De l’introduction à la mécanique quantique, on est passée à celle de la mécanique non relativiste. Mais au fur et à mesure que je progressais, une nouvelle passion a émergé : l’analyse des données. Aujourd’hui, je me retrouve à l’intersection de deux mondes fascinants : la physique et la data science.

Ma transition vers la Data Science : Ici, je vous parlerai que de mes motivations et des opportunités qui s’offrent à vous . Motivé ? Passionné ? j’en dirai pas plus . Si au cours de votre parcours vous rencontrez des problèmes, des différents aspects de la physique, vous saurez que ce n’est pas seulement les mathématiques qui peuvent tout résoudre. Donc, pour faire simple, en entamant ma carrière en physique, je suis motivé à l’idée d’apporter des solutions innovantes et passionnantes telles que résoudre l’equation de Schrödinger plus profondément à l’aide du numérique , faire des simulations et réaliser des expériences impactantes, comme celle de Monte-Carlo. Alors pour assouvir à ses satisfactions dont j’éprouvais déjà d’énormes difficultés, j’ai pris une petite initiative, celle d’allié le numérique à mes problèmes. Bah-hmm aussitôt commencé avec la programmation en python, je m’imaginais déjà entrain de faire des choses bien plus interressantes . Mais au fil du parcours je voyais qu’il me manquait encore beaucoup plus de choses pour aboutir et c’est là je découvre le monde du Machine Learning(apprentissage automatique) et plus tard j’ai commencé à explorer les données de divers domaines(Marketing, informatique, Services clients etc…) et là je me retrouve nez à nez avec les statistiques, les probabilités, l’algèbre linéaire et la programmation. Finalement je me suis dis bon les domaines se complètent, j’utilisais mes compétences en statistiques pour analysées les données, celles en probabilités pour faire des prédictions , mettre en place des hypothèses statistiques etc…
Pourquoi la physique quantique et la matière condensée ? : Peut-être que ce sont les mystères de la mécanique quantique qui m’ont fasciné, ou la complexité des systèmes à l’état solide qui m’ont poussé à explorer la matière condensée. Dans le domaine de la physique de la matière condensée, je dirais que c’est à l’idée de modéliser et simuler des matériaux à l’échelle atomique pour mieux comprendre leurs propriétés et celle de la physique quantique c’est l’utilisation de techniques de machine learning pour simuler des systèmes quantiques ou optimiser des algorithmes quantiques, l’optimisation des méthodes de calcul, et la réduction de la complexité des données dans les systèmes multi-particules.
L’intersection de la physique et de la data science : C’est une excellente idée d’appliquer la data science dans le domaine de la physique, car cela permet de résoudre des problèmes complexes et d’analyser de grandes quantités de données expérimentales. Il existe plusieurs domaines où la data science est de plus en plus utilisée en physique :

Physique des particules : Analyse des données provenant de grands accélérateurs de particules (comme le LHC au CERN) pour découvrir de nouvelles particules ou confirmer des théories.
Astrophysique : Analyse de grandes quantités de données provenant des télescopes pour détecter des exoplanètes, des trous noirs, ou encore pour étudier la matière noire.
Physique de la matière condensée : Modélisation et simulation des matériaux à l’échelle atomique pour mieux comprendre leurs propriétés.
Physique quantique : Utilisation de techniques de machine learning pour simuler des systèmes quantiques ou optimiser des algorithmes quantiques.
Mécanique statistique et thermodynamique : Étude des systèmes complexes et non linéaires grâce à l’analyse de données à grande échelle.

Tes futurs projets : Ce que j’espère accomplir dans ce domaine. C’est d’abord contribuer à des découvertes en utilisant des modèles prédictifs, ou même proposer des solutions pratiques aux problèmes quantiques grâce à l’apprentissage automatique. Mais aussi en utilisant de l’intelligence Artificielle pour automatiser certaines taches en physique comme la simulation avec collecte des données en really time etc…. Vous aurez le temps de découvrir mes pensées d’ici peut .

!pip installe en status-live