La tua prima classificazione

Giuseppe Gullo
ProfessionAI
Published in
7 min readSep 14, 2018

La classificazione è, insieme alla regressione di cui già abbiamo parlato qui, uno dei due problemi principali dell’apprendimento supervisionato, la branca del machine learning che si occupa di insegnare ai computer come risolvere determinati problemi mostrandogli esempi di come questi sono già stati risolti in passato.

Matematicamente il problema dell’apprendimento supervisionato può essere ridotto a:

“ho una o più variabili indipendenti x e una variabile dipendente y, devo trovare una funzione f tale che f(x) sia uguale a y”.

Niente di più, niente di meno.

In gergo tecnico l’insieme delle varibili indipendenti x vengono chiamate features e la varibile y viene chiamata target.

La differenza principale tra regressione e classificazione è:

  • In un problema di regressione la variabile y è continua, cioè un numero qualsiasi appartenente all’insieme dei numeri reali.
  • In un problema di classificazione la variabile y è categoria, ovvero un insieme finito di valori, i cosidetti labels, che solitamente rappresentano l’appartenenza ad una classe.

Alcuni problemi che possono essere affrontati con un modello di classificazione sono ad esempio:

  • Riconoscere oggetti nelle foto.
  • Effettuare diagnosi cliniche.
  • Comprendere lo stato d’animo di una persona da un tweet.

Un semplice problema di classificazione con due features e due classi può essere rappresentato geometricamente come trovare l’equazione della retta che meglio riesce a dividere le due classi.

Esempio di modello di classificazione per classificare un tumore come benigno o maligno in base al numero di punti di concavità e valore medio del raggio, la retta che separa le classi è chiamata confine di decisione (decision boundary)

Quando le classi da predire sono solo due si parla di classificazione binaria, in questi casi il modello non fa altro che rispondere con un si o con un no

  • E’ un gatto nella foto ? SI/NO
  • Ha il paziente la varicella ? SI/NO
  • La persona che ha scritto questo tweet è incazzata ? SI/NO

Il si equivale ad un valore 1 e viene considerato come la classe positiva, al contrario il no equivale ad un valore 0 ed è la classe negativa.

Usare il Machine Learning per riconoscere un tumore maligno

In questo articolo proveremo a eseguire una classificazione binaria per classificare tumori al seno come benigni o maligni, basandoci su alcune proprietà estratte da immagini digitalizzate. A tale scopo utilizzeremo il Wisconsis Breast Cancer Dataset. Partiamo !

Per prima cosa importiamo i vari moduli che ci serviranno. Numpy: la libreria Python per il calcolo numerico.

Utilizzando Pandas importiamo il dataset direttamente dalla repo all’interno di un DataFrame, una speciale struttura dati che permette di immagazzinare dati in maniera tabulare.

Purtroppo ci tocca definire manualmente i nomi di tutte le colonne.

Il metodo head mostra le prime 5 righe del DataFrame, una cosa del genere:

Tramite il metodo info del DataFrame possiamo visualizzare diverse informazioni sulle varie colonne.

Il dataset contiene 32 colonne, 1 di queste, diagnosis, è il nostro target, mentre le altre sono potenziali features, tranne id, di questo non ce ne facciamo nulla.
Osserva bene che il tipo di diagnosis è object, mentre tutte le altre colonne contengono numeri.

Utilizzando il metodo unique possiamo osservare gli elementi unici contenuti in diagnosis.

Il risultato mostrerà che la colonna è composta da due valori: M e B, che sono dei label indicanti rispettivamente un tumore maligno e uno benigno.

Classificazione con due features

Siccome il nostro obiettivo è sviluppare un modello semplice, selezioniamo solo due colonne e promuoviamole a features del nostro modello, optiamo per le seguenti:

  • radius_se: l’errore standard del raggio del tumore
  • concave points_worst: il numero peggiore di punti di concavità nel contorno del tumore.

Adesso creiamo due array numpy, uno contenente le features e l’altro il target.

Per poter valutare la qualità del nostro modello dobbiamo suddividere il nostro dataset in 2 set differenti:

  • Train set: che ci servirà per addestrare il modello.
  • Test set: che ci servirà per testarlo.

Questa suddivisione è necessaria per verificare che il modello abbia effettivamente imparato qualcosa e che sia in grado di generalizzare su dati non visti durante l’addestramento.
Possiamo eseguire la suddivisione utilizzando la funzione train_test_split, assegnando il 70% dei dati al train set e il 30% al test set.

Ricorderai che la colonna diagnosis contiene dei caratteri, ma a noi servono dei numeri !
Una tecnica da adoperare in questi casi è codificare gli oggetti sotto forma di numeri, nel nostro caso la codifica che andremo a fare è la seguente:

  • M => Classe positiva = 1
  • B => Classe negativa = 0

Per farlo possiamo utilizzare la classe LabelEncoder.
LabelEncoder appartiene alla categoria dei trasformatori di scikit-learn, che si occupano di eseguire trasformazioni i dati.

Un trasformatore viene inizializzato con il metodo fit, che si occupa di effettuare tutti i calcoli necessari per poi poter eseguire la trasformazione utilizzando il metodo transform.

La classe fit_transform è una scorciatoia che equivale a chiamare prima fit
e poi transform sui dati passati come parametro.

Prima di costruire il modello dobbiamo essere sicuri che i dati siano sulla stessa scala, altrimenti si rischia che questo attribuisca maggiore importanza alle features con magnitudine maggiore.

Riprendiamo un momento il nostro DataFrame, selezioniamo solo le nostre due features e utilizziamo il metodo describe per ottenere le informazioni statistiche (in alternativa avremmo potuto utilizzare le funzioni np.min e np.max sui nostri array numpy)

L’output sarà questo:

Osservando i valori minimi e massimi delle due colonne puoi vedere che la colonna radius_se si trova in un range di valore 10 volte superiore rispetto a concave points_worst.
Per portare le features su di una scala comune abbiamo due possibilità:

  • Normalizzare: portare tutti i dati in un range compreso tra 0 e 1.
  • Standardizzare: creare una distribuzione normale, cioè con media 0 e deviazione standard 1.

Optiamo per la standardizzazione, possiamo eseguirla utilizzando la classe trasformatore StandardScaler di scikit-learn.

Adesso siamo pronti per creare il nostro modello di classificazione.

Il modello che implementeremo è la regressione logistica, che oltre alla classe di appartenenza ritorna anche la probabilità di quanto la classificazione sia corretta.

piccol

Abbiamo il nostro modello ! E ora ?

Adesso dobbiamo valutare quanto effettivamente sia buono, per farlo possiamo utilizzare il test set e due metriche:

  • Accuracy: semplicemente conta quante delle classificazioni fatte dal modello sono corrette, ritorna un valore tra 0 e 1, maggiore è meglio
  • Negative Log-likelihood (aka log loss): tiene conto della probabilità, ritorna un valore tra 0 ed 1, minore è meglio.

Entrambe le funzioni sono implementate in scikit-learn

Se hai fatto tutto come me, i risultati dovrebbero essere:

  • ACCURACY = 0.9064
  • LOG LOSS = 0.215

Trattandosi di un modello estremamente semplice, con sole due features, i risultati sono molto buoni.

Visualizziamo graficamente il decision boundary all’interno di uno scatter plot.

Ed eccolo qui:

A destra il decision boundary per il train set, a sinistra quello per il test set, i tumori maligni sono evidenziati in rosso, quelli benigni in verde.

La funzione showBounds è abbastanza complessa e spiegarla riga per riga porterebbe via troppo tempo, in sostanza quello che fa è:

  • Creare uno scatterplot con gli esempi corrispondenti a tumori maligni (in rosso).
  • Creare uno scatterplot con gli esempi corrispondenti a tumori benigni (in verde)
  • Eseguire una predizione per ogni punto del grafico, ricorda che l’asse delle x corrisponde alla feature radius_se, mentre quella delle y alla feature concave points_worst, se il punto viene classificato come maligno allora lo colora di marroncino, se invece viene classificato come benigno lo colora di azzurro, il confine che separa i due colori è il decision boundary.

Se vuoi una spiegazione più dettagliata fammelo sapere nei commenti :).

Classificazione con tutte le features

Vediamo un po’ cosa accade sfruttando tutte le colonne del dataset originale come features.

I risultati sono:

  • ACCURACY = 0.965
  • LOG LOSS = 0.11

Avendo più informazioni a disposizione, il modello addestrato con tutte le features è notevolmente migliore, questo dimostra il ruolo fondamentale che hanno i dati nel machine learning.Trovi il notebook eseguibile con il tutto il codice presente nell’articolo sulla repository Github dei tutorial di ProfessionAI.

Questo articolo è stato originariamente pubblicato sul blog di ProfessionAI, la prima piattaforma italiana per la formazione online nelle varie discipline legate all’Intelligenza Artificiale, come machine learning, deep learning e data science.

Ti interessa il Machine Learning ? Se vuoi approfondire più nel dettaglio la regressione e altri argomenti come classificazione e clustering allora dai uno sguardo al nostro Corso Pratico sul Machine Learning con Python, disponbile su Udemy a soli 9.90 € per un periodo di tempo limitato.

--

--

Giuseppe Gullo
ProfessionAI

Tech Entrepreneur / Full stack Mobile Developer / A.I & Machine Learning