Implementación del algoritmo K-Nearest Neighbor con data de Cáncer de Mama

Maribel Coronacion
Disruptiva by DataHack
2 min readNov 8, 2021

Algoritmo de clasificación básico el cual pertenece al dominio del aprendizaje supervisado. Se caracteriza por que memoriza las instancias de formación que posteriormente se usan como conocimiento para poder realizar las predicciones El valor de K es un hiperparámetro el cual debe elegirse al momento de construir el modelo, no existe un número óptimo de vecinos. Sus aplicaciones son: Reconocimiento de patrones, minería de datos y la detección de intrusos.

Podemos realizar el algoritmo en el entorno de Google Collaboratory o Spyder (Python 3.8) sin relación con la nube.

En este caso realizaremos en entorno de Google Collaboratory.

Visualizamos la siguiente gráfica:

Ahora realizaremos el análisis del algoritmo con la data de cancer de mama con respecto al puntaje de eficiencia que tuvo el algoritmo por score.

Primero extraemos el dataframe del archivo.

Para este caso de uso exploraremos la data

A continuación procedemos con la verificación para el valor de K=8 en el algoritmo k-Nearest Neighbor.

Al compilar podemos efectuar los resultados observando lo siguiente.

Finalmente podemos hallar la eficiencia por la curva de roc que nos da un 0.6557.

--

--