Competencia de Etiquetado de Textos Automático

Datos Argentina
Datos Argentina
Published in
4 min readAug 27, 2018

--

Junto con la Fundación Sadosky y el Ministerio de Justicia y Derechos Humanos, lanzamos una competencia de aprendizaje automático para lograr un manejo más eficiente de textos legales. Acá te contamos en qué consiste esta competencia y cómo podés participar.

¿Qué es una competencia de aprendizaje automático?

Una competencia de aprendizaje automático (más conocido como machine learning) es un desafío en el que se les propone a los participantes desarrollar algoritmos que logren cumplir alguna tarea aprendiendo de muchos ejemplos. Quizá la competencia más famosa de este tipo sea el premio Netflix, que hace mas o menos diez años ofrecía un millón de dólares a quien pudiera mejorar su algoritmo de recomendación de películas.

Para entender mejor cómo funcionan estas competencias vamos a dar un ejemplo concreto. Supongamos que queremos desarrollar un sistema que sirva para el monitoreo de especies amenazadas en una dada región. La región cuenta con cámaras distribuidas en su territorio que nos brindan miles de imágenes diarias. Queremos identificar en cuáles de esas fotos se observa un animal de la especie buscada, por ejemplo, un Yaguareté. El desafío de aprendizaje automático consiste entonces en desarrollar un algoritmo que a partir de una foto, decida si ésta contiene o no un animal de esa especie. Para que puedan realizar la tarea, se les ofrece a los participantes de la competencia un conjunto de datos de entrenamiento; es decir una serie de ejemplos de los que el algoritmo pueda aprender. Los ejemplos serán fotos tomadas por el sistema de monitoreo que ya hayan sido etiquetadas por seres humanos con una etiqueta que indique si la foto contiene o no al animal buscado.

La particularidad de este tipo de desafíos es que la definición del objetivo a cumplir es muy precisa y su evaluación es cuantitativa. Es decir que hay una manera matemática de asignarle un puntaje a las soluciones propuestas por los participantes. A la forma de asignar puntajes se la suele llamar “métrica”. Una métrica sencilla consiste, por ejemplo, en contar la cantidad de aciertos que tiene el algoritmo propuesto (está métrica es sencilla pero no suele ser la mejor opción.).

Para que pueda realizarse esta puntuación, se entrega a los participantes, además del conjunto de datos de entrenamiento, un conjunto de datos de evaluación que contiene solamente fotos sin etiquetar. Los equipos usan sus algoritmos para intentar predecir la etiqueta correspondiente a cada foto y envían sus respuestas a los organizadores de la competencia. Los organizadores comparan las predicciones con las etiquetas reales de cada foto (provistas por etiquetadores humanos) y asignan el puntaje según la métrica. Este paso suele ser automático, es decir que es una computadora la que calcula automáticamente el puntaje y coloca a los participantes en una tabla de posiciones en el sitio web donde se aloja la competencia.

¿De qué trata la Competencia de Etiquetado de Textos Automático?

En este caso el desafío que proponemos consiste en desarrollar un algoritmo que pueda sugerir términos que indiquen las temáticas principales de un dado texto legal (por ejemplo una ley). Esto permitiría agilizar la tarea de indexado de las decenas de miles de textos legales contenidos en las bases de los sistemas de información jurídica (SAIJ / Infoleg) que aún se encuentran sin categorizar. Estas bases son usadas cotidianamente por abogados, estudiantes, docentes y periodistas. Un indizado eficiente posibilita un acceso mucho más sencillo y fluido a este valioso recurso.

Como datos de entrenamiento te ofrecemos unos 25000 textos ya etiquetados para que uses de ejemplo. También te damos un conjunto de etiquetas válidas que son términos definidos y curados por los especialistas de SAIJ. Solo se pueden asignar a un texto etiquetas dentro de ese conjunto.

El área dentro de ciencias de la computación que estudia las distintas maneras en que una computadora puede trabajar con el lenguaje humano se llama “Procesamiento de Lenguaje Natural”. Algunos de sus conceptos y herramientas pueden serte útiles para pensar soluciones al desafío.

¿Cómo puedo participar?

Participar es muy fácil. Tenés que entrar a este link, descargar los datos de entrenamiento, los de evaluación y seguir una guía sencilla para hacer tu primer envío. Una vez que lo hayas hecho vas a ver aparecer tu nombre en la tabla de posiciones que está a la derecha.

Pero, no sé nada de procesamiento de lenguaje natural…

Una competencia de este estilo es la mejor excusa para juntarse con amigos y empezar a aprender. Hay una gran cantidad de recursos en línea, libros, videos y tutoriales.

En la página de la competencia vas a encontrar un pequeño tutorial hecho en python con un ejemplo de una posible solución al desafío. Si querés leer una introducción a la idea de Espacio Semántico (una idea que puede serte útil para encarar el desafío) podés ver este otro post de nuestro equipo. También podés tomar ideas de nuestro repositorio en Github. El paquete textar es un pequeño motor para la búsqueda y clasificación de textos que usamos en Datos Argentina. Si querés leer sobre su funcionamiento y caso de uso, podés leer este post.

¡Éxito!

Si te sirvió este post, hacé clic en el ❤ acá abajo, así más personas se suman a #DatosArgentina.

--

--

Datos Argentina
Datos Argentina

Abrimos los datos. Abrimos el conocimiento. Y hacemos posible tus ganas de saber y crear.