CLASIFICACIÓN AUTOMÁTICA DE NOTICIAS CON IPTC

Esta herramienta realiza la clasificación automática del texto proporcionado en castellano devolviendo una lista de las categorías IPTC más apropiados a la temática del texto, y el ámbito geográfico (solo para los textos en español) de la noticia diferenciando entre España y Mundo (Nacional/Internacional).

El International Press Telecommunication Council (IPTC) es una organización internacional que agrupa a las más destacadas agencias de noticias y empresas de comunicación y se centra en el desarrollo y publicación de estándares técnicos para mejorar el intercambio de noticias. Entre otras actividades, el IPTC proporciona numerosos esquemas de clasificación para estandarizar la codificación de los metadatos de los artículos. Se encarga de crear y mantener conjuntos de atributos de metadatos que pueden ser aplicados en textos, fotografías, ficheros de video y audio, etc. Estos atributos se conocen como NewsCodes y se encuentran divididos en cuatro grandes grupos: Descriptive NewsCodes, Administrative NewsCodes, Transmission NewsCodes y Exchange Format NewsCodes. Se trata de atributos que hacen referencia a las distintas características de los documentos (género, tema, formato, escena de una imagen, etc.) y se codifican bien de forma numérica o bien con texto.

En este caso se trabaja con los códigos descriptivos en sus tres niveles: Tema (Subject), Subtema (Subject Matter) y Detalle (Subject Detail), codificando con 8 dígitos en la forma TTSSSDDD (Tema, Subtema, Detalle). Este demostrador se basa en la versión IPTC de diciembre de 2010, con 1.388 categorías (ver listado).

Esta herramienta está basada en el componente STILUS Class, componente de la familia STILUS de productos de tecnología lingüística, que ofrece funcionalidad para la clasificación automática de textos, a partir de un modelo previamente entrenado. El algoritmo de clasificación es un modelo híbrido estadístico con filtrado basado en reglas, con los siguientes pasos:

  • Paso I: selección de las categorías posibles mediante un algoritmo estadístico basado en la comparación del texto a clasificar con cada categoría, mediante el algoritmo kNN (k-Vecinos más cercanos)
  • Paso II: filtrado (aceptar/desechar) categorías mediante un sistema de reglas basado en una lista de términos (multipalabra) obligatorios (que deben aparecer en el texto) y términos eliminatorios (que no deben aparecer)
  • Paso III: ordenación de las categorías según relevancia descendiente

Para el modelo IPTC, el entrenamiento estadístico del sistema se ha realizado con un corpus de más de 5 años de noticias de prensa, catalogadas manualmente. Además, para cada categoría se ha escrito una regla que incluye los términos obligatorios y eliminatorios, sumando casi 8.000 términos en total.

En el caso del modelo España/Mundo, al sólo existir dos categorías, el entrenamiento se ha realizado directamente con listas de lugares (pueblos, ciudades, divisiones administrativas -provincias, comunidades autónomas, regiones-, montañas, ríos, etc.) de España y del resto del mundo, con lo que no es necesario el filtrado con reglas.

Como resultado del proceso de clasificación, se presenta una lista de las categorías más representativas de acuerdo a cada modelo, indicando su código y título (código IPTC o España/Mundo), ordenados de mayor a menor relevancia.

Clasificación automática de noticias con IPTC


Pruébalo >>
Clasificación automática de noticias con IPTC (última actualización: 31/01/2012)
© 2012 Daedalus-Data, Decisions and Language, S. A.

Clasificación automática de noticias con IPTC

Sistema de clasificación automática de noticias de prensa en la taxonomía IPTC.

Pruébalo >>