Clasificación automática de noticias con IPTC
Sistema de clasificación automática de noticias de prensa en la taxonomía IPTC.
Esta herramienta realiza la clasificación automática del texto proporcionado en castellano devolviendo una lista de las categorías IPTC más apropiados a la temática del texto, y el ámbito geográfico (solo para los textos en español) de la noticia diferenciando entre España y Mundo (Nacional/Internacional).
El International Press Telecommunication Council (IPTC) es una organización internacional que agrupa a las más destacadas agencias de noticias y empresas de comunicación y se centra en el desarrollo y publicación de estándares técnicos para mejorar el intercambio de noticias. Entre otras actividades, el IPTC proporciona numerosos esquemas de clasificación para estandarizar la codificación de los metadatos de los artículos. Se encarga de crear y mantener conjuntos de atributos de metadatos que pueden ser aplicados en textos, fotografías, ficheros de video y audio, etc. Estos atributos se conocen como NewsCodes y se encuentran divididos en cuatro grandes grupos: Descriptive NewsCodes, Administrative NewsCodes, Transmission NewsCodes y Exchange Format NewsCodes. Se trata de atributos que hacen referencia a las distintas características de los documentos (género, tema, formato, escena de una imagen, etc.) y se codifican bien de forma numérica o bien con texto.
En este caso se trabaja con los códigos descriptivos en sus tres niveles: Tema (Subject), Subtema (Subject Matter) y Detalle (Subject Detail), codificando con 8 dígitos en la forma TTSSSDDD (Tema, Subtema, Detalle). Este demostrador se basa en la versión IPTC de diciembre de 2010, con 1.388 categorías (ver listado).
Esta herramienta está basada en el componente STILUS Class, componente de la familia STILUS de productos de tecnología lingüística, que ofrece funcionalidad para la clasificación automática de textos, a partir de un modelo previamente entrenado. El algoritmo de clasificación es un modelo híbrido estadístico con filtrado basado en reglas, con los siguientes pasos:
Para el modelo IPTC, el entrenamiento estadístico del sistema se ha realizado con un corpus de más de 5 años de noticias de prensa, catalogadas manualmente. Además, para cada categoría se ha escrito una regla que incluye los términos obligatorios y eliminatorios, sumando casi 8.000 términos en total.
En el caso del modelo España/Mundo, al sólo existir dos categorías, el entrenamiento se ha realizado directamente con listas de lugares (pueblos, ciudades, divisiones administrativas -provincias, comunidades autónomas, regiones-, montañas, ríos, etc.) de España y del resto del mundo, con lo que no es necesario el filtrado con reglas.
Como resultado del proceso de clasificación, se presenta una lista de las categorías más representativas de acuerdo a cada modelo, indicando su código y título (código IPTC o España/Mundo), ordenados de mayor a menor relevancia.
Sistema de clasificación automática de noticias de prensa en la taxonomía IPTC.