EXTRACCIÓN DE ENTIDADES CON NOMBRE

La Extracción de Información (en inglés Information Extraction) es el campo del Procesamiento del Lenguaje Natural cuyo objetivo es extraer automáticamente conocimiento estructurado, habitualmente dependiente del contexto, a partir de información existente en texto no estructurado en lenguaje natural, con el fin de mejorar su explotación y reutilización. Normalmente, como primer paso del proceso de extracción está el reconocimiento de entidades con nombre (en inglés Named Entity Recognition, NER), también conocido como identificación de entidades o extracción de entidades, que consiste, como su propio nombre indica, en la detección y clasificación de los elementos del texto en categorías predefinidas, como nombres de personas, organizaciones, lugares, expresiones numéricas, de tiempo, etc., que aparecen mencionadas en un texto escrito en un determinado idioma. Esta actividad también se suele denominar como etiquetado semántico.

La dificultad de la detección estriba en que dichas entidades pueden aparecer en diferentes formas: por ejemplo, Antonio Banderas => Banderas, A. Banderas, José Antonio Domínguez Banderas, etc.; Banco Santander Central Hispano => Banco Santander, Santander, BSCH, etc.

Además, una vez detectadas, surge el problema de la ambigüedad para su clasificación, ya sea entre diferentes categorías o incluso dentro de la misma categoría: por ejemplo, Sevilla puede ser la ciudad, el equipo de fútbol, el cantante Sevilla de los Mojinos Escozíos, etc.

La aproximación ampliamente adoptada está basada en conocimiento, es decir, utiliza diccionarios y conjuntos de reglas, normalmente desarrollados manualmente, para realizar la detección y la clasificación. Básicamente, las reglas aplican patrones de expresiones regulares a las entidades del diccionario para generar las diferentes variantes posibles en que puede aparecer una entidad, como por ejemplo:

  • (N)ombre (A)pellido => Nombre / Apellido / N. Apellido / Nombre A. / N. A.
    Fernando Alonso => Fernando / Alonso / F. Alonso / Fernando A. / F. A.
  • (A)aaa (de|del|la|los|las)? (B)bbb (de|del|la|los|las)? (C)cc (de|del|la|los|las)? (D)ddd => ABCD
    Organización de Países Exportadores de Petróleo => OPEP

Además nuestra tecnología permite el reconocimiento avanzado de entidades desconocidas que podrían ser entidades con nombre, que el sistema propone como sugerencias de posibles entidades: por ejemplo, D. Aaaaa Bbbbb de Ccccc puede ser un nombre de persona, Banco Ddddd una organización, paseo de Eeeee un lugar, etc.

La principal desventaja de este enfoque es el gran coste de desarrollo y mantenimiento de los recursos necesarios y el hecho de que estos recursos son altamente dependientes del dominio y del idioma. Por esto han surgido otras aproximaciones basadas en aprendizaje automático, que hacen uso de colecciones de texto etiquetado manualmente como entrenamiento para generar automáticamente estos recursos y construir modelos de detección y clasificación.

Este demostrador está basado en STILUS NER, componente de la familia STILUS de productos de tecnología lingüística, que ofrece funcionalidad para el etiquetado semántico de textos a partir de diccionarios de entidades con nombre. El proceso es el siguiente:

  1. Se realiza la segmentación del texto en unidades (palabras o entidades multipalabra).
  2. Se marcan como entidades candidatas aquellas unidades que aparezcan en alguno de los diccionarios de entidades del sistema, bien tal cual o como una variante.
  3. Si para una forma se tiene más de una entidad candidata, se realiza una desambiguación basada en heurísticos, como la frecuencia de aparición en el texto de la entidad (Castro se marcará como Fidel Castro si en el texto aparece este nombre y no Raúl Castro, la presencia de marcadores discursivos (por ejemplo, a+LOCATION y artículo+ORGANIZATION, a Madrid se desambigua como la ciudad y el Madrid como el equipo de fútbol), desambiguación geográfica por contexto (según las referencias geográficas que aparezcan), etc.

Como resultado del proceso se tienen las entidades que aparecen en la noticia así como su tipo y posición en el texto.

En este demostrador se utiliza el diccionario de entidades de STILUS Sem (a mayo de 2009), que contiene 93.483 entidades: 35.427 personajes, 15.111 organizaciones y 42.945 lugares.

Extracción de Entidades con Nombre


Pruébalo >>
Extracción de Entidades con Nombre (última actualización: 13/12/2011)
© 2011 Daedalus-Data, Decisions and Language, S. A.

NER

Extrae las entidades con nombre (personas, empresas, organismos, lugares, eventos destacados...) que aparecen en el texto.

Pruébalo >>