BÚSQUEDA DE IMÁGENES BASADA EN CONTENIDO (CBIR)

La recuperación de imágenes basada en contenido, es decir, exclusivamente en las características propias de la imagen (del inglés Content-based Image Retrieval o CBIR) consiste en la obtención de imágenes en el que la consulta es otra imagen, en contraposición a la recuperación tradicional de imágenes donde la consulta se produce a partir de un texto.

Los sistemas CBIR se basan en características gráficas de las imágenes como el color, el brillo, las texturas y su distribución espacial, para reconocer patrones similares en las distintas imágenes. Mediante diferentes funciones, los sistemas CBIR extraen un gran número de características de cada imagen, entre otras, los histogramas de color y de grises, los filtros de Gabor, las seis características de textura de Tamura, la dimensión fractal, la Transformada Discreta del Coseno (DCT), la Transformada Discreta de Fourier (DFT), la transformada wavelet, la matriz de coocurrencia de niveles de gris (GLCM), características SIFT, etc. Además se utilizan características tanto globales (en toda la imagen) o locales (en fragmentos -patches- de la imagen).

Dichas características se pueden comparar para evaluar el parecido de dos imágenes, utilizando distintos sistemas de distancias, desde las más sencillas como puede ser la distancia Euclídea hasta otras más complejas como las distancias de Mahalanobis, Haussdorff y Minkowski.

Este demostrador ilustra una posible aplicación de la recuperación basada en contenido. En el escenario propuesto, el sistema intenta reconocer qué pintura famosa (título y autor) es la contenida en la fotografía enviada por el usuario, sacada por ejemplo en un museo con un teléfono móvil.

La base de datos utilizada contiene 4.514 imágenes de obras de pintores de diferentes épocas, pertenecientes a la colección CGFA (a octubre 2008), de Carol Gerten-Jackson, a quien agradecemos profundamente su trabajo de recopilación y difusión del patrimonio histórico-artístico de la humanidad.

Técnicamente, el demostrador se basa en un sistema CBIR de código libre llamado FIRE - Flexible Image Retrieval Engine, con diferentes adaptaciones y mejoras propias en la extracción de características de las imágenes y las medidas de distancia, y optimizado para la base de datos utilizada. El sistema acepta imágenes en formato JPG de hasta 250 KB de tamaño.

LA BÚSQUEDA DE IMÁGENES

Recuperación basada en descriptores

Los sistemas informatizados de gestión de archivos fotográficos plantean retos importantes para los buscadores convencionales. Estos sistemas, que pueden almacenar desde miles hasta millones de fotografías, asocian a cada imagen un registro con información diversa: autor, fecha, descripción, clasificación, etc. Esta información no suele ser amplia, debido a lo costoso que resulta documentar de forma completa las imágenes archivadas:

  • En el caso de proyectos de digitalización de archivos convencionales (diapositivas, papel, etc.), hay que hacer frente a un gran volumen de material que es preciso digitalizar y documentar en un breve plazo, a fin de que estén disponibles cuanto antes para los usuarios.

  • Cuando se dispone directamente de imágenes en formato digital, el bajo coste de este soporte hace que el volumen de material a documentar diariamente pueda ser más elevado.

La búsqueda en estos archivos fotográficos se puede hacer mediante complejos sistemas de selección basados en formularios cuando la documentación asociada a cada imagen es rica y está muy estructurada. Sin embargo, cuando la información se reduce a unos pocos campos (o a un simple texto) con información descriptiva, localizar las imágenes deseadas puede hacerse muy difícil:

  • Es improbable que la persona que busca una imagen lo haga empleando exactamente las palabras que usó quien la documentó al darla de alta en el archivo.

  • Los descriptores empleados (normalmente texto libre) están sujetos a erratas o convenciones cambiantes (abreviaturas, uso de acentuación o mayúsculas) y pueden depender mucho del estilo del documentalista o del tiempo disponible.

  • Estos errores pueden darse también a la hora de teclear la frase o las claves de búsqueda.

La tecnología de Daedalus permite solucionar estos problemas:

  • Indexando las imágenes a partir de los descriptores introducidos por los documentalistas mediante un proceso de análisis del texto. Este proceso permite indexar cualquier forma de verbos, nombres o adjetivos (independientemente de su tiempo, persona, género, número, etc.) mediante su forma principal (aquella por la que los buscaríamos en un diccionario: infinitivo de los verbos, o masculino o femenino singular en sustantivos y adjetivos).

  • Expandiendo las claves de consulta a través de sinónimos, a fin de encontrar más fotografías relacionadas con la consulta.

  • Corrigiendo las claves de búsqueda (en el caso de errores de tecleo), independizando la búsqueda del uso de acentos, mayúsculas, etc. y buscando términos próximos (similares).

Recuperación basada en contenido

La recuperación de imágenes basada en contenido, es decir, exclusivamente en las características propias de la imagen (del inglés Content-based Image Retrieval o CBIR) consiste en la obtención de imágenes en el que la consulta es otra imagen, en contraposición a la recuperación tradicional de imágenes donde la consulta se produce a partir de un texto.

Los sistemas CBIR se basan en características gráficas de las imágenes como el color, el brillo, las texturas y su distribución espacial, para reconocer patrones similares en las distintas imágenes.

Los sistemas CBIR solucionan algunos de los principales problemas de la recuperación tradicional de imágenes que son:

  • La existencia de grandes colecciones de imágenes no anotadas ni catalogadas de ninguna manera, sobre las que no se puede realizar una búsqueda tradicional sin un primer paso de indexación que conllevaría un gran esfuerzo y tiempo de trabajo.

  • La búsqueda de imágenes similares a otra dada sin saber exactamente qué representa la imagen original.

  • Se evitan los errores producidos por erratas en la indexación o en la realización de la pregunta que afectan negativamente a la hora de obtener las imágenes deseadas.

Sin embargo, estos sistemas también presentan algunos problemas propios como que el criterio de similitud entre dos imágenes puede ser bastante subjetivo (es decir, poco objetivo) y depende del uso final que se pretenda dar a las imágenes recuperadas. Por ejemplo, dependiendo la situación, puede interesar considerar similares dos imágenes del mismo objeto en distinto color o, por el contrario, considerar similares dos objetos distintos pero con forma y colores similares.

La tecnología de Daedalus permite solucionar estos problemas adaptando de forma personalizada el criterio de similitud entre dos imágenes para adecuarlo a la finalidad de cada aplicación y a la colección de imágenes disponible.

Búsqueda de imágenes basada en contenido (CBIR)


Pruébalo >>
Búsqueda de imágenes basada en contenido (CBIR) (última actualización: 16/05/2011)
© 2011 Daedalus-Data, Decisions and Language, S. A.

CBIR

¿No sabes el nombre o el autor de un cuadro? ¡Hazle una foto y búscalo!

Pruébalo >>