Algoritmos de anotação automática de imagens são formalmente descritos como: dado uma imagem I com características visuais V I = { v 1 , v 2 ,..., v n } e um conjunto de palavras-chave W I = { w 1 , w 2 ,..., w m }, encontre um subconjunto W p ⊂ W I , que descreve apropriadamente a imagem I . Historicamente, estas anotações eram informadas por bibliotecários para cada imagem separadamente, um processo exaustivo e caro nos tempos atuais [Lavrenko et al.2003].
A área de Visão Computacional (VC) tem se esforçado em extrair o conjunto de características necessárias para representar uma imagem isolada. A similaridade de saliências entre várias imagens previamente anotadas permite identificar palavras-chave compartilhadas e, através da freqüência em que ocorrem, associar palavras-chaves diretamente às saliências. Apesar do avanço da área, as anotações manuais ainda são exigidas e os algoritmos dependem diretamente da qualidade destas anotações. Vale lembrar que o propósito dos algoritmos de visão computacional são diferentes dos de busca e anotação de imagens [Smeulders et al.2000]. Uma segmentação completa da imagem em objetos, como quer a VC, pode não melhorar a nomeação de palavras-chave relevantes.
Motivadas pelos serviços de busca, técnicas de recuperação de informações (RI) são utilizadas para refinar o conjunto de palavras-chave previamente identificado pela VC, acrescentando um índice de relevância à palavra-chave a fim de organizar os resultados de uma busca. Recentemente, técnicas de processamento de linguagem natural (PLN) estão sendo utilizadas para remover a classificação manual, substituindo-a por uma compilação do texto associado a imagem. As imagens isoladas possuem apenas informação léxica e sintática (posição de objetos, cores, freqüência, etc), enquanto que imagens associadas a um texto possuem informação temporal, semântica ou contextual. [Feng and Lapata2008].
Neste artigo, descrevo o modelo probabilista de Feng e Lapata [Feng and Lapata2008] que, através de técnicas conhecidas de VC e PLN, cria um estimador para as palavras-chave mais relevantes de uma imagem. O modelo assume apenas que há uma descrição da imagem e que pode haver um documento associado a imagem. Tanto a descrição da imagem quanto o texto possuem muito ruído. A validação do modelo foi feita utilizando um conjunto de notícias extraídas do site BBC News. Os resultados indicam que o modelo a ser descrito é, em média, 50% superior em todos as comparações com o estado da arte. Você pode acompanhar o artigo pela apresentação abaixo.
Até onde conhecemos, os trabalhos da área se classificam entre modelos de classificação, de co-ocorrência, de tradução, e de relevância. Vailaya et al. [Vailaya et al.2001] treinou classificadores Bayesianos para alguns contextos de alto nível a fim de categorizar as imagens em uma árvore semântica. As 6931 fotografias foram classificadas em 3 níveis: (i) em cenas internas e externas; (ii) as externas são subclassificadas em cidade e paisagem; as paisagens ainda podem ser (iii) pôr do sol, floresta ou montanha. O sistema alcançou 90,5% de acurácia no primeiro nível, 95% para o segundo e 96% para o terceiro. Smeulders [Smeulders et al.2000] fez um bom levantamento com mais de 200 referências sobre este tema.
O trabalho de Mori el al. [Mori et al.1999] gera anotações baseado na co-ocorrência de palavras a partir de uma segmentação regular da imagem. Duygulu et al. [Duygulu et al.2002] continuou o trabalho utilizando o normalized cuts [Shi and Malik1997], um método de segmentação que modela uma imagem como um grafo unidirecional, onde uma aresta é formada entre cada par de pixels e é associado um peso proporcional a similaridade destes pixels. Arestas similares transformam-se em um segmento. Cada segmento recebe uma assinatura baseado em suas características e esta assinatura é procurada em todas as outras imagens do banco de dados. Através de métodos probabilistas o modelo relaciona automaticamente palavras-chave e assinaturas.
Em uma linha diferente de trabalho, Jeon et al. [Jeon et al.2003] faz uma analogia à associação de palavras-chave em regiões de uma imagem. Segundo ele, o problema é muito semelhante ao problema de busca de textos multi-língua. Seu modelo de relevância entre línguas (CMRM) utiliza técnicas de tradução automática para anotar as imagens e organizá-las por relevância.
Lavrenko et al. [Lavrenko et al.2003] divide uma imagem em regiões e encontra um conjunto de características relevantes para cada região. Se difere dos anteriores por possuir uma parte contínua, por não fazer assunções sobre a estrutura topológica e por possibilitar nível de detalhe no processamento das regiões. Feng et al. [Feng et al.2004] continuou o trabalho aplicando uma segmentação regular sobre as imagens e considerando também a posição relativa entre as regiões. A segmentação regular, além de aumentar a performance do método, simplificou o modelo pois o número de segmentos é sempre o mesmo.
O modelo de Lavrenko et al. e sua continuação por Feng et al. [Feng et al.2004] é muito similar ao demonstrado neste artigo. O que os difere é a inclusão de uma probabilidade para anotar palavras-chave que não estão na descrição da imagem, mas sim em um documento relacionado a ela.
O método desenvolvido por Feng e Lapata [Feng and Lapata2008] é uma extensão ao modelo de anotações de relevância contínua de Lavrenko [Lavrenko et al.2003], onde as imagens isoladas anotadas manualmente foram substituídas por imagens em páginas de notícias que estão disponíveis livremente e em grande quantidade na internet. Os captions HTML das imagens sugerem as palavras-chave iniciais, dispensando a etapa de anotar imagens manualmente para treinamento do sistema. Feng e Lapata utilizam algoritmos de VC e PLN para melhorar e reorganizar estas palavras-chave.
Para ser válido, o modelo faz algumas assunções:
O modelo estima para uma imagem não conhecida I , a probabilidade das palavras-chave W I e das regiões V I estarem relacionadas através da equação:
onde N D é o número de tuplas no banco. Para estimar a probabilidade das regiões da imagem V I ocorrerem dado s tem-se um produtório de cada região v r da imagem I ocorrer dado que s ocorra.
onde N V I é o número de regiões na imagem I . Lavrenko et al. [Lavrenko et al.2003] assume uma distribuição gaussiana para as regiões:
onde n s v o número de regiões na imagem s , v i a assinatura para a região i em s , k a dimensão da assinatura e | ∑ | a matriz de covariância. Para simplificar, | ∑ | é assumida uma matriz diagonal (não há covariância) | ∑ | = β M , onde M é a matriz de identidade e β é um valor escalar otimizado para o conjunto de imagens.
Ao contrário de Lavrenko et al., Feng e Lapata estimaram a probabilidade das palavras W ocorrerem dado P ( W I | s ) através de uma binomial múltipla
onde P ( w | s ) denota a probabilidade do w - ésimo componente da ocorrer dado s . Para estimá-lo pode-se incluir o documento como
onde α é um parâmetro de suavização configurado durante o desenvolvimento, s a é uma anotação de s e s d é o documento correspondente. Esta equação suaviza a influência nas palavras-chave anotadas e permite corrigir o efeito negativo do ruído no banco de imagens. Como as imagens estão implicitamente anotadas com a tag caption do HTML, não há garantias que todas as palavras são apropriadas. Ao considerar P est ( w | s d ) é possível anotar uma imagem com uma palavra que aparece no documento mas não está incluída no texto.
Usando probabilidade frequentista, pode-se estimar P est ( w | s a )
onde µ é uma constante de suavização, b w , s a é 1 se w aparece em s a e 0 se w não aparece em s a e N w é um número de imagens que possuem w em sua anotação. O mesmo é feito com P est ( w | s d )
onde N w , s d é o número de vezes que w ocorre em s d e N s d é o número total de palavras no documento.
O modelo foi treinado com 2881 documentos com imagem retirados do site da BBC News. Primeiramente, um part of speech tagger classificou as palavras e um lemmatizer as normalizou. Os autores removeram todas as palavras exceto substantivos, verbos e adjetivos. O vocabulário total ficou em 8309 palavras.
Para segmentar as imagens, os autores utilizaram um grid regular 6 x 5 a fim de evitar erros dos algoritmos de segmentação, simplificar a implementação e a estimativa de parâmetros. 46 características foram utilizadas para descrever cada região: média e desvio padrão dos componentes RGB, LUV, LAB; saída de uma transformacão DCT, saída de um Gabor filtering ; saída de um algoritmo de deteccão de borda, e a divisão entre o número de pixels de borda e não borda de cada região.
O modelo desenvolvido tem uma precisão - número de anotações corretas pelo número total - de 14% se forem consideradas apenas as 10 palavras-chave com maior probabilidade e 9.72% com as melhores 20 palavras-chave. Avaliando o número de palavras-chave identificadas corretamente pelo número de palavras-chave identificadas manualmente para a mesma imagem, o modelo tem 27.95% com as melhores 10 palavras-chave e 36.77%. Em termos de comparacao, este modelo tem um ganho de 50% comparado com o método de Lavrenko et al [Lavrenko et al.2003] em precisão e recall , independente do número de palavras-chave utilizadas para a anotação.
Ainda há um amplo campo de pesquisa em classificação e anotação de imagens quando estas possuem um texto associado. O ruído presente no vocabulário é muito grande e as técnicas ainda se baseiam em palavras-chave isoladas, sem contexto semântico, temporal ou estrutura hierárquica. A informação contida no texto é aproveitada somente em termos sintáticos. Palavras que não são substantivos, verbos e advérbios são sumariamente removidas do modelo. Se assumirmos que texto de busca possui informação semântica, os algoritmos atuais não poderiam utilizar esta informação.
A etapa de segmentação e os algoritmos de identificação de características nas imagens, em todos os artigos lidos, podem ser melhorados. Tanto o grid regular quanto o normalized cuts tem suas limitações e a ambiguidade é grande. Algoritmos como o SIFT [Lowe2004], por exemplo, podem identificar características em imagem de uma maneira que o mesmo ponto característico pode ser escalado ou rotacionado que permanecerá com a mesma assinatura. Apesar de apresentar problemas com texturas, o método é muito mais preciso que as informações de cor utilizadas neste artigo.
Os modelos aqui descritos poderiam obter melhores resultados com o uso da wordnet para trabalhar com sinônimos, super-classes e especializações, gerando ao invés de palavras-chave isoladas, uma hierarquia com índice de relevância. Os algoritmos de categorização de imagens da VC também poderiam se beneficiar da wordnet, mesmo processando imagens isoladas.
Nenhum artigo relatou o uso de tradutores automáticos para criar palavras-chave em outras línguas e facilitar a pesquisa multi-língua. Na internet é possível que a mesma imagem seja utilizada em várias páginas diferentes. Seria interessante, então, verificar se há melhoria na anotação automática usando várias fontes para o texto e para o caption das palavras.
Posted in Dec 18, 2008 by Vitor Pamplona - Edit - History
Muito interessante seu blog. Parabéns.
http://demoniodemaxwell.wordpress.com /
- - Demônio de Maxwell
- - Posted in Dec 20, 2008 by 164.41.201.81
Copyright © 2006-2011 Vitor Pamplona | All Rights Reserved
Powered by Priki. Que dia é Páscoa? Need a TO-DO list?
- Login