Registro de Imagem (Parte 2)— Interpolações e Formação de Imagem
Esse texto foi feito a partir da leitura do livro Análise de imagens digitais: princípios, algoritmos e aplicações, escrito por Hélio Pedrini. De forma geral, desejo falar sobre o capítulo 10, que trata sobre o tema Registro de Imagem, focando nas interpolações.
Na sessão passada comentamos sobre transformações, o que está disponível no seguinte link. Todavia, vale ressaltar que as interpolações também estão inseridas nas transformações geográficas, mas o material foi divido para o conteúdo não ficar demasiadamente grande.
Interpolação de Intensidade
Diferente das transformações, as interpolações trabalham com a atribuição de intensidade aos pontos que estão na nova grade da imagem. Essas atribuições são em valores de cores ou de níveis de cinza que podem ser encontrados por interpolação. Os quatro métodos mais utilizados para a atribuição de intensidade são:
- Vizinho mais próximo;
- Bilinear;
- Bicúbica;
- Polinômio de Lagrange.
Dos quais dissertaremos a fio.
Interpolação pelo Vizinho Mais Próximo
Como o nome já descreve, essa interpolação copia o valor de intensidade do pixel mais próximo da posição do pixel f(x’,y’).
Todavia, pode ser utilizado um limiar de para a escolha do vizinho, visto que os pontos de borda têm no mínimo três vizinhos e certos pixels têm até nove vizinhos. Supondo que temos um ponto com quatro vizinhos, Pedrini (2008) destaca o seguinte limiar:
Ou de forma simplificada através de:
f(x’,y’) = f(round(x), round(y))
Sendo round o número inteiro mais próximo do valor entre parenteses.
Esse método é extremamente ágil e usado por conta de sua simplicidade, todavia não é aconselhado para detalhes finos e preservação das bordas, visto que perde algumas dessas informações e serrilha as bordas.
Interpolação Bilinear
Muito próximo à interpolação pelo vizinho mais próximo, temos a interpolação bilinear, que utiliza de uma média ponderada da distância de quatro vizinhos mais próximo. O fato de utilizar média ponderada acaba evitando problemas com detalhes finos e serrilhamento das bordas, contudo, causa o borramento devido à suavização realizada pela média, o que é padrão.
A fórmula dá-se por:
Interpolação Bicúbica
A interpolação bicúbica, diferente das demais, utiliza um kernel de 4x4, ou seja, tem quatro vizinhos tanto em x quanto em y em relação ao ponto em questão. A vantagem dessa interpolação é que ela não causa borramento, perda de detalhe nas bordas ou serrilhamento, todavia tem um custo computacional maior devido a sua complexidade, que também é maior, o que pode ser visto em sua fórmula:
Em quê,
Interpolação por Polinômios de Lagrange
Uma alternativa para a interpolação bicúbica, a qual possui um tempo de execução menor é a intepolação por polinômio de lagrange, tendo um resultado muito semelhante ao da interpolação bicúbica. Sua fórmula se dá por:
sendo,
Formação Geométrica da Imagem
Quanto à formação geométrica da imagem, essa se dá pela construção de modelos matemáticos que mapeiam um relacionamento entre os pontos de objetos em uma cena e pixels na de uma imagem.
Sobre essse assunto, são pré requisitos para o entendimento, subtópicos como:
- Modelos de camêras;
- Visão estereoscópica;
- Calibração da camêra.
Modelos de câmeras
O uso das câmeras assim como seus campos vêm crescendo diariamente[4], dos quais podemos destacar áreas como vigilância, espaciais, robótica, fotogrametria e entre outras.
As câmeras são a fonte primária para a obtenção das imagens, visto que um modelo de câmera simula a captura de luz de uma cena no mundo real (espaço do objeto) em uma imagem bidimensional(espaço da imagem), tendo um centro geométrico que passa no denominado, eixo óptico. As projeções que são feitas através dos sistemas de lentes das câmeras são as imagens, as quais são localizadas no lado contrário ao sistema. Por fim, o orifício por onde há passagem de luz, é denominado abertura.
Dentre os dois modelos de câmeras mais comuns, tem-se o modelo de câmera estenopeica em que a luz passa através de um centro geométrico em uma determinada distância focal do sistema e é representado de modo invertido.
Esse modelo é também é muito conhecido por câmera pinhole, com base no inglês, pin-hole, “buraco de alfinete”, visto que essa câmera não necessita de uma lente, podendo ser representada em câmaras escuras.
Para evitar esse problema de inversão da imagem, o plano da imagem deve ser colocado na frente do centro de projeção. Como na seguinte imagem (figura 4).
Para permitir maior entrada de luz, a abertura deve ser maior, permitindo o funcionamento da câmera até mesmo em lugares mais escuros. Dessa forma, como alternativa para esses problemas, começaram a utilizar lentes diferentes para o foco na imagem.
Quando o eixo óptico faz um ângulo de noventa graus com o plano da imagem (é perpendicular) e a lente utilizada na abertura da câmera é fina, a lei de Gauss pode ser aplicada para a determinação das distâncias entre o ponto do objeto, plano da lente, imagem e distância focal. Essas distâncias podem ser representadas por:
Sendo,
f → Distância focal da lente;
z0 → Distância entre o ponto do objeto e o plano da lente;
zi → Distância entre a imagem e o plano da lente.
Vale ainda ressaltar que o uso de lentes finas é apropriado para distâncias focais que sejam grandes em relação à espessura da lente[2]. Já quanto às lentes mais espessas, normalmente apresentam duas superfícies com uma distância entre si (que é a espessura) e de forma convexa, isso supre necessidades que lentes finas ou o conjunto de lentes não conseguem suprir.
A ampliação de uma imagem se da por:
A continuação desse conteúdo foi separada em outro artigo, o qual será postado logo mais aqui na comunidade Data Hackers.
Referências
[1] KLEIN, Felix. his “erlanger programm”. History and Philosophy of Modern Mathematics; University of Minnesota Press: Minneapolis, MN, USA, v. 11, p. 145, 1988.
[2] PEDRINI, Hélio; SCHWARTZ, William Robson. Análise de imagens digitais: princípios, algoritmos e aplicações. Thomson Learning, 2008.