Registro de Imagem (Parte 1) — Transformações

Lucas de Brito Silva
Data Hackers
Published in
7 min readJan 21, 2021

Esse texto foi feito a partir da leitura do livro Análise de imagens digitais: princípios, algoritmos e aplicações, escrito por Hélio Pedrini. De forma geral, desejo falar sobre o capítulo 10, que trata sobre o tema Registro de Imagem, focando nas transformadas.

Transformadas Geométricas

As transformadas geométricas consistem na aplicação de funções de mapeamento e atribuição de valores dos píxeis de uma imagem partindo de uma imagem original, sendo assim composto por uma transformação espacial e uma interpolação de intensidade. As aplicações são extremamente exploradas em campos como o de sensoriamento remoto e área médica, ressaltando que o uso de determinada técnica é oriundo da necessidade.

Figura 1: exemplo de uso de transformadas geométricas. Disponível em: https://www.santiagoecintra.com.br/blog/geo-tecnologias/o-que-e-um-ortomosaico. Acesso em nov. 2020.

Dessa forma, dentre as técnicas que se encontram em transformações geométricas, pode-se citar:

  • Transformações espaciais;
  • Transformações afins;
  • Transformações polinomiais;
  • Transformações projetivas;

As quais serão detalhadas a seguir.

Transformação Espacial

Transformação espacial está relacionada com o mapeamento de um determinado píxel de modo que sua correspondência seja encontrada em uma segunda imagem. O contratempo é que algumas transformações (rotação e escala, por exemplo) às vezes mapeiam coordenadas que não são inteiras. As transformações espaciais podem ser divididas entre mapeamento direto e mapeamento indireto, em que, respectivamente, são representadas pelas seguintes fórmulas:

P’ = TP

P = T-1P’

Onde,

P→ Ponto aleatório na imagem;

T→ Transformação aplicada.

O entendimento ganha clareza ao visualizar a figura 2.

Figura 2: transformação espacial para correspondência de pixels entre duas imagens f e f’[2].

Ambos os mapeamentos possuem falhas. Por exemplo, o método de mapeamento direto tem em sua imagem resultante vários pontos em que sua origem é de um único ponto na imagem original. Já o mapeamento indireto, não sofre desse problema, pois cada ponto tem sua origem, mas sofre de um problema em que muito dos píxeis transformados podem apontar para um único píxel de origem, trazendo falhas à imagem resultante.

Aspectos de uma transformação invariante

Uma transformação passa a ser determinada como invariante desde 1872, quando o Alemão Felix Klein determinou que a geometria de estrutura de um espaço deveria se estender para o grupo que mantinha essas estruturas invariantes[1]. Assim, uma geometria é transformação é invariante quando não altera comprimento, ângulos, áreas e perpendicularidade, ou seja, as medidas são preservadas.

Dessa forma, os grupos de transformações foram divididos em três, sendo eles:

  • Grupo Euclidiano (Movimentos de translação e rotação);
  • Grupo Euclidiano Estendido (Movimentos rígidos e que matem a escala);
  • Grupo Afim (Movimentos lineares e não singulares e de translação);
  • Grupo Projetivo (Projeta o plano de uma determinada imagem).
Tabela 1: características dos grupos euclidiano, de similaridade, afim e projetivos. [2]

Transformações Afins

Transformações afins são basicamente, transformações de rotação, translação, escala e cisalhamento, as quais não preservam comprimentos, volumes, áreas, ângulos ou perpendicularidades, mas preserva a razão entre dois objetos ou sólidos desses fatores supracitados.

Todas as transformações que são do grupo “afins”, podem ser aplicadas através da forma matricial, com o uso de coordenadas homogêneas, tendo como base:

A começar pela mudança de escala, que pode ser representada pela multiplicação de fatores Sx, Sy e Sz por X, Y e Z, resultando em X’, Y’ e Z’, respectivamente, que forma o novo ponto. Ou pela forma matricial:

A translação é semelhante à mudança de escala, todavia em vez de ser fruto de um produto, o ponto é resultante é fruto de uma soma e pode ser representado, matricialmente, da seguinte maneira:

Em que, os parâmetros tx, ty e tz são parâmetros passados para a translação.

No que lhe concerne, e diferente das transformações citadas, a rotação pode ser realizada de forma tridimensional em três ângulos, logo, em três eixos. Destarte a sua representação matricial consiste em três formas, sendo que quando no eixo x, com o auxílio do 𝛼, é retratada da seguinte maneira:

Quando no eixo y, a rotação acontece com o angulo de 𝛽, sendo simbolizada pela matriz pospositiva:

Semelhante aos anteriores, ocorre com o eixo z e o ângulo 𝛾, reproduzido matricialmente por:

A transformação de reflexão, assim como a rotação, pode ocorrer em três planos, sendo yz, xz e xy, dessa forma, suas matrizes também diferem e podem ser retratadas da seguinte maneira.

Por fim, a transformação de cisalhamento trabalha com uma função de direcionamento, alterando as coordenadas dos píxeis, sendo possível trabalhar com mais de uma direção de um eixo.

Quando se trata de um cisalhamento nos eixos yz o eixo x mantêm-se constante, sendo que todas as transformações podem ser configuradas matricialmente.

Transformação Polinomial

Transformação polinomial é composta pela somatória dos polinômios utilizados na formação das dimensões x, y e z. Normalmente as transformações polinomiais são utilizadas de modo a compensar distorções e ângulos deformados que normalmente são fruto de falhas em equipamentos de captura.

Partindo disso, têm-se algumas distorções consideradas comuns, sendo elas a de almofada e a de barril (figura 3), que podem ser resolvidas a partir da transformada polinomial. Essas distorções são fruto de distorções radiais simétricas, que perde a perpendicularidade das linhas e colunas bem como as distorções de descentralização, que desloca o centro da lente em relação ao eixo óptico[2].

Figura 3: exemplos de distorções geométricas.[2]

Transformações Projetivas

Transformações projetivas estão ligadas à representação do mundo em que vivemos em um plano de imagem, ou seja, a representação de pontos de uma cena em um plano de imagem, sendo que as transformações mais populares são as ortográficas e as perspectivas.

Projeções Ortográficas

A projeção ortográfica projeta por linhas paralelas uma imagem que se relaciona aos pontos tridimensionais.

O plano pode ser formado no 0 do eixo x, y ou z, de modo que a câmera modela a captura da cena em um centro da projeção. Quando isso acontece, o ponto da projeção (P’) é semelhante ao ponto real (P), pois as linhas tornam-se paralelas ao plano da imagem.

Exemplificado, com a projeção no plano z=0,tem-se o ponto P(X,Y,Z) expresso por:

X’ = X

Y’ = Y

Z = 0

Figura 4: projeção ortográfica.[2]

Das áreas que fazem bastante uso dessa transformação, destaca-se a engenharia e a arquitetura na representação, com profundidade, de imagens proporcionais ao objeto, como a figura a seguir (figura 5).

Figura 5: exemplo de projeção ortográfica. Disponível em: <http://adenilsongiovanini.com.br/blog/projecao-cilindrica/projecao-ortografica/>. Acesso em nov. 2020.

Projeções Perspectivas

Projeções perspectivas são similares às projeções ortográficas, todavia com algumas peculiaridades, das quais se destaca a redução dos objetos, acompanhado do aumento da distância do centro da projeção, o que se da pela percepção da visão humana.

Dentre os atributos dos quais se encaixa a projeção perspectiva (tabela 1) a única invariância é em relação à razão cruzada.

Dessa forma, supondo 4 pontos colineares (que pertencem a uma mesma reta) P1, P2, P3 e P4, assim como uma distância euclidiana di,j entre os mesmos, a razão cruzada é definida por:

Ou seja, a razão entre essas razões é um valor que é invariante em relação à projeção perspectiva.

Já quanto à representação da projeção perspectiva, essa pode ser dada por:

Figura 6: projeção perspectiva.[2]

Em que o centro da câmera é colocado de frente ao centro do plano da imagem (que está na origem) em uma distância focal da câmera f que é menor que a profundidade Z do ponto. O que pode ser representado por:

X’ = fX/Z-f

Y’ = fY/Z-f

Além disso, vale destacar que a imagem é representada no plano de modo invertido, algo semelhante ao que ocorre no nosso cristalino. Para evitar esse viés é necessário assumir que o plano da imagem esteja na frente do centro de projeção[2], colocando o centro da lente na origem do sistema e o plano a frente, o que, na prática, é como se o objeto fosse aproximado, mantendo a sua proporção, como a figura abaixo (figura 7).

Figura 7: exemplo de projeção perspectiva sem inversão. Disponível em: <https://www.inf.pucrs.br/~pinho/CG/Aulas/Vis3d/Vis3d.htm>. Acesso em nov. 2020.

A continuação desse conteúdo foi separada em outro artigo, o qual encontra-se disponível no link abaixo.

Referências

[1] KLEIN, Felix. his “erlanger programm”. History and Philosophy of Modern Mathematics; University of Minnesota Press: Minneapolis, MN, USA, v. 11, p. 145, 1988.

[2] PEDRINI, Hélio; SCHWARTZ, William Robson. Análise de imagens digitais: princípios, algoritmos e aplicações. Thomson Learning, 2008.

--

--