Por que centralizamos o nosso espaço de dados?

Ricardo Junior
ricardojr37
Published in
3 min readJan 19, 2021

As grandes descobertas dos cientistas de dados estão em uma boa análise do espaço de dados. Nesta etapa, fazemos o pré-processamento dos nossos dados, momento onde queremos preparar, organizar e estruturar o nosso dataset. Assim, a estatística auxilia muito nessa etapa por meio de gráficos e medidas que representam e caracterizam o conjunto de dados. Uma das medidas de tendência central mais famosas é a MÉDIA. Medida que é determinada pelo somatório dos números dados pela quantidade de números somados

Mas como podemos usar essa medida na prática?!

Eu usei a linguagem R para me auxiliar na explicação. Eu criei um dataset simples, contendo apenas dois atributos, estatística e física, representando notas de alunos, com o número de amostras igual a 100 e uma correlação de 0.9.

data = as.data.frame(rmvnorm(100, rho = 0.9) * 5+70)
colnames(data) = c(‘Estatística’,’Física’)
plot(data)

Plot 1

Pelo plot 1, podemos ver o comportamento dos nossos dados. Desse modo, para começar a explorar os dados eu tirei a média das nossas colunas e subtrai de cada amostra, assim, gerando o plot 2. Além disso, eu evidenciei o centro do nosso espaço.

scaled = apply(data, 2, function(x){x -mean(x)})
plot(scaled)
abline(h=0, col = ‘blue’)
abline(v=0, col = ‘red’)

Plot 2

No plot 2, temos os nossos dados centralizados, mas o que isso quer nos dizer?! Muita coisa!

Plot 3

No plot 3, separei 2 pontos e fiz o produto interno entre eles.

scaled[21,]%*%scaled[66,]
output: -151.397

O que esse valor quer dizer? Relembrando os conceitos de álgebra linear, como é um valor negativo, temos que esses dois pontos formam um ângulo obtuso, em relação ao centro do espaço, há uma abertura maior que 90° e menor que 180°. Eles possuem o sentido oposto e quase a mesma direção. Se fizemos esse mesmo calculo com os dados descentralizados obtemos:

as.numeric(data[21,])%*%as.numeric(data[66,])
output: 10043.41

Obtemos um valor positivo, existe uma similaridade entre os pontos, porque todos os dados estão no primeiro quadrante dimensional, pois o centro do espaço é a nota 0 de física e a 0 de estatística. Assim, sem centralizar o espaço, não conseguimos medir variações de similaridade por produto interno entre os pontos.

Conclusão

Quando trabalhamos como os dados centralizados, nós podemos ver coisas que não estavam tão explicitas, por meio de algumas operações de álgebra linear. Hoje, eu trouxe uma de muitas aplicações, quando temos dados centralizados, podemos deixar claro a similaridade entre os nossos pontos. Espero que tenham gostado :)

--

--

Ricardo Junior
ricardojr37

Data Engineer - Sênior | Ml Engineer | Python | AWS | Azure | LinkedIn: shorturl.at/GPY35