IBM SPSS: Medidas e Estatísticas

Rodrigo Macedo
5 min readOct 14, 2018

--

Fonte: https://windowsremotedesktopcom.wordpress.com/2016/01/08/ibm-spss-statistics-base-on-apponfly-2/

Nos últimos anos, é notável o tremendo crescimento em áreas relacionadas a de análise de dados. Muito desse crescimento está relacionado a softwares (seja pago ou open source) utilizados para realizar tarefas relacionados a esta temática. Nesse artigo, irei apresentar alguns tópicos essenciais da ferramenta IBM SPSS que pode ser usada para diversos fins: análise estatística de dados, modelagem preditiva, dentre outros. Nesse artigo, porém, vamos concentrar nos fundamentos da ferramenta, e realizarmos alguns experimentos em estatística descritiva. Não vamos abordar a instalação da ferramenta neste tópico. Caso você queira fazer o download da versão trial, acesse este link. Após a instalação da ferramenta, você terá uma tela semelhante a esta:

Tela inicial — IBM SPSS.

Diferente de outras ferramentas estatísticas, o IBM SPSS se consagra pela sua facilidade na utilização de inúmeras funções estatístiticas, e tudo isso, através de interface gráfica. Essa tela acima, representa a visualização de variáveis no IBM SPSS. É necessário que nesta tela sejam configuradas devidamente todas as variáveis de um dataset, para que a ferramenta consiga apresentar insights relacionado aos dados. E dentre todas as colunas dessa tela acima, a mais importante para o IBM SPSS é a de Medida. Por padrão, o IBM SPSS trabalha com três medidas, são elas: Nominal, Ordinal e Escala. Vamos entender cada uma delas. A medida nominal, é utilizada para representar categorias sem um ranqueamento intrínseco. Em relação ao nível de categorias, ela pode ser considerada dicotômica (apenas duas categorias), ou politômica (mais de duas categorias). Veja a imagem a seguir:

Medida Nominal — IBM SPSS.

Note que em cada uma das categorias, utilizamos um exemplo. Para o caso de sexo, por assumir apenas dois valores, ela é classificada como dicotômica. Já o exemplo de procedência, que assume mais de duas categorias, é classificada como politômica. O fato de utilizarmos os números como coluna para os valores, não implica em ranqueamento, na verdade, utilizamos assim, para facilitar a implementação de medidas no IBM SPSS, como veremos um pouco mais adiante. A medida ordinal também é apresentada como categórica, a diferença é que suas categorias, apresentam um ranqueamento intrínseco. Veja o exemplo a seguir:

Medida Ordinal — IBM SPSS.

Podemos utilizar como medida ordinal o exemplo de nível de instrução. Diferentemente da medida nominal, perceba que aqui, temos um ranqueamento intrínseco. Em regra, não há como uma pessoa chegar ao ensino médio, sem ter terminado o ensino fundamental, ou então chegar ao ensino superior, sem ter terminado o ensino médio. Nesse caso, tratamos esse exemplo como categórica do tipo ordinal pela presença do ranqueamento intrínseco. Por último, a medida escala, que é a mais simples. Também chamada de variável contínua, pode ser utilizada para representar o saldo bancário, idade cronológica, etc. Para exemplificarmos tudo que explicamos acima, vamos aplicar isso no IBM SPSS:

Visualização de variável — IBM SPSS.

Note na imagem acima, que fizemos a implementação, conforme o exemplo que demos de cada uma das medidas. Mapeamos as medidas de cada coluna do nosso exemplo. Essa configuração é essencial, pois caso você não faça, terá problemas na análise de seus dados. Na coluna de Valores, informamos ao IBM SPSS o mapeamento do nosso exemplo. Por exemplo para sexo: 0 — Masculino e 1 — Feminino. A coluna Omisso, não configuramos nada, pois queremos considerar todas as categorias, em uma futura análise estatística. Outra coluna importante também é Papel, ela deve ser bem configurada quando for trabalhar com modelagem preditiva, em caso de uma variável ser endógena ou exógena, isso pode ser tema de um outro artigo.

Visualização de dados — IBM SPSS.

Depois de configurado todas as variáveis, agora é só incluir os valores partindo dos valores (nas medidas nominal e ordinal) definidos na Visualização de variável. Note que nas variáveis Sexo, Procedência e Instrução, devem ser inserido os números conforme foram cadastrados na configuração. Feito isso, depois para melhorar a legibilidade, pode clicar em Rótulos de Valor, que aí teremos o resultado acima. Agora que já apresentamos os fundamentos básicos relacionado a configuração de variáveis, vamos partir para um exemplo um pouco mais complexo, e abordar a estatística descritiva. Na pasta de instalação da ferramenta, tem um diretório denominado samples. Nele, há vários datasets de exemplos. Vamos utilizar o diabet_costs. Basta clicar em abrir no IBM SPSS e informar pela ferramenta o dataset que está localizado no diretório Samples, onde a ferramenta está instalada.

Dataset diabet_costs — IBM SPSS.

Esse dataset é bem simples. Contêm informações de idade, nível de glicose, renda de uma pessoa, e custo do tratamento. Para começarmos a realizar a análise desses dados, podemos por exemplo, analisar a frequência da ocorrência de diabetes por idade. Para isso, clique no menu Analisar > Estatística Descritiva > Frequências.

Frequências de diabetes por idades — IBM SPSS.

Ao abrir a janela de frequências, você deve selecionar a variável pretendente para que a análise seja feita. No nosso caso, a variável é a age. Ao clicar em ok, o IBM SPSS vai abrir uma outra janela com algumas informações.

Resultado — Frequência de diabetes por idade — IBM SPSS.

Como a tabela é muito grande, não deu para colocar toda aqui no post, mas você pode fazer o teste aí depois. Percebemos na primeira tabela que não temos nenhum valor omisso para esta coluna, e isso é muito bom. Para darmos continuidade, vamos agora exibir a média, moda e mediana das colunas age e income. Para isso, novamente clique no menu Analisar > Estatística Descritiva > Frequências, só que agora vamos clicar na opção Estatísticas.

Frequência — Estatísticas — IBM SPSS.

Selecione primeiramente as duas variáveis que vamos trabalhar: age e income. Depois clique no botão Estatísticas, e adicione as quatro opções de Tendência central e clique em continuar, e logo após em ok.

Resultado Frequência — Estatísticas — IBM SPSS.

Note que temos informações bem importantes das duas variáveis. Poderíamos explorar muitas outras informações com a base do que vimos aqui, e inclusive, experimente testar outros datasets disponibilizados pela ferramenta, a ideia nesse post foi apresentar a ferramenta IBM SPSS, e introduzir alguns pontos de como é aplicado a estatística descritiva nela. Até a próxima!!

--

--

Rodrigo Macedo

Professor Informática EBTT IFMA | Estudande de Data Science, Cloud Computing e Inteligência Artificial.