Um livro sobre dados, Capítulo 11: Introdução à Estatística

Published in

neurondsai

8 min readDec 20, 2022

A seguir neste breve texto vamos falar um pouco sobre estatística que é de suma importância para qualquer pessoa que queira trabalhar com dados, modelos de machine learning e inteligência artificial e nada melhor que uma inteligência artificial para nos dar um resumo do que é estatística.

o trecho a seguir foi gerado pela DALL·E 2 — OpenAI utilizando o seguinte texto: “resumo sobre estatística”, e a resposta foi:
Statistics are a branch of mathematics that deals with the collection, analysis, interpretation, presentation, and organization of data. In applying statistics to, for example, a scientific, industrial, or social problem, it is conventional to begin with a statistical population or a statistical model to be studied. Populations can be diverse topics such as “all people living in a country” or “every atom composing a crystal”. Statistics deals with all aspects of data including the planning of data collection in terms of the design of surveys and experiments.

Statistical theory defines a statistic as a function of a random sample. This definition is useful in understanding the concept, but not in calculating statistics. Theories of statistics generally require that the observed data set be a random sample from a population. In statistics, a statistic is a function of a sample where the function itself is independent of the sample. (This is different from a function of a random variable, which is not independent of the random variable.)

The term statistics is used in two main ways:

A statistic is a single value that is computed from a data set. The term is used in this sense in mathematical statistics.

A statistic is a random variable that is a function of the data set. The term is used in this sense in applied statistics.

Bom, depois desse belo resumo do que é estatística, vamos ver um pouco sobre ela.

População

Tudo ou todos. Um grupo de pessoas ou objetos incluídos em um estudo.

Amostra

Uma pequena porção ou parte de uma população. Representativa;

Tendenciosa.

Parâmetro

Característica da População.

Exemplos: altura mínima, peso máximo, percentual de mulheres, idade média, etc.

Estatística

Característica da Amostra

Anotação da população e amostra:

Exemplo de como utilizar: digamos que será feita uma pesquisa para identificar o salário médio dos cientistas de dados no Brasil.

Tema — Salário Médio de Cientistas de Dados no Brasil;

População — Salários de todos os cientistas de dados do Brasil.

Parâmetro — Salário médio de todos os cientistas de dados do Brasil.

Amostra — 84 Salários de cientistas de dados brasileiros (número aleatório para exemplificar), e, para que essa amostra tenha relevância, ela precisa ser representativa.

Estatística — Média dos 84 salários.

Variável — Característica de interesse coletada em cada item da amostra. (ex: salário).

Dado — Valor número de um salário em si. (ex: R$12.743,59) neste caso.

Tipos de dados

Categórico — ex: tipo de carro, cor, remete categorias, classificações, rótulos Numérico

Discreto — valores possíveis, finitos e inumeráveis, ex: número de cômodos de uma casa, quantidade de filhos, número de sapatos, geralmente esse tipo de dado é inteiro;

Contínuo — valores decimais e infinitos, ex: altura, peso(59,74890214511… kg).

Níveis de Mensuração

Qualitativo

Nominal — o nível de mensuração qualitativo nominal refere-se a categorias, uma característica do dado nominal é que ele não tem números e mesmo quando tem não são representativos numéricos, ex: cor, sim/não, rótulos, gênero;

Ordinal — Para o nível ordinal a ordem importa, porem não existe um espaço claro entre dois elementos, sabemos que o primeiro lugar é melhor que o segundo lugar, mas não o quão melhor é, ex: posição numa corrida (1º, 2º, 3º lugar), top 5 seriados de suspense.

Quantitativo

Intervalar — O espaço entre dois números é bem definido e tem significado, “zero” não significa “nenhum” ou “nada”, ex: a temperatura de 30 graus é 10 graus maior que a de 20 graus, e o zero não significa ausência de temperatura significa, mas um número como outros.

Razão — Neste caso o zero significa ausência de valor ou zero absoluto e o intervalo de 2 números é bem definido e tem como computar, ex: se tirei “zero” no teste, isso significa que não pontuei

Técnicas de Amostragens

Regra #1 — Amostra precisa ser representativa da população, precisando ser aleatória para que não seja tendenciosa.

Métodos de amostragem aleatória:

. Simples

. Estratificada

. Por conglomerado

. Sistemática

. Por Conveniência (não aleatória)

Amostra Aleatória SIMPLES

Seleção puramente aleatória, com reposição.

. ex: determinar números para indivíduos, e selecionar números aleatórios de indivíduos a serem incluídos na pesquisa.

A parte da reposição diz respeito ao segundo “sorteio” de indivíduos não ser condicional ao primeiro sorteio

Amostra Aleatória ESTRATIFICADA

Divide a população em grupos e seleciona a proporção de cada grupo na Amostra

ex: População: 40% de Direita, 35% Esquerda Democrática, 25% indecisos.

Amostra de 200 pessoas: 80 de Direita, 70 Esquerda Democrática, 50 indecisos.

Amostra Aleatória por CONGLOMERADO

Divide população em grupos e seleciona todos os indivíduos de um grupo aleatório.

ex: Estádio de futebol. Compartimentos E e G são selecionados de forma aleatória e todas as pessoas dos compartimentos E e G são incluídas.

Amostra Aleatória SISTEMÁTICA

Seleciona-se o primeiro indivíduo de forma aleatória e escolhe-se todo o enésimo após o último selecionado até voltar ao primeiro.

ex: Número de telefone aleatório em um livro, e escolhe-se todo 30º número depois desse, até circular de volta para o início.

*deve-se tomar cuidado ao utilizar esse método com datas, pois ela vai sempre se repetir.

Amostra por CONVENIÊNCIA (não aleatório)

Seleciona-se indivíduos que estão prontamente disponíveis

ex: entrevistar pessoas perto de mim, meus amigos do facebook, etc.

Média

Somatório de valores de determinados elementos dividido pela quantidade de elementos somados.

Mediana

Dada uma sequência de valores ordenados em ordem crescente ou decrescente, a mediana é o valor central dessa sequência. Caso haja valores centrais, a mediana é dada pela média aritimética deles.

Moda

Dado um conjunto de valores, a moda é o número que mais se repete.

Regra EMPÍRICA 68–95–99,7 ou regra

dos 3 sigmas

A distribuição normal dos dados refere-se normalmente à regra 68–95–99.7. Pode- se encontrar 68% dos dados no primeiro desvio padrão, 95% dos dados no segundo desvio, e 99,7% dos dados no terceiro desvio da média.

Valor Z

O valor Z é utilizado para encontrar os valores que estão entre os desvios padrões, no caso da imagem acima um exemplo é encontrar o valor entre 58 e 62.

O valor Z começa da esquerda com o número -3 e vai para direita chegando no valor 3.

Para calcular o valor Z utilizamos a fórmula

Utilizamos ele para verificar qual a probabilidade de ocorrência do valor Z para trás do número.

EX:

Imaginando que queremos encontrar o valor Z entre 158 e 165, utilizamos o cálculo acima e chegamos no número -1.71, que está mais perto do -2. E para encontrar a probabilidade de 160 acontecer vamos utilizar a tabela Z.

Neste caso chegamos no valor de -.1.71, para encontrar o valor é simples. utilizamos os dois primeiros dígitos (1.7) para encontrar a linha que fica na coluna Z e o último dígito para encontrar a coluna que fica na primeira linha da tabela.

Então do valor 160 para trás temos a probabilidade de 4.36% dele ocorrer.

Curtose

Essa métrica representa o grau de achatamento de uma distribuição, nos dando a informação de quão espalhados os dados estão em torno da média.

Pode-se classificar em 3 tipos, são eles:

Mesocúrtica — esse palavrão quer dizer uma distribuição normal padrão;

Leptocúrtica — O grau de achatamento deste tipo é menor criando um pico mais pontiagudo e mostra que os dados estão concentrados mais do que a normal.

Platicúrtica — Este tipo de curtose tem um achatamento maior do que a anterior e isso indica que o desvio padrão é maior.

Correlação X Causalidade

Correlação Positiva

Calorias perdidas X Quilômetros percorridos

Essa correlação se dá pois quando um cresce outro também cresce. A quantidade de quilômetros percorridos é que causou a perca de calorias e não o contrário e isso é importante pois devemos entender o que está causando a correlação.

Correlação Negativa

Doenças Preveníeis encontradas X Vacinações aplicadas

Enquanto uma cresce outra diminui, neste exemplo podemos entender que quanto maior o número de vacinas aplicadas menor a quantidade de doenças preveníeis encontradas.

Correlação fraca (ou nenhuma)

Isso acontece quando não conseguimos encontrar correlação entre as variáveis ou ela é muito fraca e não conseguimos correlacioná-las.

Correlações espúrias

Uma Correlação espúria é uma relação estatística existente entre duas variáveis, mas onde não existe nenhuma relação causa-efeito entre elas relação estatística pode ocorrer por pura coincidência ou por causa de uma terceira variável. Ou seja,

neste último caso, pode ocorrer que as variáveis A e B sejam correlacionadas porque ambas são causadas por uma terceira variável C.

Alguns exemplos desse tipo de correlação:
número de pessoas que se afogaram ao cair em uma piscina X filmes Nicolas Cage apareceu

Existe um site que você pode ver muitos outros exemplos, https://www.tylervigen.com/spurious-correlations

Conseguimos analisar e compreender algumas técnicas desse vasto mundo da estatística que é essencial para que possamos trabalhar com dados e entender melhor o mundo. A estatística está em todos os cantos na maneira analógica e digital, encontramos com ela e utilizamos dela em todo o nosso dia, seja de uma maneira direta ou indireta ela estará lá e por isso é de suma importância compreendê-la, OBRIGADO!