• Mindraft
  • Posts
  • Estatística é necessidade

Estatística é necessidade

Mindraft - Edição 015

O que teremos hoje:

Você precisa saber estatística.

Como muitos já sabem, sou privilegiada por ter escolhido estudar estatística.

Confesso que muitas das coisas que aprendi na faculdade ficaram comigo, mesmo que eu nem perceba que estou utilizando-as.

Em uma conversa com um colega que trabalhou comigo e também é estatístico, ele disse: "Ficamos quatro anos na faculdade, é muito tempo, mexemos o tempo inteiro com dados, saímos praticamente fluentes nisso."

Eu nunca tinha pensado por essa ótica, rs.

Mas, se você quer se sentir fluente, bora lá!

Estatística mudando o jogo em Moneyball

Disclaimer: a news de hoje é muito mais técnica do que de costume.

Importância da Estatística

Eu considero a estatística essencial para analistas e cientistas de dados.

Além disso, se você lida diretamente com o negócio, saber estatística vai resolver muitos problemas na sua vida.

Lidar com grandes conjuntos de dados sem saber como manipulá-los corretamente ou, até mesmo, não saber como interpretá-los é um desafio que muitos profissionais enfrentam. Saber linguagens como SQL, Python e R não garante que você saiba aplicar conceitos estatísticos.

Com isso, quem se desenvolve em estatística tende a ter um grande diferencial, apesar de eu achar que isso é uma necessidade. Aprofunde com o livro do Charles Weelan, Estatística: O que é, para que serve, como funciona.

Irei apresentar o mínimo que você deveria saber.

Medidas fundamentais:

Média: A média é a soma de todos os valores dividida pelo número de observações. É uma medida central que fornece uma noção geral do valor típico nos dados. É bem sensível a outliers.

Mediana: A mediana é o valor central quando os dados são ordenados. É útil para entender a distribuição dos dados, especialmente em distribuições assimétricas, onde a média pode ser enganosa. É pouco sensível a outliers.

Moda: A moda é o valor mais frequente nos dados. É especialmente útil em dados categóricos para identificar a categoria mais comum.

Variância e Desvio Padrão: A variância mede a dispersão dos dados em relação à média, enquanto o desvio padrão é a raiz quadrada da variância. Essas medidas ajudam a entender a variabilidade dos dados.

Aprofunde-se em: Estatística Básica, Bussab e Morettin

Exemplo Prático: Imagine que você está analisando os salários de uma empresa.

  • Média → Dá uma ideia do salário “típico”, mas o problema é que tanto o estagiário quanto o CEO vão influenciar muito esse valor.

  • Mediana → O ponto central da distribuição, que pode ser mais representativo no caso do estagiário e do CEO.

  • Desvio padrão → Representa o quanto os salários variam em relação à média, ajudando a identificar a desigualdade salarial.

Visualização de Dados

Gráficos de Barras e Histogramas: Utilizados para mostrar a distribuição de dados categóricos e contínuos, respectivamente. Eles ajudam a identificar padrões, tendências e anomalias.

Boxplots (Gráficos de Caixa): Fornecem uma representação visual da distribuição dos dados, destacando a mediana, quartis e possíveis outliers.

Diagramas de Dispersão (Scatter Plots): Usados para mostrar a relação entre duas variáveis contínuas, ajudando a identificar correlações e padrões.

Aprofunde-se em: Storytelling com Dados, Cole Nussbaumer Knaflic

Exemplo Prático: Imagine que você está analisando os departamentos de uma empresa.

  • Gráfico de Barras → Pode mostrar claramente a comparação de desempenho entre os departamentos.

  • Boxplot → Pode revelar a variação de desempenho dentro de cada departamento.

  • Diagrama de Dispersão  Pode identificar correlações entre o orçamento do departamento e seu desempenho.

Interpretação de Dados

Testes de Hipótese: Utilizados para testar suposições sobre os dados. Por exemplo, um teste t pode ser usado para comparar as médias de dois grupos e determinar se a diferença é estatisticamente significativa.

Intervalos de Confiança: Fornecem uma faixa de valores dentro da qual a verdadeira média da população é esperada, com um certo nível de confiança (geralmente 95%).

Aprofunde-se em: Inferência Estatística, George Casella.

Exemplo Prático: Imagine que você quer testar se uma nova estratégia de marketing aumentou as vendas.

  • Teste de Hipótese → Pode comparar as vendas antes e depois da implementação da estratégia. Aplicando um teste t, você pode verificar se a diferença nas médias é significativa. Isso ajudará a inferir que a estratégia teve um impacto real.

  • Intervalo de Confiança → Daria uma faixa dentro da qual podemos esperar que o verdadeiro aumento médio nas vendas se localize, proporcionando uma medida de precisão para nossa estimativa.

O Contador: excelente para números + filme de ação

Aplicação prática da Estatística

Até agora, vimos o quanto os conceitos estatísticos são fundamentais para que você consiga analisar de forma eficiente os seus dados.

Entretanto, quando aplicada corretamente, a estatística permite que as empresas tomem decisões estratégicas e melhorem seus processos, por meio da identificação de padrões e tendências.

Para facilitar, vamos explorar algumas áreas onde a estatística é aplicada: análise descritiva, modelagem preditiva e inferência estatística.

Análise Descritiva

Considerando a área da saúde, a análise descritiva é usada para resumir dados de pacientes, como idade, peso e histórico médico. Isso ajuda a identificar padrões de saúde na população, como a prevalência de certas doenças em diferentes grupos etários ou regiões demográficas.

Por exemplo, um boxplot pode revelar a distribuição de pressões arteriais entre diferentes grupos de idade, destacando grupos de risco que necessitam de atenção especial.

Modelagem Preditiva

No setor financeiro, um modelo de regressão linear pode ser usado para prever os preços das ações com base em variáveis como indicadores econômicos e desempenho da empresa.

Redes neurais podem ser aplicadas para detectar fraudes em transações financeiras, inclusive são bastante utilizadas para bloquear cartões em compras suspeitas.

Inferência Estatística

No marketing, a inferência estatística é usada para avaliar a performance das campanhas. Por exemplo, um teste t pode comparar a média de vendas antes e depois de uma campanha para determinar se houve um aumento significativo.

ANOVA pode ser utilizada para comparar a eficácia de diferentes canais de marketing (como TV e internet) para entender qual canal gera maior retorno sobre o investimento (LTV).

Quebrando a banca: alunos fraudando o backjack (21)

Erros evitados

Quando você conhece os métodos, tende a evitar erros comuns, garantindo maior precisão e confiabilidade nos resultados gerados.

Se você não sabe, tende a cometê-los sem perceber.

Evitar conclusões enganosas

Em um estudo clínico, a ANOVA pode ser usada para comparar a eficácia de três diferentes tratamentos. Se um tratamento se mostrar significativamente mais eficaz do que os outros, os pesquisadores podem concluir com mais confiança que a diferença observada não é apenas devido ao acaso, mas sim ao efeito do tratamento.

Identificação de outliers

Em uma análise de vendas mensais, um boxplot pode revelar que certos meses têm vendas muito altas ou baixas. Saber identificar esses outliers possibilita investigar se essas variações são devido a fatores externos, erros de registro ou outros motivos.

Prevenção de viés

Em uma pesquisa de mercado, garantir que a amostra de entrevistados represente adequadamente a população é essencial. Saber as técnicas para randomizar a seleção dos entrevistados dentro de cada estrato (grupo) ajuda a evitar que certos subgrupos sejam sobre ou sub-representados. (Curiosidade: essa é minha área de atuação favorita).

Nova: está tudo nos números - fala sobre previsões

Desenvolva-se em Estatística

Trilha de Estudos - Estatística

1. Estatística Descritiva - Medidas

Estudar: Média, Mediana e Moda; Variância e Desvio Padrão; Intervalo Interquartil e Coeficiente de Variação.

2. Estatística Descritiva - Gráficos

Estudar: Histogramas; Boxplots; Gráficos de Barras e Setores; Diagramas de Dispersão.

3. Estatística Descritiva - Interpretação

Estudar: Interpretação de Medidas de Tendência Central e Dispersão; Identificação de Padrões e Tendências; Reconhecimento de Outliers; Análise de Distribuições.

4. Probabilidade Básica

Estudar: Definição de Probabilidade; Probabilidades Condicionais e Independentes; Teorema de Bayes; Probabilidade Combinatória.

5. Distribuições de Probabilidade - Discretas

Estudar: Distribuição Binomial; Distribuição de Poisson; Distribuição Geométrica; Distribuição Hipergeométrica.

6. Distribuições de Probabilidade - Contínuas

Estudar: Distribuição Normal; Distribuição Exponencial; Distribuição Gamma; Distribuição t de Student.

7. Inferência Estatística

Estudar: Estimativas Pontuais e Intervalares; Intervalos de Confiança; Erros Tipo I e Tipo II; Poder Estatístico.

8. Teste de Hipóteses

Estudar: Formulação de Hipóteses Nulas e Alternativas; Testes t para Amostras Independentes e Pareadas; Testes de Proporções; Testes Qui-Quadrado.

9. Regressão

Estudar: Regressão Linear Simples e Múltipla; Análise de Resíduos; Multicolinearidade; Modelos de Regressão Não Linear.

10. Séries Temporais

Estudar: Componentes de Séries Temporais; Modelos ARIMA; Suavização Exponencial; Previsão com Séries Temporais.

Caso precise de ajuda para se desenvolver em Dados, participe da minha mentoria! Fale comigo no Linkedin.

Obrigada por ter chegado até aqui!

Beijos,

Lilian.

Recomendações da semana 🎁 

  1. Estou no Instagram: @lilianpiresofc, me siga para ficar por dentro do dia a dia.

  2. Esse é meu template de currículo que estou liberando gratuitamente para meu assinantes.

Por dentro da minha mente 🧠 

📚 O que eu estou lendo?

Atualmente, estou lendo um livro e relendo outro:

  1. Hooked, Nir Eyal. Julho quero bater 4 livros lidos, pelo menos. Bora?

🎬 O que eu estou vendo?

  1. Casamento às Cegas, Netflix. Adoro realities, me indiquem!