Arquivo de Projetos - Data Universe

Game Theory: Prisioner’s Dilemma utilizando Deep Q-Learning (DQN) Tensorflow.Keras

Alexandre Polselli — Wed, 30 Oct 2024 20:03:36 +0000

A Teoria dos Jogos (Game Theory) é um campo da matemática e da economia que estuda como indivíduos ou grupos tomam decisões estratégicas em cenários onde suas escolhas afetam uns aos outros. Esses “jogos” envolvem situações onde o resultado de cada jogador depende das ações dos outros, e a teoria busca entender as melhores estratégias […]

O post Game Theory: Prisioner’s Dilemma utilizando Deep Q-Learning (DQN) Tensorflow.Keras apareceu primeiro em Data Universe.

Descubra quem não te segue de volta no Instagram! Automação com Python e Pandas

Alexandre Polselli — Sat, 24 Aug 2024 22:27:10 +0000

Neste vídeo ensino passo a passo como exportar os dados de seguidores do Instagram para o Python.

Em seguida, mostro como tratar esses dados com a biblioteca Pandas, permitindo que você descubra facilmente quais usuários que você segue não estão mais te seguindo de volta.

É uma ótima oportunidade para aprender a automatizar essa análise e otimizar sua presença nas redes sociais com técnicas de ciência de dados.

Hashtags: #Python #Pandas #Instagram #DataAnalysis #SocialMediaAnalytics #DataScience #InstagramFollowers #CodingTutorial #DataCleaning

O post Descubra quem não te segue de volta no Instagram! Automação com Python e Pandas apareceu primeiro em Data Universe.

GA4 + Google Bigquery: Integrar dados do GA4 com o Big Query + Looker

Alexandre Polselli — Fri, 23 Aug 2024 02:12:22 +0000

Neste vídeo, guio você pelo processo completo de migração de dados do Google Analytics 4 para o BigQuery, seguido pela integração desses dados com um relatório no Looker Studio.

Com instruções detalhadas e exemplos práticos, você aprenderá como configurar a exportação de dados, criar uma conexão robusta no BigQuery e, finalmente, transformar esses dados em insights visuais poderosos usando o Looker Studio.

Ideal para profissionais que buscam otimizar a análise de dados e aprimorar a tomada de decisões com ferramentas avançadas do Google.

O post GA4 + Google Bigquery: Integrar dados do GA4 com o Big Query + Looker apareceu primeiro em Data Universe.

Calculadora de Teste-Z no Google Sheets para um grupo de duas amostras aleatórias

Alexandre Polselli — Sat, 29 Jun 2024 20:48:57 +0000

O teste Z é um teste estatístico usado para determinar se há uma diferença significativa entre a média de uma amostra e a média de uma população, ou entre as médias de duas amostras, quando a variância populacional é conhecida. Ele é baseado na distribuição normal padrão.

Acesse este artigo para entender tudo sobre a teoria e prática de como utilizar a calculadora: https://datauniverse.com.br/teste-de-hipoteses/

Acessar Calculadora

Link para acessar a calculadora: https://docs.google.com/spreadsheets/d/1fqEo9cV8_hj4quDSBtzDYApWapca9q4Wd7HLgJ7-1sQ/copy

Como usar:

Basta preencher as duas colunas de observações das amostras manualmente com os próprios dados ou atualizar os dados aleatóriamente marcando e desmarcando a caixa:

Gráficos de distribuição

Os gráficos de distribuição, ajudam a visualizar o formato da distribuição dos dados das observações das amostras A e B.

Uma distribuição estatística é uma função que descreve a frequência com que diferentes valores ocorrem em um conjunto de dados. Representa a maneira como os dados são distribuídos ao longo de um intervalo, e pode ser apresentada de várias formas, como distribuições normais, binomiais, uniformes, entre outras.

Ao analisar um gráfico de dispersão, você pode tomar decisões informadas sobre a natureza da relação entre variáveis, identificar anomalias e planejar próximas etapas na análise de dados.

Para que serve:

O teste Z é útil para:

Comparar a média de uma amostra com uma média populacional conhecida.
Comparar as médias de duas amostras independentes.
Verificar hipóteses sobre proporções em amostras grandes.

Como funciona:

O teste Z segue os seguintes passos:

Formulação das Hipóteses:

Hipótese Nula (H₀): Afirma que não há diferença (por exemplo, a média da amostra é igual à média populacional).
Hipótese Alternativa (Hₐ): Afirma que há uma diferença (por exemplo, a média da amostra é diferente da média populacional).

Cálculo da Estatística Z:

Para uma amostra única:

Onde:

	é a média da amostra
	é a média populacional
	é o desvio padrão populacional
	é o tamanho da amostra

Para duas amostras:

Onde:

	são as médias das amostras
	são as médias populacionais
	são os desvios padrão populacionais
	são os tamanhos das amostras

Determinação do P-valor:

O P-valor é a probabilidade de obter um valor Z tão extremo ou mais extremo que o valor observado, assumindo que a hipótese nula é verdadeira.
Para um teste bicaudal, calcula-se a probabilidade nas duas extremidades da distribuição normal.

Comparação com o Nível de Significância (α):

Se o P-valor é menor que α (por exemplo, 0,05), rejeita-se a hipótese nula.
Se o P-valor é maior que α, não se rejeita a hipótese nula.

Exemplos de aplicação:

Verificar se a média de altura dos estudantes de uma escola é diferente da média nacional.
Comparar a eficácia de dois medicamentos com base em amostras de pacientes.

O teste Z é particularmente adequado quando o tamanho da amostra é grande (geralmente (n > 30)) e a variância populacional é conhecida. Se a variância populacional não é conhecida e a amostra é pequena, utiliza-se geralmente o teste t de Student.

Parâmetros estatísticos

Hipótese Nula (H₀): É a hipótese inicial que assume que não há efeito ou diferença significativa entre os grupos ou condições em estudo. Geralmente, é a hipótese que se tenta refutar ou rejeitar.
Hipótese Alternativa (Hₐ): É a hipótese que contrasta com a hipótese nula. Sugere que há um efeito significativo ou diferença entre os grupos ou condições em estudo. Aceitar Hₐ implica rejeitar H₀.
Number of Tails: Refere-se ao tipo de teste estatístico baseado na hipótese alternativa. Pode ser:
- Unicaudal (one-tailed): Testa se um parâmetro é maior ou menor que um valor específico.
- Bicaudal (two-tailed): Testa se um parâmetro é diferente (maior ou menor) de um valor específico.
Z Statistic (Z-score): É uma medida que descreve a posição de uma amostra em relação à média de uma distribuição normal padrão, medida em desvios padrão. Um Z-score indica quantos desvios padrão um valor está acima ou abaixo da média.
P-value (two-tails): É a probabilidade de observar um valor extremo ou mais extremo do que o observado, assumindo que a hipótese nula é verdadeira. Em um teste bicaudal, considera as extremidades de ambas as caudas da distribuição.
Intervalo de Confiança (1-α): É um intervalo estimado a partir dos dados da amostra, dentro do qual se espera que o parâmetro populacional verdadeiro esteja, com um nível de confiança de (1-α)%. Por exemplo, um intervalo de confiança de 95% significa que temos 95% de certeza de que o parâmetro verdadeiro está dentro desse intervalo.
Significância Desejada (α): É o nível de significância pré-definido para um teste estatístico, representando a probabilidade de cometer um erro do Tipo I (rejeitar a hipótese nula quando ela é verdadeira). Comumente, α é 0,05 ou 5%.
Variância Conhecida (σ): Refere-se à variância da população que é conhecida ou assumida conhecida, usada em testes estatísticos como o teste Z.
Desvio Padrão da Amostra (σ): É uma medida de dispersão que indica o quanto os valores de uma amostra variam em relação à média da amostra.
Média (X̄): É a soma de todos os valores da amostra dividida pelo número de observações. Representa a média aritmética dos dados da amostra.
Observações (n): Refere-se ao número total de dados ou pontos de amostra coletados em um estudo.
Diferença de Média Hipotetizada: É a diferença entre as médias populacionais que se espera ou se assume existir sob a hipótese alternativa.
Soma Total de Observações na Amostra: Refere-se à soma de todos os valores observados na amostra.
Diferença entre as Amostras: Refere-se à diferença observada entre as médias ou proporções de duas ou mais amostras.
Decisão Estatística a ser Tomada quando Hₐ é Falsa, Aceitar H₀: Significa que, com base nos resultados do teste estatístico, não há evidência suficiente para rejeitar a hipótese nula, então aceitamos H₀ como verdadeira (ou não rejeitamos H₀).

Esses parâmetros são essenciais para conduzir e interpretar testes estatísticos, ajudando a determinar a significância dos resultados de pesquisas e experimentos.

O post Calculadora de Teste-Z no Google Sheets para um grupo de duas amostras aleatórias apareceu primeiro em Data Universe.

Processamento de dados em lote com PySpark e Docker

Alexandre Polselli — Thu, 28 Mar 2024 11:27:10 +0000

Neste projeto, compartilharei o passo a passo de um projeto de processamento de dados em lote que utilizei em meu portfolio. O objetivo era transformar um arquivo JSON em um banco SQLite, utilizando PySpark e Docker. 1. Configurando o ambiente com Docker Compose Comecei criando um cluster PySpark em Docker com três containers: um master, […]

O post Processamento de dados em lote com PySpark e Docker apareceu primeiro em Data Universe.

Processo de ETL simples utilizando datalake MinIO

Alexandre Polselli — Thu, 01 Feb 2024 02:27:40 +0000

MinIO é um armazenamento de objetos de alto desempenho compatível com S3. Ele é projetado para cargas de trabalho de inteligência artificial/aprendizado de máquina em grande escala, data lakes e bancos de dados. É definido por software e pode ser executado em qualquer infraestrutura em nuvem ou local. Aqui irei organizar os arquivos na nuvem […]

O post Processo de ETL simples utilizando datalake MinIO apareceu primeiro em Data Universe.

Automatizando Infraestrutura AWS EC2 via IaC com Terraform no Docker

Alexandre Polselli — Fri, 05 Jan 2024 22:12:18 +0000

Este artigo explora a implementação prática da integração entre DevOps e Infraestrutura como Código (IaC), com foco na automação da infraestrutura AWS EC2 utilizando a ferramenta Terraform. Destaco aqui a importância da IaC, tratando a infraestrutura como código de software demonstrando os benefícios dessa abordagem na agilidade, rastreabilidade e escalabilidade da infraestrutura em nuvem. IaC […]

O post Automatizando Infraestrutura AWS EC2 via IaC com Terraform no Docker apareceu primeiro em Data Universe.

Clusterização com K-means em Python utilizando Elbow Method

Alexandre Polselli — Sun, 03 Sep 2023 18:35:34 +0000

Clustering, também conhecido como agrupamento, refere-se à aplicação de técnicas de machine learning destinadas a dividir um conjunto de dados em diversos clusters ou grupos distintos, tendo como critério principal a semelhança entre os dados. Em contraste com algoritmos de classificação e regressão, o clustering é uma técnica simples da aprendizagem não supervisionada, uma vez […]

O post Clusterização com K-means em Python utilizando Elbow Method apareceu primeiro em Data Universe.

Análise de Sentimentos utilizada em processo seletivo (RH) utilizando ChatGPT em Python e Matplotlib

Alexandre Polselli — Mon, 12 Jun 2023 04:26:08 +0000

Atualmente a maior parte dos processos seletivos das empresas (principalmente no setor de tecnologia) utiliza algum software para conduzir os processos e coletar feedbacks dos candidatos com a finalidade de entender quais foram as possíveis falhas e a partir disso como melhorar a abordagem ou alguma etapa específica da entrevista. Uma abordagem inovadora para aprimorar […]

O post Análise de Sentimentos utilizada em processo seletivo (RH) utilizando ChatGPT em Python e Matplotlib apareceu primeiro em Data Universe.

Criando um chatbot automatizado para retirada de pedidos com API do Chatgpt 3.5 turbo em Python

Alexandre Polselli — Wed, 17 May 2023 22:46:23 +0000

Uma das coisas empolgantes sobre um LLM (large language model) como o ChatGPT é que você pode usá-lo para construir um chatbot personalizado com uma interface conversacional e desenvolver uma conversa completa de ponta a ponta se aproveitando de todo o poder e aprendizado que o ChatGPT já possui em sua disposição. Os chatbots são […]

O post Criando um chatbot automatizado para retirada de pedidos com API do Chatgpt 3.5 turbo em Python apareceu primeiro em Data Universe.