EN | PT | TR | RO | BG | SR
;
Marcar como lida
Marcar como não lida


NEXT TOPIC

CONTEÚDO DA UNIDADE




Módulo 3: Manipulação avançada de dados e gráficos




Manipulação avançada de dados usando pacotes tidyr e dplyr.

Criação de parcelas complexas e avançadas usando ggplot2, incluindo a personalização da estética do enredo, como cores e temas.

Pacotes especializados para manipulação e visualização de dados, como lubridate, forcats e gridExtra.



No domínio em constante expansão da ciência de dados, a capacidade de manipular e visualizar dados de forma eficiente é indispensável. O módulo 3 serve como um trampolim para impulsionar suas habilidades de análise de dados para o próximo nível, mergulhando em técnicas avançadas de manipulação de dados e na criação de visualizações de dados complexas e personalizadas. Aqui, exploramos os recursos avançados dos pacotes tidyr e dplyr para manipulação de dados e apresentamos o mundo da plotagem avançada usando ggplot2. Além disso, nos aventuraremos em pacotes especializados como lubridate, forcats e gridExtra para aprimorar ainda mais seu kit de ferramentas de análise de dados.



O poder do arrumador

O pacote tidyr, desenvolvido por Hadley Wickham, foi projetado para arrumar conjuntos de dados confusos, tornando-os mais passíveis de análise. Arrumar os dados envolve reformulá-los de um formato amplo para um formato longo, garantindo que cada variável tenha sua própria coluna e cada observação tenha sua própria linha (Wickham & Henry, 2018). Os participantes dominarão a arte da arrumação de dados, permitindo-lhes preparar os seus conjuntos de dados para uma análise eficaz.

O pacote tidyr, desenvolvido por Hadley Wickham, foca-se na arrumação de conjuntos de dados desarrumados, permitindo que analistas de dados e cientistas trabalhem com dados de uma forma mais estruturada e organizada (Wickham & Henry, 2018). O objetivo principal é transformar dados de um formato amplo para um formato longo, garantindo que cada variável tenha sua própria coluna e cada observação tenha sua própria linha.

Aqui está um guia passo-a-passo sobre como aproveitar o poder do arrumador em R

Instalar e carregar o pacote tidyr

Antes de poder usar o tidyr, você precisa instalar e carregar o pacote. Você pode fazer isso usando os seguintes comandos:

install.packages("arrumado")

biblioteca(tidyr)

Noções básicas sobre a arrumação de dados

Arrumar dados significa reestruturá-los para atender aos princípios de dados arrumados, conforme definido por Hadley Wickham. Em um conjunto de dados organizado:

Cada variável forma uma coluna.

Cada observação forma uma linha.

Cada valor está em sua célula.

Os dados são organizados de forma a simplificar a manipulação, análise e visualização de dados.

Remodelando dados com gather()

A função gather() é uma ferramenta fundamental para converter dados de um formato amplo para um formato longo. Esta função pega várias colunas e as recolhe em pares chave-valor. É especialmente útil ao lidar com conjuntos de dados em que várias colunas representam diferentes pontos de tempo, categorias ou variáveis.

A sintaxe básica de gather() é a seguinte:

gathered_data <- gather(original_data, key = "new_key_column", value = "new_value_column", columns_to_gather)

original_data: Seu conjunto de dados original.

new_key_column: O nome da nova coluna que conterá os nomes das variáveis.

new_value_column: O nome da nova coluna que conterá os valores.

columns_to_gather: As colunas que você deseja remodelar em pares chave-valor.

Espalhando dados com spread()

Por outro lado, talvez seja necessário distribuir dados de um formato longo para um formato amplo quando quiser que as variáveis armazenadas como pares chave-valor sejam colunas separadas novamente. A função spread() é usada para este fim.

A sintaxe básica de spread() é a seguinte:

spread_data <- spread(original_data, chave = "new_key_column", valor = "new_value_column")

original_data: Seu conjunto de dados original em formato longo.

new_key_column: A coluna que contém os nomes das variáveis.

new_value_column: A coluna que contém os valores.

Tratamento de dados em falta

Ao arrumar dados, você pode encontrar valores ausentes. Tidyr fornece funções como drop_na() para remover linhas contendo valores ausentes.

Exemplo de Arrumação de Dados

Digamos que você tenha um conjunto de dados onde as colunas representam anos diferentes e queira convertê-lo em um formato longo para trabalhar com ele de forma mais eficiente. Você pode usar gather() da seguinte maneira:

long_data <- reunir(original_data, chave = "Ano", valor = "Valor", 2000:2020)

Esse código pega o conjunto de dados original (original_data) e o transforma em um formato longo, com duas novas colunas, "Ano" e "Valor". A coluna "Ano" conterá os anos (2000 a 2020) e a coluna "Valor" conterá os valores correspondentes.

Arrumação para Análise

Arrumar seus dados é uma etapa crucial na análise de dados. Uma vez que seus dados estejam arrumados, você pode usar eficientemente o pacote dplyr para manipulação de dados e gerar visualizações perspicazes com ggplot2.

Agora que já exploramos o poder do tidyr em R, vamos passar para a próxima seção, onde nos aprofundaremos na manipulação avançada de dados usando o pacote dplyr.

Eficiência com dplyr

O pacote dplyr, outra criação de Hadley Wickham, é uma gramática de manipulação de dados. Ele fornece um conjunto de funções para a transformação de dados, incluindo filtragem, organização, agrupamento, resumo e muito mais (Wickham et al., 2021). Os participantes descobrirão como usar o poder do dplyr para manipular e transformar dados de forma eficiente para extrair insights significativos.

Como mencionado, o dplyr, desenvolvido por Hadley Wickham, é um poderoso kit de ferramentas para transformação de dados, oferecendo uma gama de funções que tornam a manipulação de dados mais intuitiva e eficiente (Wickham et al., 2021).

Aqui está um guia abrangente sobre como aproveitar a eficiência do dplyr em R

Instalar e carregar o pacote dplyr

Antes de poder usar o dplyr, você precisa instalar e carregar o pacote. Você pode fazer isso com os seguintes comandos:

install.packages("dplyr")

Biblioteca(DPLyr)

Os Verbos Básicos

Dplyr se concentra em vários verbos essenciais que servem como blocos de construção para a manipulação de dados. Estes verbos incluem:

filter(): seleciona linhas que atendem a condições específicas.

arrange(): Classifica linhas com base em uma ou mais colunas.

select(): seleciona colunas específicas.

mutate(): Cria novas variáveis com base nas existentes.

summarize(): Agrega dados para sumarização.

Operações de encadeamento com %>%

A sintaxe do Dplyr permite encadear várias operações usando o operador %>% (pronuncia-se "pipe"). Isso permite que você crie uma sequência de etapas de manipulação de dados, tornando seu código mais legível e conciso. Por exemplo:

resultado <- conjunto de dados %>%

filtro(condição) %>%

selecionar(colunas) %>%

arranjar (ordem) %>%

group_by(agrupamento) %>%

resumir(resumo)

Filtrando dados com filter()

A função filter() permite selecionar linhas com base em condições específicas. Por exemplo:

filtered_data <- filtro %>% do conjunto de dados(valor de > da coluna)

Organizando dados com arrange()

A função arrange() é usada para classificar linhas com base em uma ou mais colunas. Por exemplo:

sorted_data <- conjunto de dados %>% arranjar(coluna1, coluna2)

Selecionando colunas com select()

select() permite que você escolha colunas específicas do seu conjunto de dados. Por exemplo:

selected_columns <- conjunto de dados %>% select(column1, column2)

Criando novas variáveis com mutate()

mutate() é usado para criar novas variáveis transformando as existentes. Por exemplo:

mutated_data <- conjunto de dados %>% mutado(new_variable = old_variable * 2)

Resumindo dados com summ()

A função summarize() permite agregar dados, o que é particularmente útil para gerar estatísticas resumidas. Por exemplo:

summary_data <- conjunto de dados %>% group_by(grouping_column) %>% resumir(média = média(valor), dp = sd(valor))

Agrupando dados com group_by()

Agrupar dados com group_by() é essencial quando você deseja executar operações em subconjuntos de dados. É frequentemente usado em conjunto com summarize() para calcular estatísticas para diferentes grupos.

Eficiência e Verbosidade de Dados

Uma das principais vantagens do dplyr é a sua eficiência, uma vez que as operações são otimizadas para a velocidade. Além disso, a sintaxe clara e concisa reduz a verborragia dos dados, tornando seu código mais legível e sustentável.

Tratamento de erros

O Dplyr fornece mensagens de erro significativas, que podem ajudá-lo a identificar e corrigir rapidamente problemas no seu código de manipulação de dados.

Prática e Aplicação

Para se tornar proficiente no uso do dplyr, pratique em conjuntos de dados reais e explore vários cenários de transformação de dados. Quanto mais o utilizar, mais apreciará a sua eficiência e versatilidade.

Ao dominar o dplyr, você desbloqueará a capacidade de manipular, manipular e extrair insights de seus dados de forma eficiente, aprimorando suas capacidades de análise de dados e tomada de decisões.



Desbloqueando o potencial do ggplot2

ggplot2, um pacote abrangente de visualização de dados desenvolvido por Hadley Wickham, é conhecido por sua flexibilidade e elegância (Wickham, 2016). Ele permite que você crie enredos intrincados e informativos. Você viajará para o coração da visualização de dados com ggplot2, aprendendo a construir gráficos complexos que retratam relacionamentos, tendências e padrões em seus dados.

Como mencionado, ggplot2, desenvolvido por Hadley Wickham, é um kit de ferramentas poderoso e flexível para visualização de dados, oferecendo uma abordagem estruturada e em camadas para a criação de parcelas complexas (Wickham, 2016).

Aqui está um guia detalhado sobre como desbloquear o potencial de ggplot2 em R

Instalar e carregar o pacote ggplot2

Se você ainda não o fez, você precisa instalar e carregar o pacote ggplot2. Você pode fazer isso com os seguintes comandos:

install.packages("ggplot2")

biblioteca(ggplot2)

Gramática básica de ggplot2

ggplot2 é construído sobre o conceito de uma "gramática de gráficos", que fornece uma maneira estruturada de criar plots. Os componentes essenciais de um gráfico ggplot2 incluem dados, mapeamentos estéticos, objetos geométricos (geoms) e facetas. A estrutura básica de um gráfico ggplot2 tem esta aparência:

ggplot(dados = your_data, aes(x = x_variable, y = y_variable)) +

geom_point()

Dados e Estética

O argumento data especifica o conjunto de dados com o qual você está trabalhando.

A função aes() (mapeamentos estéticos) é usada para definir como as variáveis são mapeadas para elementos visuais no gráfico. Por exemplo, você pode mapear as variáveis x e y dos dados para os eixos x e y do gráfico.

Objetos Geométricos (Geoms)

Objetos geométricos, ou geoms, definem o tipo de gráfico que você deseja criar. Alguns geoms comuns incluem:

geom_point(): Cria um gráfico de dispersão.

geom_line(): Gera gráficos de linha.

geom_bar(): Constrói gráficos de barras.

geom_boxplot(): Produz boxplots.

Personalizando seu lote

ggplot2 oferece extensas opções para personalizar a aparência do seu terreno. Você pode modificar o título do gráfico, rótulos de eixo, legenda, cores e temas. Por exemplo:

ggplot(dados = your_data, aes(x = x_variable, y = y_variable)) +

  geom_point() +

  labs(title = "Your Plot Title", x = "X-Axis Label", y = "Y-Axis Label") +

  theme_minimal() # Aplicar um tema mínimo

Vários Geoms e Camadas

Você pode criar gráficos complexos adicionando vários geoms e camadas ao mesmo gráfico. Isso permite que você represente diferentes aspetos de seus dados em uma única visualização. Por exemplo:

ggplot(dados = your_data, aes(x = x_variable, y = y_variable)) +

geom_point() +

geom_smooth(método = "lm", cor = "vermelho") # Adicionar uma linha de regressão linear

Facetas

A facetagem permite criar vários gráficos, cada um mostrando um subconjunto diferente dos seus dados. Você pode usar as funções facet_wrap() ou facet_grid() para conseguir isso. Por exemplo:

ggplot(dados = your_data, aes(x = x_variable, y = y_variable)) +

geom_point() +

facet_wrap(~category_variable) # Crie vários gráficos com base em uma variável de categoria

Salvando seu lote

Você pode salvar seu gráfico em um arquivo usando a função ggsave(). Por exemplo:

ggsave("your_plot.png", largura = 6, altura = 4, dpi = 300)

Prática e Exploração

Para se tornar proficiente em ggplot2, pratique com seus próprios conjuntos de dados e explore a infinidade de opções e geoms disponíveis. Quanto mais você experimentar, melhor você se tornará na criação de visualizações ricas e informativas.

Comunidade e Recursos

Junte-se às vibrantes comunidades R e ggplot2 para procurar ajuda e compartilhar suas visualizações. Existem inúmeros recursos online, tutoriais e livros dedicados ao ggplot2 para aprofundar o seu conhecimento.

Ao dominar o ggplot2, você terá as ferramentas para criar visualizações complexas e perspicazes, aprimorando sua capacidade de transmitir insights orientados por dados de forma eficaz.

Personalizando a estética do enredo

Na visualização de dados, a personalização é fundamental para produzir visuais impactantes. Exploraremos como ajustar a estética do enredo, incluindo cores, temas e fontes, para garantir que suas visualizações sejam não apenas informativas, mas também visualmente atraentes.

Na visualização de dados, a personalização desempenha um papel vital na criação de gráficos visualmente atraentes e informativos. ggplot2, o poderoso pacote de visualização em R, oferece amplas opções para personalizar a estética do enredo, incluindo cores, temas e fontes.

Temas

ggplot2 oferece vários temas que controlam a aparência geral de seus tramas. O tema padrão é bastante minimalista, mas você pode escolher entre temas como theme_minimal(), theme_bw() ou theme_classic() para mudar a aparência do seu enredo.

ggplot(data = your_data, aes(x = x_variable, y = y_variable)) + geom_point() + theme_minimal()

Cores

Você pode personalizar as cores em seu gráfico, desde as cores de preenchimento e borda dos pontos de dados até as cores de plano de fundo e texto. As funções scale_fill_manual() e scale_color_manual() permitem definir paletas de cores personalizadas.

ggplot(data = your_data, aes(x = x_variable, y = y_variable, color = category_variable)) +

geom_point() +

scale_color_manual(valores = c("vermelho", "azul", "verde"))

Fontes e texto

Você pode ajustar a estética relacionada ao texto, como tamanho da fonte, família de fontes e orientação do texto. A função theme() pode ser usada para este fim.

ggplot(data = your_data, aes(x = x_variable, y = y_variable, label = data_labels)) +

geom_text(tamanho = 12, família = "Arial", ângulo = 45) +

tema(texto = element_text(família = "Arial", tamanho = 14))

Lendas e Eixos

Personalizar legendas, títulos e rótulos de eixos é essencial. Você pode usar funções como labs() para alterar o título do gráfico e os rótulos do eixo. A função theme() também é útil para ajustar o texto do eixo.

ggplot(dados = your_data, aes(x = x_variable, y = y_variable)) +

  geom_point() +

  labs(title = "Custom Plot Title", x = "X-Axis Label", y = "Y-Axis Label") +

  theme(axis.text.x = element_text(tamanho = 12, ângulo = 45))

Salvando parcelas personalizadas

Depois de adaptar a estética do seu lote, você pode salvá-lo em um arquivo usando a função ggsave().

ggsave("custom_plot.png", largura = 6, altura = 4, dpi = 300)



O Kit de Ferramentas do Viajante do Tempo: lubridate

Dados relacionados ao tempo podem ser um desafio para trabalhar, mas com o pacote lubridate, você pode facilmente lidar com datas e horas em R (Spinu et al., 2021). Os participantes ganharão experiência na manipulação e análise de dados temporais, abrindo uma nova dimensão na análise de dados.

O Kit de Ferramentas do Viajante do Tempo: lubridate

Trabalhar com dados relacionados ao tempo pode ser desafiador, mas o pacote de lubrificação em R facilita significativamente (Spinu et al., 2021). Ele fornece funções para analisar, formatar e manipular dados de data e hora. Veja como você pode utilizar o lubridate:

Instalação e carregamento de lubridate

Se ainda não o fez, instale o pacote lubridate e carregue-o no seu ambiente R.

install.packages("lubridate")

biblioteca (lubridate)

Datas de análise

O LubriDate permite analisar cadeias de caracteres em objetos Date usando funções como YMD() (ano, mês, dia) ou DMY() (dia, mês, ano). Por exemplo:

 

date_string <- "2022-12-31"

Data <- YMD(date_string)

Aritmética de Data

Você pode executar várias operações em objetos de data, como calcular intervalos de tempo, adicionar ou subtrair dias e encontrar a diferença entre duas datas.

Hoje <- YMD("2023-03-15")

future_date <- hoje + dias(30)

time_difference <- difftime(future_date, hoje)

Extraindo componentes

O lubridate permite extrair componentes específicos de objetos de data, como ano, mês, dia, hora, minuto e segundo.

ano(hoje)

mês(hoje)

Formatando datas

Você pode formatar objetos de data em cadeias de caracteres personalizadas para apresentação.

format(hoje, formato = "%B %d, %Y")

Lidar com fusos horários

O pacote também lida com fusos horários e horário de verão, garantindo cálculos temporais precisos em diferentes fusos horários.

O LubriDate é um kit de ferramentas inestimável para qualquer analista de dados ou pesquisador que trabalhe com dados temporais, pois simplifica as tarefas muitas vezes complexas associadas à análise de séries temporais e manipulação de dados.

Ao dominar a personalização em ggplot2 e gerenciar efetivamente dados relacionados ao tempo com lubridate, você estará bem equipado para criar visualizações sofisticadas e lidar com dados temporais de forma eficiente.



O pacote forcats, desenvolvido por Hadley Wickham, equipa-o com uma variedade de funções para manipular e visualizar dados categóricos de forma eficaz.

Instalação e Carregamento

Se ainda não o fez, instale o pacote forcats e carregue-o no seu ambiente R.

install.packages("forcats")

Biblioteca(Forcats)

Reordenando os níveis de fator

O pacote forcats permite reordenar os níveis de fatores com base em determinados critérios, facilitando o controle da ordem em que as variáveis categóricas são exibidas nos gráficos.

your_data$your_fator <- fct_reorder(your_data$your_fator, your_variable)

Alteração dos níveis de fatores

Você pode modificar os níveis de fatores, mesclando-os ou recodificando-os para melhor clareza em suas visualizações.

your_data$your_fator <- fct_collapse(your_data$your_fator, "Novo Nível" = c("Nível Antigo 1", "Nível Antigo 2"))

Visualizando dados categóricos

Forcats fornece funções como fct_count() para visualizar eficientemente a frequência de cada nível em uma variável categórica.

ggplot(data = your_data, aes(x = fct_reorder(your_fator, your_variable))) +

  geom_bar() +

  coord_flip()

Lidar com rótulos sobrepostos

Em alguns casos, você pode encontrar rótulos sobrepostos ao visualizar dados categóricos. A função fct_lump() permite agrupar níveis pouco frequentes em uma categoria "Outros", reduzindo a desordem.

your_data$your_fator <- fct_lump(your_data$your_fator, n = 5)

Expandindo horizontes com gridExtra

O pacote gridExtra aprimora seus recursos de visualização de dados, permitindo que você organize vários gráficos criados com ggplot2 em uma única exibição visual. Isso é inestimável para transmitir informações complexas de forma estruturada e abrangente.

Instalação e Carregamento

Se ainda não o fez, instale o pacote gridExtra e carregue-o no seu ambiente R.

install.packages("gridExtra")

biblioteca(gridExtra)

Criação de gráficos compostos

Com gridExtra, você pode criar gráficos compostos organizando gráficos ggplot2 individuais em vários layouts, como linhas ou colunas.

composite_plot <- grid.arrange(plot1, plot2, ncol = 2)

Personalizando layouts

Você tem controle sobre a disposição, o espaçamento e o alinhamento dos gráficos dentro da tela composta, permitindo que você projete visuais que atendam às suas necessidades específicas.

composite_plot <- arranjarGrob(plot1, plot2, ncol = 2, top = "Composite Plot Title")

Salvando gráficos compostos

Depois de criar um gráfico composto, você pode salvá-lo como uma imagem ou incorporá-lo em relatórios e apresentações.

ggsave("composite_plot.png", composite_plot, largura = 8, altura = 6, dpi = 300)

Ao dominar o pacote forcats para manipulação categórica de dados e o pacote gridExtra para visualização avançada, você terá as ferramentas necessárias para gerenciar e visualizar seus dados de forma eficiente, especialmente ao lidar com informações categóricas complexas.

Ao longo deste módulo, você adquirirá habilidades avançadas em manipulação e visualização de dados. O conhecimento e as ferramentas adquiridos aqui permitirão que você enfrente tarefas complexas de análise de dados, transforme dados confusos em informações valiosas e crie visualizações impactantes. À medida que você mergulha no mundo do tidyr, dplyr, ggplot2 e pacotes especializados, sua capacidade de trabalhar com diversos conjuntos de dados e produzir visuais informativos se tornará uma segunda natureza. Essas habilidades servirão como uma base sólida para análise e exploração avançada de dados em sua jornada de ciência de dados.



Auguie, B. (2017). gridExtra: Miscellaneous functions for "Grid" Graphics. R package version 2.3.

Spinu, V., Grolemund, G., & Wickham, H. (2021). lubridate: Make dealing with dates a little easier. R package version 1.8

Wickham, H. (2021). forcats: Tools for working with categorical variables (Factors). R package version 0.5.1.