EN | PT | TR | RO | BG | SR
;
Marcar como lida
Marcar como não lida


NEXT TOPIC

CONTEÚDO DA UNIDADE




Módulo 1: Introdução ao R e Importação/Manipulação de Dados




Introdução à programação em R e RStudio.

Noções básicas de programação R: tipos de dados, variáveis, operações básicas.

Importação e manipulação de dados em R: leitura de dados em R, manipulação de dados usando dplyr, tidyr e outros pacotes.

Gráficos básicos em R: criação de gráficos de dispersão, gráficos de barras e gráficos de linhas usando ggplot2.



No mundo atual orientado por dados, a capacidade de extrair insights significativos dos dados é uma habilidade muito procurada. Para pesquisadores, cientistas de dados e analistas, a linguagem de programação R e o RStudio são ferramentas indispensáveis em seu arsenal. O R é conhecido por sua flexibilidade em computação estatística e análise de dados, enquanto o RStudio oferece um ambiente de desenvolvimento integrado (IDE) amigável que melhora a experiência R. Este módulo serve como um trampolim fundamental, familiarizando os participantes com os aspetos essenciais do R, desde sua sintaxe até seus poderosos recursos de manipulação de dados e técnicas básicas de visualização de dados. Além disso, aprofundaremos a importância crítica da importação e gestão eficiente de dados no contexto da análise estatística. Ao final deste módulo, os participantes terão adquirido proficiência nas seguintes áreas (R Core Team, 2021).



R for Data Science, um livro influente de autoria de Hadley Wickham e Garrett Grolemund, afirma que "R é uma ferramenta, não uma caixa mágica que cospe resultados" (Grolemund & Wickham, 2016). Compreender e aproveitar o potencial do R começa com a familiaridade e o conforto no seu ambiente. É aí que o RStudio entra em jogo.

RStudio: RStudio é um ambiente de desenvolvimento integrado que melhora a experiência de programação R. Ele fornece uma plataforma interativa para trabalhar com R, tornando-o acessível a usuários de todos os níveis. Para embarcar na sua viagem com R, é essencial conhecer a RStudio.

Veja como começar:

Instalação: Antes de começar sua aventura com R, você precisará instalar o R e o RStudio. Ambos estão disponíveis gratuitamente e são compatíveis com vários sistemas operacionais, incluindo Windows, macOS e Linux.

Interface RStudio: Depois de ter o R e o RStudio instalados, abra o RStudio. A interface do RStudio consiste em quatro painéis: o Editor de Scripts (onde você escreverá seu código), o Console (onde o código é executado e os resultados são exibidos), o painel Ambiente/Histórico (que mostra seu espaço de trabalho atual e histórico de comandos) e o painel Arquivos/Plots/Pacotes/Ajuda, que permite navegar por arquivos, visualizar plotagens, gerenciar pacotes e acessar a documentação de ajuda.

Script R: No Editor de Scripts, você pode escrever, editar e salvar seu código R. É uma boa prática criar e salvar scripts R para seus projetos, pois isso facilita a reprodução de seu trabalho e compartilhá-lo com outras pessoas.

Executando código: Para executar o código R, basta digitá-lo no Editor de Scripts e pressionar Ctrl+Enter (ou Command+Enter no macOS) ou clicar no botão "Executar". O código será executado no Console e qualquer saída ou resultado será exibido lá.

Espaço de trabalho: o painel Ambiente/Histórico mostra seu espaço de trabalho R atual, que inclui objetos como quadros de dados, variáveis e funções que você cria durante as sessões R. É uma maneira útil de acompanhar seus dados e variáveis.

Ajuda: Quando precisar de ajuda com uma função ou pacote, você pode usar a guia Ajuda para acessar a documentação do R e encontrar informações sobre funções ou pacotes específicos.



Com o RStudio como interface, está agora pronto para mergulhar no mundo da programação R. A seguir estão alguns aspetos essenciais que você precisa entender:

Tipos de dados: R oferece vários tipos de dados fundamentais, incluindo numéricos, de caráter, lógicos e fatores (Grolemund & Wickham, 2016). Compreender esses tipos de dados é crucial para uma manipulação de dados eficaz.

Variáveis: Em R, as variáveis são usadas para armazenar dados. Você pode pensar em uma variável como um contêiner que contém um valor específico, como um número, um caractere ou um valor lógico (verdadeiro ou falso). As variáveis são usadas extensivamente em R para análise de dados.

Operações básicas: R permite que você execute uma ampla gama de operações em seus dados. Isso inclui operações aritméticas (adição, subtração, multiplicação e divisão), operações lógicas (comparações) e muito mais. Dominar essas operações é essencial para a manipulação de dados.

Vetores: Em R, um vetor é uma estrutura de dados básica que contém elementos do mesmo tipo de dados. Você pode criar vetores com funções como c() (combinar) ou usando dois pontos : para gerar uma sequência de números. Os vetores são fundamentais para a análise e manipulação de dados.



A importação e manipulação eficientes de dados são a base de uma análise de dados eficaz. R fornece uma infinidade de pacotes e funções para ajudá-lo a ler dados de fontes externas e prepará-los para análise. Dois pacotes indispensáveis para manipulação de dados são dplyr e tidyr.

dplyr: Desenvolvido por Hadley Wickham, dplyr é um pacote que oferece uma gramática para manipulação de dados. Ele fornece um conjunto de funções para executar tarefas comuns de manipulação de dados com uma sintaxe consistente e intuitiva. As principais funções no dplyr incluem filter() (para filtrar linhas), select() (para selecionar colunas), arrange() (para classificar), mutate() (para criar novas variáveis) e summarize() (para resumir dados). Compreender e usar as funções dplyr irá capacitá-lo a manipular e transformar seus dados de forma eficiente.

tidyr: Enquanto o dplyr se concentra na manipulação de dados, o tidyr tem tudo a ver com a arrumação de dados. Os dados são considerados "arrumados" quando estão organizados de forma a facilitar o seu trabalho. Tidyr fornece funções como gather() (para converter dados amplos em dados longos) e spread() (para converter dados longos em dados amplos). Ao arrumar seus dados com o tidyr, você os torna mais passíveis de análise e visualização.



Uma análise de dados eficaz vai além de apenas manipular e resumir dados. A visualização de dados desempenha um papel fundamental na compreensão e comunicação de suas descobertas. R oferece uma grande variedade de pacotes para visualização de dados, com ggplot2 sendo uma das opções mais populares e versáteis.

ggplot2: Desenvolvido por Hadley Wickham, ggplot2 é um pacote para criar visualizações de dados complexas e personalizadas. Ele emprega uma gramática em camadas de gráficos que permite que você construa visualizações passo a passo. Com ggplot2, você pode criar uma ampla gama de visualizações, incluindo gráficos de dispersão para explorar relações entre variáveis, gráficos de barras para comparar categorias e gráficos de linhas para exibir tendências ao longo do tempo. Compreender o ggplot2 permitirá que você crie visualizações informativas e esteticamente agradáveis que dão vida aos seus dados.



Ao iniciar a sua jornada no mundo da R e da manipulação de dados, você deu o primeiro passo para dominar uma ferramenta versátil e poderosa para análise de dados. R e RStudio, quando usados em harmonia, oferecem um ambiente interativo e eficiente para manipulação e visualização de dados. Ao compreender os tipos de dados, variáveis, operações básicas e os recursos de dplyr, tidyr e ggplot2, você se equipou com o conhecimento básico necessário para uma análise de dados bem-sucedida. Com esse conhecimento, você pode começar a explorar, analisar e visualizar dados para descobrir informações valiosas e comunicar suas descobertas de forma eficaz.



R, uma linguagem de programação livre e de código aberto, é conhecida por sua versatilidade em computação estatística e análise de dados (Gentleman & Temple Lang, 2004). RStudio, um ambiente de desenvolvimento integrado (IDE), fornece uma plataforma interativa para trabalhar com R, tornando-o acessível a usuários de todos os níveis. Os participantes se familiarizarão com a interface RStudio, aprenderão a navegar em scripts R e entenderão o fluxo de trabalho de carregamento, processamento e visualização de dados.



Uma compreensão fundamental da programação R requer uma compreensão de tipos de dados, variáveis e operações básicas. R oferece vários tipos de dados, incluindo numéricos, de caráter, lógicos e fatores (Grolemund & Wickham, 2016). Os participantes aprenderão a declarar e manipular variáveis, executar operações aritméticas e usar funções para executar tarefas específicas. Ao dominar esses conceitos básicos, os participantes podem executar tarefas relacionadas a dados de forma eficiente.

Embarcar numa jornada no domínio da programação R é abraçar os elementos centrais que sustentam a análise de dados e a computação estatística. Uma compreensão fundamental da programação R requer uma compreensão abrangente de tipos de dados, variáveis e operações básicas. Neste módulo, vamos desvendar a essência desses conceitos fundamentais, equipando os participantes com os conhecimentos e habilidades essenciais para manipular dados de forma eficiente e executar tarefas de forma eficaz (Grolemund & Wickham, 2016).



No coração da programação R está a noção de tipos de dados. Em essência, os tipos de dados definem como R interpreta e interage com as informações fornecidas. R oferece uma variedade versátil de tipos de dados, e compreender sua natureza é fundamental para aproveitar os recursos da linguagem. Vamos nos aprofundar nos tipos de dados mais essenciais:

  • Numérico: Os tipos de dados numéricos abrangem uma ampla gama de valores numéricos. Estes podem incluir números inteiros (números inteiros) e números reais (decimais). Compreender os tipos de dados numéricos é crucial para a realização de operações matemáticas e estatísticas.
  • Caractere: Os tipos de dados de caracteres consistem em texto e são usados para representar palavras, frases ou qualquer outra forma de informação textual. A capacidade de lidar com dados de caracteres é inestimável ao trabalhar com texto ou rótulos.
  • Lógico: Os tipos de dados lógicos são binários por natureza, representando valores verdadeiros ou falsos. Eles são fundamentais para criar condições e tomar decisões no seu código R.
  • Fatores: Os fatores são um tipo de dados exclusivo em R, representando dados categóricos. Eles são particularmente úteis quando se lida com variáveis que têm um número finito de categorias ou níveis.


As variáveis em R são semelhantes a folders que contêm dados. Eles servem como os blocos de construção fundamentais para qualquer programa R. Você pode pensar em uma variável como um local de armazenamento rotulado para uma informação específica. As variáveis em R devem receber nomes informativos que reflitam o tipo de dados que armazenam. Por exemplo, uma variável chamada "idade" pode armazenar as idades dos indivíduos em um conjunto de dados.

Em R, você declara uma variável atribuindo um valor a ela usando o operador de atribuição <-. Por exemplo, para declarar uma variável "x" com um valor de 5, você deve escrever:

x <- 5

As variáveis podem armazenar dados de diferentes tipos de dados. Por exemplo, você pode declarar uma variável de caractere como esta:

nome <- "John"

Uma vez que uma variável é declarada, você pode usá-la em seu código R para várias operações e cálculos. A capacidade de manipular variáveis é fundamental para a análise e programação de dados em R.



O R permite-lhe realizar uma vasta gama de operações nos seus dados. Estas operações incluem:

  • Operações aritméticas: R permite executar operações aritméticas básicas como adição (+), subtração (-), multiplicação (*) e divisão (/). Essas operações são particularmente úteis para trabalhar com dados numéricos.
  • Operações lógicas: Você pode usar operadores lógicos como maior que (>), menor que (<), igual a (==) e não igual a (!=) para comparar valores e criar condições lógicas. As operações lógicas são essenciais para a tomada de decisões em seu código.
  • Funções: As funções são um conceito fundamental em R. R fornece um vasto número de funções incorporadas que servem vários propósitos. As funções são operações predefinidas que você pode usar para executar tarefas específicas. Por exemplo, a função mean() calcula a média de um conjunto de números e a função paste() combina cadeias de caracteres. Entender como usar funções é crucial para automatizar tarefas e executar operações complexas.

Uma sólida compreensão de tipos de dados, variáveis e operações básicas é a base sobre a qual você pode construir sua proficiência em programação R. Com esse conhecimento fundamental, você está equipado para lidar com uma ampla gama de tarefas relacionadas a dados, desde a execução de operações aritméticas simples até a criação de condições lógicas complexas e a utilização de funções para simplificar seu código.

À medida que você continua sua jornada no mundo da programação R, esses conceitos básicos servirão como sua luz orientadora, permitindo que você manipule dados de forma eficiente, tome decisões informadas e automatize tarefas. Com cada etapa, você se aproximará do domínio dos dados, descobrindo o potencial de análise e exploração aprofundada de dados.



A importação e manipulação eficientes de dados são a pedra angular de uma análise de dados eficaz. Neste módulo, mergulhamos no domínio do tratamento de dados dentro do ambiente R, equipando os participantes com as habilidades necessárias para recuperar, manipular e preparar dados para análise. Uma compreensão robusta da importação e manipulação de dados é fundamental para garantir que seus dados estejam em uma forma adequada para análise e para simplificar todo o fluxo de trabalho de pré-processamento de dados (Wickham et al., 2021).



O passo inicial em qualquer empreendimento de análise de dados é a aquisição de dados. R oferece uma vasta gama de ferramentas e pacotes para facilitar a importação contínua de dados de várias fontes externas. Quer os seus dados residam num ficheiro CSV, numa folha de cálculo Excel, numa base de dados ou noutros formatos, o R fornece os meios para aceder aos mesmos. Este módulo explorará as ferramentas e métodos comuns de importação de dados em R:

  • csv() e read.table(): Essas funções permitem que você leia dados de arquivos CSV e delimitados por tabulações, respectivamente. Eles oferecem uma infinidade de opções para personalizar o processo de importação, como especificar delimitadores e lidar com valores ausentes.
  • Pacote readxl: Ao lidar com arquivos do Excel, o pacote readxl é sua ferramenta preferida. Ele simplifica a extração de dados de pastas de trabalho, planilhas e intervalos do Excel.
  • Pacote readr: O pacote readr, também da autoria de Hadley Wickham, oferece um conjunto de funções para uma importação de dados rápida e eficiente. Ele aprimora o processo de importação de dados, fornecendo funções como read_csv() e read_delim() que otimizam a leitura de dados baseados em texto.

Conexões de banco de dados: R pode se conectar a bancos de dados usando pacotes como DBI e RODBC, permitindo que você recupere dados diretamente de sistemas de banco de dados. Isso é particularmente útil ao trabalhar com grandes conjuntos de dados armazenados em bancos de dados.



A manipulação de dados geralmente envolve tarefas como filtrar, resumir, agrupar e unir conjuntos de dados. O pacote dplyr, de autoria de Hadley Wickham, simplifica essas operações, fornecendo uma gramática consistente e intuitiva para manipulação de dados. Introduz cinco verbos centrais:

  • filter(): Use este verbo para extrair linhas específicas do seu conjunto de dados com base em determinadas condições.
  • arrange(): Organize as linhas do conjunto de dados com base em uma ou mais variáveis, em ordem crescente ou decrescente.
  • select(): Escolha um subconjunto de colunas do seu conjunto de dados, facilitando o foco nos dados relevantes.
  • mutate(): crie novas variáveis ou modifique as existentes aplicando funções ou operações aos seus dados.
  • summarize(): condense seus dados em estatísticas resumidas, agregando informações de forma significativa.


Os dados nem sempre estão no formato mais propício à análise. O pacote arrumado entra em ação para ajudar a remodelar seus dados em um formato organizado e organizado. Os dados organizados são estruturados de forma que cada variável forme uma coluna, cada observação forme uma linha e cada tipo de unidade observacional forme uma tabela. Este formato estruturado simplifica a análise e visualização de dados. Com o tidyr, você pode executar operações como reunir colunas em pares chave-valor e espalhá-las de volta em colunas separadas.

Ao final deste módulo, você terá adquirido as habilidades para importar, manipular e transformar dados de forma eficiente usando R. A importação e manipulação de dados são os blocos de construção iniciais da análise de dados, e essas habilidades são essenciais para preparar seus dados para exploração e análise mais profundas. À medida que você prossegue em sua jornada de análise de dados com R, você encontrará esses recursos inestimáveis para garantir a qualidade e adequação de seus dados para seus objetivos de pesquisa ou análise.



No âmbito da análise de dados, a capacidade de visualizar dados de forma eficaz é uma habilidade de suma importância. A visualização de dados não só ajuda a entender a estrutura subjacente e os padrões dentro dos dados, mas também serve como um meio poderoso de transmitir descobertas a outras pessoas. Neste módulo, viajaremos para o mundo da visualização de dados usando o pacote ggplot2, uma ferramenta versátil para criar uma ampla gama de visualizações (Wickham, 2016).



O ggplot2 de Hadley Wickham é um pacote amplamente aclamado no ecossistema R, conhecido por sua flexibilidade e sintaxe elegante. Ao contrário dos gráficos base R, que às vezes podem ser complicados e menos intuitivos, ggplot2 introduz uma gramática de gráficos, que simplifica o processo de criação de visualizações complexas e esteticamente agradáveis.

Um dos princípios fundamentais do ggplot2 é a abordagem em camadas. Você adiciona camadas ao seu gráfico passo a passo, construindo gradualmente a visualização. Essa abordagem é particularmente benéfica quando você deseja criar gráficos complexos com vários componentes. Vamos nos aprofundar nos tipos de parcelas que exploraremos neste módulo.



Os gráficos de dispersão são inestimáveis quando você precisa entender as relações entre duas variáveis contínuas. Eles permitem visualizar como as mudanças em uma variável afetam a outra. Em ggplot2, criar gráficos de dispersão é um processo simples. Você especificará os dados, mapeará variáveis para propriedades estéticas (como posição nos eixos x e y) e adicionará pontos ou outras geometrias para representar os dados.

Os terrenos de bar são uma escolha fantástica para comparar categorias ou grupos. Eles são comumente usados para exibir contagens ou proporções de dados categóricos. Você pode criar gráficos de barras verticais e horizontais, dependendo de suas preferências. No ggplot2, a criação de parcelas de bar é intuitiva e altamente personalizável. Você pode controlar a aparência de barras, rótulos de eixos e cores para transmitir seus dados de forma eficaz.

Os gráficos de linhas são a sua escolha quando você deseja visualizar tendências e mudanças ao longo do tempo. Estes gráficos são particularmente úteis para dados de séries cronológicas ou quaisquer dados que tenham uma sequência natural. No ggplot2, a criação de gráficos de linhas é simples e altamente personalizável. Você pode plotar várias linhas no mesmo gráfico, personalizar tipos de linha e cores e adicionar rótulos e anotações informativos.

Na conclusão deste módulo, você terá uma sólida compreensão de como criar gráficos de dispersão, gráficos de barras e gráficos de linhas usando ggplot2. As competências aqui adquiridas irão capacitá-lo a explorar visualmente e comunicar os seus dados de forma eficaz. A visualização de dados é uma linguagem universal que transcende as fronteiras disciplinares, e sua proficiência na criação de visualizações atraentes e informativas será um ativo valioso em sua jornada de análise de dados.

Este módulo fornece a base para a utilização proficiente de R e RStudio, capacitando os participantes a embarcar em sua jornada em análise, manipulação e visualização de dados.



Gentleman, R., & Temple Lang, D. (2004). Statistical analyses and reproducible research. Bioconductor Project. https://bioconductor.org/help/course-materials/2003/RESOURCES/inst/doc/HowTo/curation-1.pdf

Grolemund, G., & Wickham, H. (2016). R for data science. O'Reilly Media.

R Core Team. (2021). R: A language and environment for statistical computing. R Foundation for Statistical Computing. https://www.R-project.org/

Wickham, H. (2016). ggplot2: Elegant graphics for data analysis. Springer. https://ggplot2.tidyverse.org /

Wickham, H., Averick, M., Bryan, J., Chang, W., McGowan, L. D., François, R., ... & R Studio. (2021). Welcome to the tidyverse. Journal of Open Source Software, 6(1), 1686.