Силата на tidyr
Пакетът tidyr, разработен от Хадли Уикъм, е предназначен за подреждане на разхвърляни набори от данни, като ги прави по-подходящи за анализ. Подреждането на данните включва преоформянето им от широк формат в дълъг формат, като се гарантира, че всяка променлива има собствена колона, а всяко наблюдение има собствен ред (Wickham & Henry, 2018). Участниците ще овладеят изкуството на подреждането на данни, което ще им позволи да подготвят своите набори от данни за ефективен анализ.
Пакетът tidyr, разработен от Хадли Уикъм, се фокусира върху подреждането на неподредени набори от данни, като позволява на анализаторите на данни и учените да работят с данните по по-структуриран и организиран начин (Wickham & Henry, 2018). Основната цел е да се трансформират данните от широк формат в дълъг формат, като се гарантира, че всяка променлива има собствена колона, а всяко наблюдение има собствен ред.
Ето ръководство стъпка по стъпка за това как да се използва силата на tidyr в R
Инсталиране и зареждане на пакета tidyr
Преди да можете да използвате tidyr, трябва да инсталирате и заредите пакета. Можете да направите това, като използвате следните команди:
install.packages("tidyr")
library(tidyr)
Разбиране на подреждането на данни
Подреждането на данни означава преструктурирането им, за да отговарят на принципите на подредените данни, определени от Хадли Уикъм. В един подреден набор от данни:
Всяка променлива образува колона.
Всяко наблюдение образува ред.
Всяка стойност е в отделна клетка.
Данните са организирани по начин, който опростява манипулирането, анализа и визуализацията на данните.
Преоформяне на данните с функцията gather()
Функцията gather() е основен инструмент за преобразуване на данни от широк формат в дълъг формат. Тази функция взема множество колони и ги сгъстява в двойки ключ-стойност. Тя е особено полезна при работа с набори от данни, в които множество колони представляват различни времеви точки, категории или променливи.
Основният синтаксис на collect() е следният:
gathered_data <- gather(original_data, key = "new_key_column", value = "new_value_column", columns_to_gather)
original_data: Вашият оригинален набор от данни.
new_key_column: Името на новата колона, която ще съдържа имената на променливите.
new_value_column: Името на новата колона, която ще съдържа стойностите.
columns_to_gather: Колоните, които искате да преоформите в двойки ключ-стойност.
Разпространение на данни с функцията spread()
И обратното, може да се наложи да разпределите данните от дълъг формат в широк формат, когато искате променливите, които се съхраняват като двойки ключ-стойност, отново да бъдат отделни колони. За тази цел се използва функцията spread().
Основният синтаксис на spread() е следният:
spread_data <- spread(original_data, key = "new_key_column", value = "new_value_column")
original_data: Вашият оригинален набор от данни в дълъг формат.
new_key_column: Колоната, съдържаща имената на променливите.
new_value_column: Колоната, съдържаща стойностите.
Работа с липсващи данни
При подреждането на данните може да се сблъскате с липсващи стойности. Tidyr предоставя функции като drop_na() за премахване на редове, съдържащи липсващи стойности.
Пример за подреждане на данни
Да речем, че имате набор от данни, в който колоните представляват различни години, и искате да го преобразувате в дълъг формат, за да работите с него по-ефективно. Можете да използвате функцията gather() по следния начин:
long_data <- gather(original_data, key = "Year", value = "Value", 2000:2020)
Този код взема оригиналния набор от данни (original_data) и го трансформира в дълъг формат с две нови колони - "Година" и "Стойност". Колоната "Година" ще съдържа годините (от 2000 до 2020 г.), а колоната "Стойност" ще съдържа съответните стойности.
Подреждане за анализ
Подреждането на данните е важна стъпка в анализа на данни. След като данните ви са подредени, можете ефективно да използвате пакета dplyr за манипулиране на данни и да генерирате проницателни визуализации с ggplot2.
Сега, след като се запознахме с възможностите на tidyr в R, нека преминем към следващия раздел, в който ще навлезем в разширеното манипулиране на данни с помощта на пакета dplyr.
Ефективност с dplyr
Пакетът dplyr, още едно творение на Хадли Уикъм, представлява граматика за манипулиране на данни. Той предоставя набор от функции за преобразуване на данни, включително филтриране, подреждане, групиране, обобщаване и други (Wickham et al., 2021). Участниците ще открият как да използват силата на dplyr за ефективно обработване и трансформиране на данни, за да извлекат значими прозрения.
Както беше споменато, dplyr, разработен от Хадли Уикъм, е мощен инструментариум за преобразуване на данни, предлагащ редица функции, които правят манипулирането на данни по-интуитивно и ефективно (Wickham et al., 2021).
Предлагаме ви изчерпателно ръководство за това как да използвате ефективността на dplyr в R
Инсталиране и зареждане на пакета dplyr
Преди да можете да използвате dplyr, трябва да инсталирате и заредите пакета. Можете да направите това със следните команди:
install.packages("dplyr")
library(dplyr)
Основни глаголи
Dplyr се фокусира върху няколко основни глагола, които служат като градивни елементи за манипулиране на данни. Тези глаголи включват:
filter(): Избира редове, които отговарят на определени условия.
arrange(): Подрежда редове въз основа на една или повече колони.
select(): Избира конкретни колони.
mutate(): Създава нови променливи въз основа на съществуващите.
summarize(): Агрегира данните за обобщаване.
Последователни операции с %>%
Синтаксисът на Dplyr позволява обединяване на няколко операции с помощта на оператора %>% (произнася се "pipe"). Това ви позволява да създавате поредица от стъпки за манипулиране на данни, което прави кода ви по-четим и кратък. Например:
result <- dataset %>%
filter(condition) %>%
select(columns) %>%
arrange(order) %>%
group_by(grouping) %>%
summarize(summary)
Филтриране на данни с filter()
Функцията filter() ви позволява да избирате редове въз основа на определени условия. Например:
filtered_data <- dataset %>% filter(column > value)
Подреждане на данни с arrange()
Функцията arrange() се използва за сортиране на редове въз основа на една или повече колони. Например:
sorted_data <- dataset %>% arrange(column1, column2)
Избиране на колони с функцията select()
Select() ви позволява да избирате определени колони от набора от данни. Например:
selected_columns <- dataset %>% select(column1, column2)
Създаване на нови променливи с mutate()
mutate() се използва за създаване на нови променливи чрез преобразуване на съществуващи. Например:
mutated_data <- dataset %>% mutate(new_variable = old_variable * 2)
Обобщаване на данни с summarize()
Функцията summarize() ви позволява да обобщавате данни, което е особено полезно за генериране на обобщена статистика. Например:
summary_data <- dataset %>% group_by(grouping_column) %>% summarize(mean = mean(value), sd = sd(value))
Групиране на данни с функцията group_by()
Групирането на данни с функцията group_by() е от съществено значение, когато искате да извършвате операции върху подмножества от данни. Често се използва в комбинация с summarize() за изчисляване на статистически данни за различни групи.
Ефективност и многозначност на данните
Едно от основните предимства на dplyr е неговата ефективност, тъй като операциите са оптимизирани за бързина. Освен това ясният и кратък синтаксис намалява многословието на данните, което прави кода ви по-четим и лесен за поддържане.
Обработка на грешки
Dplyr предоставя смислени съобщения за грешки, които могат да ви помогнат бързо да идентифицирате и отстраните проблеми в кода за манипулиране на данни.
Практика и приложение
За да придобиете опит в използването на dplyr, практикувайте върху реални набори от данни и изследвайте различни сценарии за преобразуване на данни. Колкото повече го използвате, толкова повече ще оценявате неговата ефективност и гъвкавост.
С овладяването на dplyr ще разкриете способността си ефективно да обработвате, манипулирате и извличате информация от данните си, като подобрявате възможностите си за анализ на данни и вземане на решения.