R语言编程-Tidyverse 书籍-第二章（1）

2024-04-10 12:00:39 阅读数 1155

本章节主要讲数据操作

三个关键点

向量化编程思维和函数式编程思维，应用在数据框或更高级的数据结构中
将复杂数据操作分解为若干基本数据操作的能力
：数据连接、数据重塑（长宽变换/拆分合并列）、筛选行、排序行、选择列、修改列、分组汇总
接受数据分解的操作思维

1 管道操作

magrittr 包引入了管道操作，能够通过管道将数据从一个函数传给另一个函数，从而用若干函数
构成的管道依次变换你的数据。
例如
x %>% f() %>% g()
依次对数据进行若干操作：先对x 进行f 操作, 接着对结果数据进行g 操作

常用管道操作

管道默认将数据传给下一个函数的第1 个参数，且它可以省略。
如

c(1, 3, 4, 5, NA) %>%
    mean(na.rm = TRUE)

数据可以在下一个函数中使用多次

数据经过管道默认传递给函数的第1 个参数（通常直接省略）；若在非第1 个参数处使用该数据，
必须用“.” 代替（绝对不能省略），这使得管道作用更加强大和灵活.
同时用于拼接成字符串给main 参数用于图形标题

c(1, 3, 4, 5) %>%
   plot(main = str_c(., collapse=","))

"." 用于管道操作中代替数据；".x" 用于purrr 风格公式（匿名函数）。

2 数据读入

readr 包

read_csv() 和read_tsv()；
专门的欧式： read_csv2() 和read_tsv2()；欧式格式数据以“;” 为分隔符，“,” 为小数位.
写出数据到文件：write_csv(), write_tsv(), write_csv2(), write_tsv2()
转化数据类型：parse_number(), parse_logical(), parse_factor()

readxl 包

专门读取Excel 文件，包括同一个工作簿中的不同工作表：
read_excel(): 自动检测xls 或xlsx 文件
read_xls(): 读取xls 文件
read_xlsx(): 读取xlsx 文件
读写Excel 文件好用的包，还有openxlsx

haven 包

读写SPSS, Stata, SAS 数据：

读：read_spss(), read_dta(), read_sas()
写：write_spss(), write_stata(), write_sas()

保存与载入rds 数据

除了save() 和load() 函数外，以下函数也可以：
write_rds(iris, "my_iris.rds")
dat = read_rds("my_iris.rds")

连接数据库

将大数据存放在远程数据库（远程服务器或本地硬盘），然后建立与R 的连接，再从R 中执行查
询、探索、建模等。
dplyr 是tidyverse 操作数据的最核心包，而dbplyr 包是用于数据库的dplyr 后端，让您能够
操作远程数据库中的数据表，就像它们是内存中的数据框一样。安装dbplyr 包时，还会自动安装DBI
包，它提供了通用的接口，使得能够使用相同的代码与许多不同的数据库连用。
常见的主流数据库软件：SQL Server, MySQL, Oracle 等都能支持，但还需要为其安装特定的驱
动，比如
RMariaDB 包：连接到MySQL 和MariaDB

这里不详细写，因为很少使用。

中文编码

中文乱码是让很多编程者头痛的问题。
ASCII最通用，是UTF8与GBK两者之间的交集
UTF8目前具有更加通用的形式
每个读取函数都有自己读入的设置参数
readr 包和rvest 包（爬虫）都提供了函数guess_encoding()，可检测文本和网页的编码
方式；python 有一个chardet 库在检测文件编码方面更强大。

3 数据连接

合并行：下方堆叠新行，根据列名匹配列，注意列名相同，否则作为新列（NA 填充）；
合并列：右侧拼接新列，根据位置匹配行，行数必须相同。

purrr 包中map_dfr() 和map_dfc() 函数可以在批量读入数据的同时做合并行/合并列。

根据值匹配合并数据框

左连接：left_join()，保留x 所有行，合并匹配的y 中的列, 没有的使用NA补充

x  %>% 
   left_join(y, by = c("var1"="var2")) 
或者多个变量： by=c("var1", "var2")

类似的有
右连接：right_join()，保留所有的y，
全连接：full_join()，保留所有的行
内连接：inner_join(), 只保留共有的行
半连接：semi_join(),根据在y 中，来筛选x 中的行。
反连接：anti_join(), 根据不在y 中，来筛选x 中的行

多个数据表连接，使用purrr包中的reduce()

需要批量读取它们，再依次做全连接（做其他连接也是类似的）。reduce() 可以实现先将前两个
表做全连接，再将结果表与第三个表做全连接（更多表就依次这样做下去）：

files = list.files("datas/achieves/", pattern = "xlsx", full.names = TRUE)
map(files, read_xlsx) %>%
reduce(full_join, by = " 人名") # 读入并依次做全连接

若还是上述数据，但是在一个工作簿的多个工作表中，批量读取并依次做全连接：

path = "datas/3-5 月业绩.xlsx"
map(excel_sheets(path),~ read_xlsx(path, sheet = .x)) %>%
reduce(full_join, by = " 人名")

集合运算

intersect(x, y) # 返回x 和y 共同包含的观测；
union(x, y) # 返回x 和y 中所有的（唯一) 观测；
setdiff(x, y) # 返回在x 中但不在y 中的观测。

数据重塑

整洁的数据：是变量为一列，观测值为一行，组成数据框。
如果不整洁，需要首先重塑数据。
数据重塑主要包括长宽表转化、拆分/合并列。
使用函数tidyr包的 pivot_longer() 和pivot_wider().

宽表变长表

宽表的特点是：表比较宽，本来该是‘‘值” 的，却出现在‘‘变量（名）” 中。
用tidyr 包中的pivot_longer() 函数来实现宽表变长表，其基本格式为：
pivot_longer(data, cols, names_to, values_to, values_drop_na, ...)

data: 要重塑的数据框
cols: 用选择列语法选择要变形的列
names_to: 为存放变形列的列名中的’’ 值’’，指定新列名
values_to: 为存放变形列中的’’ 值’’，指定新列名
values_drop_na: 是否忽略变形列中的NA
若变形列的列名除了’’ 值’’ 外，还包含前缀、变量名+ 分隔符、正则表达式分组捕获模式，则可
以借助参数names_prefix, names_sep, names_pattern 来提取出‘‘值’’。

宽变长

每行有一个观测值

df %>% 
  pivot_longer(-var, names_to = "year", values_to = "GDP")

每行有多个观测值

df %>%  
  pivot_longer(-var, 
               names_to = c(".value", "child"),
               names_sep = "_",
               values_drop_na = T
               )

df %>% 
  pivot_longer(everything(),
               names_to = c("number", ".value"),
               names_pattern = "(.*\\d)(.*)")

长表变宽表

用tidyr 包中的pivot_wider() 函数来实现长表变宽表，其基本格式为：

pivot_wider(data, id_cols, names_from, values_from, values_fill, ...)

data: 要重塑的数据框
id_cols: 唯一识别观测的列，默认是除了names_from 和values_from 指定列之外的列
names_from: 指定列名来自哪个变量列
values_from: 指定列’’ 值’’ 来自哪个变量列

另外还有若干帮助修复列名的参数：names_prefix, names_sep, names_glue.

长变宽时，经常会遇到两个问题：

长变宽正常会压缩行，为什么行数没变呢？
回答:长变宽时要注意，是不能带着类似x 列这种唯一识别各行的ID 列的
值不能被唯一识别，输出将包含列表列

df = df %>%
group_by(y) %>%
mutate(n = row_number())
df

拆分列与合并列

用separate() 函数来拆分列，其基本语法为：
** separate(data, col, into, sep, ...)**

col: 要拆分的列
into: 拆开的新列，
sep: 指定根据什么分隔符拆分
separate_rows() 函数，可对不定长的列进行分列，并按行堆叠放置

用unite() 函数来合并列，其基本语法为：
unite(data, col, sep, ...)

col: 要合并的列
sep: 指定合并各列添加的分隔符

方形化

方形化（Rectangling）是将一个深度嵌套的列表（通常来自JSON 或XML）驯服成一个整齐的行和列的数据集

unnest_longer()：提取列表列的每个元，再按行存放（横向展开）
unnest_wider()：提取列表列的每个元，再按列存放（纵向展开）
unnest_auto()：提取列表列的每个元，猜测按行或按列存放
hoist()：类似unnest_wider()，但只取出选择的组件，且可以深入多个层
或者改用hoist() 直接从内层提取想要的列，再对列表列title 做纵向展开：

2.5 操作数据

用dplyr 包实现各种数据操
共有5 种基本数据操作：

select()—— 选择列用:
用“:”选择连续的若干列
用"!"选择变量集合的余集（反选）
"&" 和"|" 选择变量集合的交或并
"c()" 合并多个选择
everything(): 选择所有列
last_col(): 选择最后一列
starts_with(): 以某前缀开头的列名
ends_with(): 以某后缀结尾的列名
contains(): 包含某字符串的列名
matches(): 匹配正则表达式的列名
num_range(): 匹配数值范围的列名，如num_range("x", 1:3) 匹配x1, x2, x3
where(): 应用一个函数到所有列，选择返回结果为TRUE 的列，比如与is.numeric 等函数连用

根据正则表达式匹配选择列：
df %>%
   select(matches("m.*a"))

根据条件（逻辑判断）选择列，例如选择所有数值型的列：
df %>%
     select(where(is.numeric))

也可以自定义返回TRUE 或FALSE 的判断函数，支持purrr 风格公式写法。例如，选择列和>3000 的列：
df[, 4:8] %>%
select(where(~ sum(.x, na.rm = TRUE) > 3000))

filter()/slice()——筛选行
arrange()——对行排序
mutate()—— 修改列/创建新列
summarize()—— 汇总
这些函数都可以与
group_by()——分组
across() - 选择多列
if_any(), if_all()
连用，以改变数据操作的作用域：作用在整个数据框，或数据框的每个分组。

调整列的顺序

列是根据被选择的顺序排列
everything() 返回未被选择的所有列，将某一列移到第一列时很方便：

df %>%
   select(var5, everything())

用relocate() 函数，将选择的列移到某列之前或之后，基本语法为：
relocate(.data, ..., .before, .after)

例如，将数值列移到name 列的后面：
df %>%
relocate(where(is.numeric), .after = name)

set_names() 为所有列设置新列名

rename() 只修改部分列名，格式为：新名= 旧名

rename_with(.data, .fn, .cols) (最好用)

.col 支持用选择列语法选择要重命名的列，
.fn 是对所选列重命名的函数，将原列名的字符向量变成新列名的字符向量。

比如，将包含”m’’ 的列名，都拼接上前缀”new_“:

df %>%
    rename_with(~ paste0("new_", .x), matches("m"))

across()

函数across() 人如其名，让零个/一个/多个函数穿过所选择的列，即同时对所选择的多列应用若干函数，基本格式为
across(.cols = everything(), .fns = NULL, ..., .names)

.cols 为根据选择列语法选定的列范围；
.fns 为应用到选定列上的函数，它可以是：
NULL：不对列作变换；
一个函数，如mean;
一个purrr 风格的匿名函数，如~ .X * 10
多个函数或匿名函数构成的列表
.names 用来设置输出列的列名样式，默认为{col}_{fn}

across() 支持各种选择列语法，与mutate() 和summarise() 连用，产生非常强大的同时修改/（多种) 汇总多列效果；
across() 也能与group_by(), count() 和distinct() 连用，此时.fns 为NULL，只起选择列的作用。
新组合：

across(everything(), .fns): 在所有列范围内，代替后缀_all
across(where(), .fns): 在满足条件的列范围内，代替后缀_if
across(.cols, .fns)：在给定的列范围内，代替后缀_at