R语言学习笔记9-数据过滤-分组-融合
R语言学习笔记9-数据过滤-分组-融合
- 数据过滤
- 基础数据过滤
- 条件筛选数据
- 使用dplyr包进行数据操作
- 使用subset()函数进行简单数据过滤
- 数据分组
- 使用split()进行数据分组
- 使用dplyr包进行数据分组
- 使用data.table包进行数据分组
- 数据融合
- 使用merge()进行数据融合
- 使用dplyr包进行数据融合
- 使用data.table包进行数据融合
数据过滤
数据选择是指从数据结构(如数据框、列表等)中提取、筛选或操作数据的过程。从数据集中提取符合条件的行或列。这在数据分析和清洗过程中非常常见,可以从大量数据中快速筛选出需要的部分,R提供了包括基础的索引、逻辑条件、函数式编程方法等实现
(图片来源网络,侵删)基础数据过滤
使用方括号 [ ] 进行基本索引和切片
# 创建一个示例数据框 df 25, ] # 筛选年龄大于25岁的行数据 # 多条件筛选 df[df$age > 25 & df$gender == "M", ] # 筛选年龄大于25岁且性别为男性的行数据
使用dplyr包进行数据操作
# 加载 dplyr 包 library(dplyr) # 示例数据框 df 25) # 多条件筛选 df_multi_filter % filter(age > 25, gender == "M") # 按条件计算新列 df_calculated % mutate(score_adjusted = score * 1.1) # 添加一个新的列,表示成绩调整后的值 # 按组计算汇总统计 df_summary % group_by(gender) %>% summarise(mean_age = mean(age), max_score = max(score)) # 按性别计算平均年龄和最高分 print(df_selected) print(df_filtered) print(df_multi_filter) print(df_calculated) print(df_summary)
使用subset()函数进行简单数据过滤
subset()函数可以根据行和列的逻辑条件从数据框中选择子集
# 使用 subset 函数筛选数据 # 筛选年龄大于25岁的行 filtered_df 25) # 多条件筛选 filtered_df 25 & gender == "M") # 查看处理后的数据 print(filtered_df) 输出结果: name age gender score 2 Bob 30 M 92 3 Charlie 28 M 85
数据分组
数据分组是指将数据集按照某个或多个变量的值进行划分,以便对每个分组进行独立的分析或操作。数据分组在处理具有分类特征的数据集时特别有用,可帮助我们理解不同类别或组别之间的数据特征和差异
使用split()进行数据分组
在基础R中,可使用split()函数来根据某个变量的值将数据分组
# 创建一个示例数据框 df
文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。