R语言学习笔记9-数据过滤-分组-融合

07-17 1582阅读

R语言学习笔记9-数据过滤-分组-融合

数据过滤
- 基础数据过滤
- 条件筛选数据
- 使用dplyr包进行数据操作
- 使用subset()函数进行简单数据过滤
- 数据分组
- - 使用split()进行数据分组
  - 使用dplyr包进行数据分组
  - 使用data.table包进行数据分组
  - 数据融合
  - - 使用merge()进行数据融合
    - 使用dplyr包进行数据融合
    - 使用data.table包进行数据融合
      数据过滤
      
      数据选择是指从数据结构（如数据框、列表等）中提取、筛选或操作数据的过程。从数据集中提取符合条件的行或列。这在数据分析和清洗过程中非常常见，可以从大量数据中快速筛选出需要的部分，R提供了包括基础的索引、逻辑条件、函数式编程方法等实现
      （图片来源网络，侵删）
      
      基础数据过滤
      
      使用方括号 [ ] 进行基本索引和切片
```
# 创建一个示例数据框
df  25, ]  # 筛选年龄大于25岁的行数据
# 多条件筛选
df[df$age > 25 & df$gender == "M", ]  # 筛选年龄大于25岁且性别为男性的行数据
```
      使用dplyr包进行数据操作
```
# 加载 dplyr 包
library(dplyr)
# 示例数据框
df  25)
# 多条件筛选
df_multi_filter %
  filter(age > 25, gender == "M")
# 按条件计算新列
df_calculated %
  mutate(score_adjusted = score * 1.1)  # 添加一个新的列，表示成绩调整后的值
# 按组计算汇总统计
df_summary %
  group_by(gender) %>%
  summarise(mean_age = mean(age), max_score = max(score))  # 按性别计算平均年龄和最高分
print(df_selected)
print(df_filtered)
print(df_multi_filter)
print(df_calculated)
print(df_summary)
```
      使用subset()函数进行简单数据过滤
      
      subset()函数可以根据行和列的逻辑条件从数据框中选择子集
```
# 使用 subset 函数筛选数据
# 筛选年龄大于25岁的行
filtered_df  25)
# 多条件筛选
filtered_df  25 & gender == "M")
# 查看处理后的数据
print(filtered_df)
输出结果：
     name age gender score
2     Bob  30      M    92
3 Charlie  28      M    85
```
      数据分组
      
      数据分组是指将数据集按照某个或多个变量的值进行划分，以便对每个分组进行独立的分析或操作。数据分组在处理具有分类特征的数据集时特别有用，可帮助我们理解不同类别或组别之间的数据特征和差异
      
      使用split()进行数据分组
      
      在基础R中，可使用split()函数来根据某个变量的值将数据分组
```
# 创建一个示例数据框
df 
```