基础操作从包管理开始:
- 安装包:`install.packages("包名")`如`install.packages("tidyverse")`安装数据分析“全家桶”
- 加载包:`library(包名)`如`library(dplyr)`调用数据处理工具
- 查看帮助:`?函数名`如`?mean`查看均值函数用法,遇到问题先查帮助文档。
二、数据处理:从导入到清洗
数据导入是分析的起点。常用包及函数需牢记:
- 文件:`readr::read_csv("文件路径")`快速读取CSV,支持中文
- Excel文件:`readxl::read_excel("文件路径", sheet = "Sheet1")`需安装Java
- 数据框操作:`dplyr`包的核心函数:
- 筛选行:`filter(数据框, 条件)`如`filter(data, 年龄 > 18)`
- 选择列:`select(数据框, 列名1, 列名2)`保留关键变量
- 新增列:`mutate(数据框, 新列 = 表达式)`如`mutate(data, BMI = 体重/身高^2)`
三、数据可视化:用图表讲清故事
可视化是数据分析的“窗口”,`ggplot2`包是行业标准。基础语法为`ggplot(数据, aes(x=变量1, y=变量2)) + 几何图层`:
- 散点图:`geom_point(color = "red", size = 2)`观察变量相关性
- 柱状图:`geom_bar(fill = "blue")`比较类别差异
- 折线图:`geom_line(linetype = "dashed")`展示趋势变化
关键原则:明确图表目的,简化冗余元素,用颜色和标签增强可读性。
四、统计分析:从描述到推断
描述性统计快速掌握数据特征:
- `summary(数据框)`:输出均值、中位数、四分位数等
- `table(数据框$分类变量)`:统计类别频数
推断性统计验证研究假设:
- t检验:`t.test(数值变量 ~ 分组变量, data = 数据框)`比较两组均值差异
- 线性回归:`lm(因变量 ~ 自变量, data = 数据框)`分析变量间关系,结果用`summary()`查看 通过以上步骤,从环境配置到统计建模,即可成基础数据分析全流程。R语言的强大在于“即学即用”,多练习真实数据集如R内置的`iris`、`mtcars`,能快速提升技能。数据分析的核心不是工具,而是用代码将数据转化为洞察——这正是R语言的价值所在。
