描述性统计分析
统计函数:
对于向量类型x:
| 统计量 | 函数 |
| ——- | ——- |
| 平均数 | mean(x)
|
| 中位数 | median(x)
|
| 方差 | var(x)
|
| 标准差 | sd(x)
|
| 值域 | range(x)
|
| 求和 | sum(x)
|
| 求最小值 | min(x)
|
| 求最大值 | max(x)
|
summary()函数
summary()
函数提供了最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计。
sapply()函数
sapply()
函数,使用格式为sapply(x,FUN,options)
,x是数据框,FUN是任意函数,sapply()
对对数据框的每一列应用FUN函数,option会被指定给FUN
aggregate()函数
分组计算描述性统计量:aggregate(mtcars[myvars], by=list(am=mtcars$am), sd)
by()函数
aggregate()
仅允许在每次调用中使用平均数、标准差这样的单返回值函数。它无法一次返回若干个统计量。要完成这项任务.可以使用by()
函数。格式为:by(data,INDICES,FUN)
,其中data是一个数据框或矩阵,INDICES是一个因子或因子组成的列表,定义了分组,FUN是任意函数:单返回值函数和多返回值函数均可。
频数表(列联表)
频数表是将数据集按照某个特定列分类(分组)时观察每个类/组中数据出现次数的表。
列联表(contingency tables)也是频数表,只不过它会分析的是将数据集按两个或两个以上类别变量联合分组时观察数据在每个分组中出现频数的表。