0%

data.table是对R的原生包data.table的扩展版本,无论是编码效率和执行效率都要比data.table快的多

在本章中:
– subset特指对行的选择
– select特指对列的选择

创建

DT <- data.table(ID = c("b","b","b","a","a","c"), A = 1:6, B = 7:12,C=13:18)

可见data.table的创建和data.frame类似,都是传入若干个向量,不同的是,data.frame中的character类型向量会自动转化为factor,data.table则不会,使用class(DT$ID)查看该属性的类型,返回”character”

也可以根据已有的data.frame类型直接转化为data.table:A是data.frame类型

B <- as.data.table(A)

阅读全文 »

描述性统计分析

统计函数:

对于向量类型x:
| 统计量 | 函数 |
| ——- | ——- |
| 平均数 | mean(x) |
| 中位数 | median(x) |
| 方差 | var(x) |
| 标准差 | sd(x) |
| 值域 | range(x) |
| 求和 | sum(x) |
| 求最小值 | min(x) |
| 求最大值 | max(x) |

阅读全文 »

数据可视化

条形图(Bar plots)

基本条形图:barplot(height),其中height是一个向量或者矩阵
例子:

# vertical barplot
barplot(counts,main="Simple Bar Plot",xlab="Improvement",ylab="Frequency")

# horizontal bar plot
barplot(counts,main="Horizontal Bar Plot",xlab="Frequency", ylab="Improvement",horiz=TRUE)

main是条形图标题,xlab和ylab是横总坐标的标签,最后一个可选参数表示是否为纵条形图

阅读全文 »

R语言是一门数据处理语言,本文记录R语言学习的过程和一些注意点

基本数据结构

对于数据集行和列的不同术语:

  • 统计学:观测(observation)/变量(variable)
  • 数据分析师:记录(record)/字段(field)
  • 机器学习与数据挖掘:示例(example)/属性(attribute)

R的数据结构包括向量,数组,数据框和列表,R可以处理的数据类型成为模式(modes),包括数值型,字符型,布尔型,复数型和原生型(字节)

向量,矩阵,数组的本质是数组,唯独分别是一维,二维,更高,三者必须有相同的模式,而列表每一个元素可以是不同类型,是一个广义表。

阅读全文 »

记录Archlinux下RStudio使用的一些坑

安装R

yaourt -S r #安装R
yaourt rstudio-desktop-bin #安装R的IDE

控制台输入R进入交互界面

阅读全文 »