• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

R语言Data Frame常用用法

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

Data Frame是R中最常用的数据结构,由行和列组成,相当于R中的表,与Matrix每列数据类型必须相同的区别是,数据框每个列可以是不同的数据类型。

Data Frame每一列有列名,每一行也可以指定行名。如果不指定行名,那么就是从1开始自增的Sequence来标识每一行。

(1) 创建数据框

> patientID <- c(1:4)
> age <- c(25,31,42,57)
> diabetes <- c("Type1","Type2","Type3","Type4")
> status <- c("Poor","Improved","Excellent","Poor")
> patientdata <- data.frame(patientID,age,diabetes,status)
> patientdata
patientID age diabetes status
1 1 25 Type1 Poor
2 2 31 Type2 Improved
3 3 42 Type3 Excellent
4 4 57 Type4 Poor

(2)与Matrix一样,使用[行Index,列Index]的格式可以访问具体的元素。

> patientdata
patientID age diabetes status
1 1 25 Type1 Poor
2 2 31 Type2 Improved
3 3 42 Type3 Excellent
4 4 57 Type4 Poor
> patientdata[1,]
patientID age diabetes status
1 1 25 Type1 Poor
> patientdata[,1]
[1] 1 2 3 4
> patientdata[1]
patientID
1 1
2 2
3 3
4 4

patientdata[1:2]
patientdata[c("patientID","age")]

patientID age
1 1 25
2 2 31
3 3 42
4 4 57

(3) attach()、 detach()和with()    使用attach和detach函数可以使得访问列时不需要总是跟着变量名在前面。

比如要打印所有age,那么可以写成:

> print(age)
[1] 25 31 42 57
> detach(patientdata)

with实现相同的功能

> with(patientdata,{
+ print(age)
+ })
[1] 25 31 42 57

(4) 查看数据类型

> str(patientdata)
\'data.frame\': 4 obs. of 4 variables:
$ patientID: int 1 2 3 4
$ age : num 25 31 42 57
$ diabetes : Factor w/ 4 levels "Type1","Type2",..: 1 2 3 4
$ status : Factor w/ 3 levels "Excellent","Improved",..: 3 2 1 3

修改数据类型

patientdata$diabetes<-as.character(patientdata$diabetes)

(5) 增加列:> patientdata$name <- c("Bob","Allen","Tom","Jack")

(6) 查询/子集

查询一个Date Frame,返回一个满足条件的子集,这相当于数据库中的表查询,是非常常见的操作。使用行和列的Index来获取子集是最简单的方法,前面已经提到过。如果我们使用布尔向量,配合which函数,可以实现对行的过滤。

这里我们想得到status为Poor的人的情况:

> patientdata[which(patientdata$status=="Poor"),]
patientID age diabetes status name
1 1 25 Type1 Poor Bob
4 4 57 Type4 Poor Jack

如果只想知道status为Poor的人的姓名:

> patientdata[which(patientdata$status=="Poor"),"name"]
[1] "Bob" "Jack"

还可以用subset更为简洁:

> subset(patientdata,status=="Poor" & age < 30,select = c("name","diabetes"))
name diabetes
1 Bob Type1

还可以用sql语句:

> library(sqldf)
> result<-sqldf("select * from patientdata where status=\'Poor\' and age<30")
> result
patientID age diabetes status name
1 1 25 Type1 Poor Bob

(7)数据框连接

> patientdata1 <- patientdata
> rbind(patientdata,patientdata1)   ##按照列连接,列数必须相同
patientID age diabetes status name
1 1 25 Type1 Poor Bob
2 2 31 Type2 Improved Allen
3 3 42 Type3 Excellent Tom
4 4 57 Type4 Poor Jack
5 1 25 Type1 Poor Bob
6 2 31 Type2 Improved Allen
7 3 42 Type3 Excellent Tom
8 4 57 Type4 Poor Jack
> cbind(patientdata,patientdata1)   ##按照行连接,行数必须相同
patientID age diabetes status name patientID age diabetes status name
1 1 25 Type1 Poor Bob 1 25 Type1 Poor Bob
2 2 31 Type2 Improved Allen 2 31 Type2 Improved Allen
3 3 42 Type3 Excellent Tom 3 42 Type3 Excellent Tom
4 4 57 Type4 Poor Jack 4 57 Type4 Poor Jack

 (8) 更改数据框所有数据的格式

 df<- lapply(df,as.numeric)


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
R语言:如何做回归分析发布时间:2022-07-18
下一篇:
第四篇:R语言数据可视化之折线图、堆积图、堆积面积图发布时间:2022-07-18
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap