• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

基于R语言的大数据分析介绍之(一)R语言简介和R控制台介绍 ...

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

一、R语言简介

这节课我们会初步学习R的功能和使用。 我们会学习怎样在不同的操作系统安装R。 我们会在开始控制台内使用R,并且分别用交互式和批处理的方式使用R。 最后,在这节课,我们会讨论怎样用包来扩展R

1、R的功能和使用。R是一个优秀的数据分析和制图的软件环境。 它最初由Ross Ihaka和Robert Gentleman1993年在新西兰,奥克兰大学创建。 它们将R创建为一种帮助教学生统计初步的语言。 它们的R基于更早的1970年在贝尔实验室开发的S语言。 一段时间之后,他们把R开源了出去。 目前世界上存在着一个非常活跃的R社区。

1) 因为主要被设计为数据分析,R被看作是领域专用语言。 R程序主要使用函数来创建,程序由R翻译器来执行。

2)R不仅仅是一种编程语言,它有与生俱来的对创建高质量的数据可视化的支持。 在课程中,我们会 怎样观察数据提取信息。 R被用在许多行业,比如医疗,零售,和金融分析。 R可以被用来分析结构化和非结构化数据集。 本课程我们会集中在使用R分析文件中而不是数据库中的数据。 R可以帮助你探索一个数据集,并且执行描述性分析。 R在创建预测模型上也很出色。

为什么学习R有益,有许多原因? 作为一个数据分析师或者数据科学家 -- R可以比单独用基于电子表格的工具 更深入地挖数据。作为软件开发人员 -- R能够用最小的努力能够在新的或者现有的应用中 加入数据分析计算或者图形。随着大数据爆炸,有许多场景使用R是解决客户需求的优秀的选择。 作为数据分析师,R可以用来进行经典的统计测试和预测模型。 R对时间序列数据集也有与生俱来的支持。 分类和聚类模型能被用来更好地发现数据模式。 这门课程你会学到一些最常用的R函数。 但是有许多功能我们没有时间在一门介绍性的课程中覆盖到。作为一个开发R是一个强大的功能性编程工具。在这门课程你会学习怎样创建和测试R程序。注意程序 通常被称作脚本,因为R脚本是解释性语言,而且鼓励交互式开发方法。 R脚本通常是用表达式和内置函数书写。 R对多种数据结构提供与生俱来的支持。在其它课里面这些数据结构都会被介绍到。也可以用外部包或者库来扩展R的能力。当你的R技能提高,你可以开始定义你自己的函数和 和新的类来达到用户需求。

2、怎样在不同的操作系统安装R。安装R非常简单。 简单导航到R的项目页面,单击复杂R CRAN是世界上的一些服务器用来保存R的相同的,最新的,代码版本和文档。 有针对Windows, Linux,和Mac OS的二进制安装工具。也可以从源代码编译,但是最好避免。 这门课中,你可以选择任何一个平台来安装R。 Windows上安装R包括下载MSI文件,并且执行。 有32位和64位的安装选项。我选择64位。 在我们的课程作业中,能被使用的内存上限更高。 R一旦安装好,你可以通过启动R命令行环境或者图形工具界面开始,R界面为用户提供一些R命令行之后的有用的产品功能。 在Linux下安装R使用以下之一:从CRAN网站下载合适的RPM文件 或者使用一个Linux包管理工具例如YUM。 注意你必须以root账号登陆,或者在Linux上有sudo权限 来完成安装。 一旦在系统中安装了任何用户可以使用R。 缺省,有一个R命令行和GUI提供,但是许多R用户更倾向使用更复杂的集成开发环境 例如RCmdr或者RStudio。 RStudio是R自带的RGui工具的一个优秀的替代品。RStudio适合 Linux, Mac OS X, 和Windows系统。在这个配置里我们通过浏览器在Linux服务器使用RStudio。 对偶尔使用R的用户来说这是一个理想环境,因为他们不会在自己的机器上安装 R。在左上角我们可以看到2013_cars.csv数据文件,和一个R资源文件叫做cars.R。 在左下角我们有R控制台。 在右上角我们接触到现在R工作区的对象,和一个现在使用R命令的历史记录。在右下角我们有一个直方图 以及R帮助功能。 当你学习R的时候,安装一个IDE比如R是值得的。

3、之前我们声明R可以用包来扩展。 CRAN有4000个不同包,更多包被频繁地添加。CRAN的包, 在这门课中我们将主要使用内置或者标准包,但是你可能想尝试更多的额外的包。 基本的R环境为数据分析师提供一个重要的函数集,但是 R社区有许多优秀的包可用。 新的包可以通过使用install.packages()函数安装。 你可以搜索CRAN获得包,或者使用CRAN没有的包。 简单地使用相同的函数,指向 新包的压缩文件即可。 这里我们看到RJDBC包被安装以便通过JDBC驱动连接到数据库 库服务,如Informix or DB2。 如果你开发一个R脚本,使用R以外的函数,你的脚本的第一行应该包含library() 或者 require() 函数 这样包在运行时能被加载到内存。 

二、R控制台介绍

欢迎。本课程介绍怎样使用R控制台和R表达式。 希望你已经安装了R,可以使用它进行练习。

4、控制台内使用R,并且分别用交互式和批处理的方式使用R。让我们开始。 R脚本能在R控制台内或者之外以批操作执行。 我们检查简单R表达式,学习怎样获得帮助。 每个R使用者都以R控制台开始。 R控制台可以用来进行交互式的R函数或者表达式。 大于号是R的缺省提示符。 当一个R表达式是完整的,在R控制台可以执行。 如果表达式不完整,R控制台提示符变为加号。 每个R的会话有一个工作目录。 一个工作目录包含一个工作文件,名字是.Rdata,包含一系列的R对象。 R也保留历史R命令的记录。 R工作目录能用setwd()函数来改变。 可以用getwd()函数获得当前目录。 当你完成一次R控制台会话,你会提示是否要保存工作区。你可能想保存工作区以便你可以回到上次分析的地方。但是从控制台创建R脚本总是一个好的习惯 这样你的工作区文件不必重写。 在R控制台之外执行R脚本可以帮助自动化数据分析活动。

让我们考虑一个场景,你创建了一个进行数据分析的R脚本并且生成了一系列数据图pdf文件。最好是自动化这个任务并且避免同时使用R控制台。 有一些不同的方法以批处理方式执行R脚本。命令R CMD BATCH可以在整个平台使用。也有一个工具叫做Rscript,可以在整个平台在控制台之外运行脚本。这个工具给你这个能力,当脚本执行的时候获得输入,如果需要的话。在Linux上,R脚本文件能通过在脚本的第一行简单地添加一个引用来改变为一个可执行脚本。当使用这个方法的时候,请确信 改变你的脚本的文件权限为可执行。 缺省地,对发送到标准输出的任何信息,都会创建一个输出文件。 输出文件名和脚本相同,后缀名为.Rout。让我们考虑把R当作一个简单的计算器。R程序包含一系列表达式。 这些表达式被分类为:数据,计算,或者控制流操作。在第一个例子我们保存了数值5为一个对象,或者变量a。对象的数据类型被R自动决定。显示地声明数值的数据类型是可能的,但是现在我们令R 决定。R里推荐的赋值运算符是小于符跟着一个破折号。可以用一个简单的等号,但是不推荐这样。附加的运算符是一个内置R函数,我们看到两个数相加的结果。有各种R函数能被用来描述一个对象。 例如,我们对对象a的数据类型感兴趣,并且我们发现 R决定a的数据类型是一个双精度浮点型数值。 我们会在后面的课程中学到,让对象a中数值限制为整型是可能的。当我们对R更熟悉的时候,知道哪里去寻求帮助很重要。help.start()函数会启动一个连接到不同R引用材料的当地的web服务器。如果你知道一个R函数的名字,当你不能记住输入参数 或者输出,使用help()函数或者一个问号来获取更多信息。一系列两个问号跟着一个搜索词可以用来搜索你系统里所有安装的R包。 一些函数有内置的例子,来帮助你理解怎样使用它们。 可以用example()函数来获取内置例子。 当你准备结束R控制台的一个会话,使用q()或者quit()函数。

R有个优秀的支持,很容易可以创建高质量的图表。 有一些简单的例子。首先,我们有一个散点图,显示从1917年到2010年出生在加拿大渥太华的女孩命名趋势。Emma是这个图选出来的。下一个例子为一个箱线图,显示加拿大2013年的车辆耗油量。 数据根据车辆的汽缸数目分类。最后一个图是一个简单的饼图,显示2013年加拿大4,6,8缸汽车的分布。我们会在将来的课程中学习怎样创建图形。 谢谢完成这节课。 进入下一课前花些时间熟悉R控制台,表达式,脚本。


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
VC++调用R语言发布时间:2022-07-18
下一篇:
R语言地理空间分析(一)读写空间数据文件文件发布时间:2022-07-18
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap