这篇文章主要为大家分析了Apache Zeppelin Notebook和R的示例分析的相关知识点,内容详细易懂,操作细节合理,具有一定参考价值。如果感兴趣的话,不妨跟着跟随小编一起来看看,下面跟着小编一起深入学习“Apache Zeppelin Notebook和R的示例分析”的知识吧。
小编目的是帮助您开始使用 Apache Zeppelin Notebook,它可以满足您用R做数据科学的需求。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。而且Zeppelin支持自己重写各种语言的插件,是很方便扩展的。
然而,最新的官方版本是0.5.0,还不支持R编程语言。幸运的是,NFLabs公司做了个开源项目,让我提供了一个R的编译器。这个编译器是让用户可以使用自定义的语言做为数据处理后端的一个 Zeppelin 插件。例如在 Zeppelin 使用scala代码,您需要一个 Spark编译器。所以,如果你像我一样有足够的耐心将R集成到Zeppelin中, 这个教程将告诉你怎样从源码开始配置 Zeppelin和R。
我们将通过Bash shell在Linux上安装Zeppelin。如果您使用的是Windows操作系统,我建议您安装和使用Cygwin终端(它提供功能类似于Windows上的Linux发行版)。
确保 Java 1.7 和 Maven 3.2.x 是已经安装并且配置到环境变量中。
去这github分支下载源代码,将这个链接复制并粘贴到你的浏览器:https://github.com/elbamos/incubator-zeppelin/tree/rinterpreter
在我的例子中我已经下载并解压文件夹在我的桌面
假设你是安装在单机,打开你的Terminal,运行下面的代码。如果你是安装在一个集群,会稍微复杂一点,具体步骤 Zeppelin 的文档中找到。
$ cd Desktop/Apache/incubator-zeppelin-rinterpreter $ mvn clean package -DskipTests
这将需要约16分钟构建Zeppelin、Spark,所有引擎包括R,markdown,shell,hive等。(见下图)。
运行以下命令启动Zeppelin:
$ ./bin/zeppelin-daemon.sh start
打开web浏览器,访问http://localhost:8080。此时,您已经准备好开始在 Zeppelin 用代码创建交互笔记本。
单击下拉箭头旁边的“笔记本”页面,点击“创建新报告”。
给你的笔记本命名或您可以使用指定的缺省名称。我命名为“Base R in Apache Zeppelin”。
如下图所示,调用R可以用“%spark.r”或“%spark.knitr”标签。首先让我们用 markdown 写一些介绍。
根据我们可能需要我们的分析,现在让我们来安装一些包。
我们将使用“flights”数据集显示2013年离开纽约的航班,现在让我们读取数据集。
现在,让我们使用dplyr(用管道符)做一些数据操作。
您还可以使用条形图和饼图来可视化一些描述性统计数据。
现在,让我们与ggplot2共舞。
现在,让我们用caret
包做一些统计的机器学习。
最后,绘制几个地图。
关于“Apache Zeppelin Notebook和R的示例分析”就介绍到这了,更多相关内容可以搜索亿速云以前的文章,希望能够帮助大家答疑解惑,请多多支持亿速云网站!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。