这篇文章主要介绍CDSW1.5的新功能是什么,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
1
CDSW1.5的新功能
1.Cloudera Enterprise 6.1支持
Cloudera Data Science Workbench现在支持Cloudera Manager 6.1.x (或更高) 和CDH 6.1.x (或更高)。
2.Cloudera Data Science Workbench on Hortonworks Data Platform (HDP)
Cloudera Data Science Workbench现在可以部署到HDP 2.6.5和HDP 3.1.0。
3.安全增强
允许Site Administrators启用/禁用项目上传和下载 - 默认情况下,所有的CDSW用户都允许从项目上传和下载文件。1.5引入了一个新的功能,允许Site Administrator为用户在UI上隐藏上传和下载的功能。
请注意,该功能仅仅是从CDSW的界面上删除了上传和下载的按钮,它并没有禁用通过后端Web API上传和下载文件的功能。
4.OpenJDK支持
Cloudera Data Science Workbench现在支持在Cloudera Enterprise 5.16.1(或更高)上使用OpenJDK。
5.Engines
基础引擎R升级到新版本3.5.1(Base Image v7)
改进调试功能 - 以前,引擎在退出或崩溃后会立即删除与其关联的日志。对于1.5版本,现在可以在结束后短时间内使用引擎,以便你收集相关日志。
另外,当引擎以non-zero状态码退出时,引擎日志中的最后50行现在将打印到Workbench控制台。请注意,non-zero退出码和Workbench中引擎日志的存在并不总是意味着你的代码存在问题。会话超时和内存不足问题等也会抛出non-zero退出码,并显示引擎日志。
6.安装和升级
新的配置参数 - 1.5包括三个新配置参数,可用于指定正在运行的分发版类型,已安装软件包/parcel的目录以及安装Anaconda的路径(仅适用于HDP)。
DISTRO
DISTRO_DIR
ANACONDA_DIR
DOCKER_TMPDIR修改为/var/lib/cdsw/tmp/docker - 以前,CDSW安装程序会临时将基础引擎镜像文件解压到/var/lib/docker/tmp目录。从1.5版本开始,安装程序将使用/var/lib/cdsw/tmp/docker目录。确保按照建议将Application block device挂载到/var/lib/cdsw,以便安装/升级不会出现问题。
改进校验检查 - 改进了安装程序运行的校验检查(validation check)以及安装过程中显示的错误消息。Cloudera Data Science Workbench现在:
检查根目录,Application Block Device和Docker Block Device是否有可用空间。
检查DNS正向和反向查找是否适用于所提供的CDSW域和Master IP地址。
cdsw status和cdsw validate命令的错误信息显示会更友好,以便于调试。
7.命令行
cdsw logs - 以前,cdsw logs命令生成两个日志包 - 一个是纯文本,另一个对敏感信息进行了脱敏。对于CDSW1.5,该命令现在只生成一个包,默认情况下会对所有敏感信息进行脱敏。
要关闭日志文件的敏感信息脱敏,可以使用新的--skip-redaction参数,如下所示:
cdsw logs --skip-redaction
8.网络
CDSW现在使用DNS主机名(而不是IP地址)进行组件之间的内部通信。因此,为CDSW配置的通配符DNS主机名必须能被CDSW集群和浏览器解析。
CDSW现在可以在安装过程中启用IPv4转发(net.ipv4.conf.default.forwarding)。
Engine升级
CDSW1.5开始打包的基础engine镜像包括的R和Python的版本为(version 7):
R - 3.5.1
Python - 2.7.11, 3.6.1
Engine 7中预安装的软件包 - 参考:
https://www.cloudera.com/documentation/data-science-workbench/1-5-x/topics/cdsw_engines_packaging.html#cdsw_kernels
升级项目使用最新的Base Engine Images - 确保进行了测试,然后升级已有的项目到Base Image v7 (Project Settings > Engine) ,以确保能利用最新的一些bug修复。
另外,CDSW现在会在有新版本的engine可用时提醒你。确保你将有的项目升级到了Base Image v5 (Project Settings > Engine) 并进行测试,因为修复了一些bug。
请注意,如果你是在CDH6上使用CDSW,则升级到Base Image v7是必须的。
你使用的base engine image必须与CDH版本兼容。如果你是在Spark上运行工作负载,这一点尤为重要。较旧的base engine(v6及更低版本)无法支持最新版本的CDH6。这是因为这些engine指向Spark2 parcel。但是,在CDH6上,Spark现在打包为CDH6 parcel的一部分,不再支持单独安装Spark2 parcel。如果要在CDH6上运行Spark工作负载,则必须将项目升级到base engine 7(或更高版本)。
CDH5和CDH6上Spark工作负载的CDSW Base Engine兼容性
Base Engine Versions | CDH5 | CDH6 |
Base engines 6 (and lower) | Yes | No |
Base engines 7 (and higher) | Yes | Yes |
2
CDSW1.5中不兼容的更改
废弃的配置 - CDH Parcel Directory
Admin > Engines的Site Administration面板中不再提供CDH parcel directory配置。根据你的部署,使用以下方法之一配置此属性:
CSD部署:如果你使用的是默认的parcel目录/opt/cloudera/parcels,则无需执行任何操作。如果要自定义parcel目录,需要在Cloudera Manager中进行配置,具体参考CM相关文档。
RPM部署:如果你使用的是默认的parcel目录/opt/cloudera/parcels,则无需执行任何操作。如果要自定义parcel目录,需要在master和worker节点的cdsw.conf文件中配置DISTRO_DIR属性。更改后运行cdsw restart。
3
CDSW1.5修复的问题
1.修复了RPM安装中忽略NO_PROXY设置的问题。Cloudera Bug: DSE-4444。
2.修复了由于Web pod的IP问题导致CDSW无法启动的问题。1.5通过在启动时启用IPv4转发来解决此问题。Cloudera Bug: DSE-4609
3.修复了在退出/崩溃后引擎会立即被删除,并且引擎日志不会存在的问题,这使得很难通过崩溃或自动重启来调试问题。Cloudera Bug: DSE-4008, DSE-4417
4.修复了在CSD部署中启动和停止CDSW的间歇性问题。Cloudera Bug: DSE-4426, DSE-4829
5.修复了CDSW报告大于2MB的文件的文件大小不正确的问题。Cloudera Bug: DSE-4531, DSE-4532
6.修复了Run New Experiment对话框未包含file selector,且必须手动输入脚本名称的问题。Cloudera Bug: DSE-3650
7.修复了底层Kubernetes进程耗尽资源导致OOM错误的问题。CDSW现在会为Kubernetes组件预留计算资源。Cloudera Bug: DSE-4896, DSE-5001
8.修复了PYSPARK3_PYTHON环境变量未按预期用于Python 3工作负载的问题。Cloudera Bug: DSE-4329
9.修复了当使用HTTP/HTTPS代理时,CDSW的engine(比如自定义的engine image)在本地不可用时,Docker命令会失败的问题。Cloudera Bug: DSE-4427
以上是“CDSW1.5的新功能是什么”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注亿速云行业资讯频道!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。