学习日志

学习日志---hadoop的join处理

Join方法需求：处理input1和input2文件，两个文件中的id都一样，也就是key值一样，value值不同，把两者合并。input1存的是id和名字，input2存的是id和各种信息。处理方法

作者：wukong0716

2020-06-26 13:33:42
学习日志---knn算法实现

KNN算法实现：提取文本：import numpy as np //提取文本 def loadDataSet(fileName): &

作者：wukong0716

2020-06-25 12:58:29
学习日志---机器学习导论

推荐书：数据挖掘：实用机器学习数据挖掘：概念与技术韩家伟著；细读+后面的引用文章；机器学习实战（python）；机器学习实用案例解析（R语言）；神经网络与机器学习 simon

作者：wukong0716

2020-06-17 14:14:37
学习日志--hadoop maven打包jar问题

起初是用maven的build来clean package项目，生成jar包，然后在hadoop上运行，出现classNotFound错误。提示没有找到redis.jedis.redis..错误。错误

作者：wukong0716

2020-06-12 22:11:43
学习日志---hdfs配置及原理+yarn的配置

筛选算法：关注度权重公式：W = TF * Log(N/DF)TF：当前关键字在该条记录中出现的总次数；N：总的记录数；DF：当前关键字在所有记录中出现的条数；HDFS的 namenode

作者：wukong0716

2020-03-31 18:02:42
学习日志---线性回归实现

由对偏导数的计算可以得到w的计算公式：如下假定输入数据存放在矩阵x中，而回归系数存放在向量w中。那么对于给定的数据，预测结果将会通过给出。对于x和y，如何找到w？常用的方法是找到平方误差最小的w。&n

作者：wukong0716

2020-03-19 22:24:56
学习日志---hbase学习（最大版本查询）

在HBase中一个row对应的相同的列只会有一行。使用scan 或get 得到都是最新的数据如果我们对这某一row所对应的列进行了更改操作后，并不会多生成一条数据，不会像RDBMS一样insert时

作者：wukong0716

2020-03-01 03:39:11
学习日志---hbase优化总结

HBase的优化总结总结起来：预分区，列族，批量读写，合并，链接池。详细见下：1. 表的设计（前三个最重要）1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创

作者：wukong0716

2020-02-25 20:26:38
学习日志---hbase+zookeeper+hadoop

hadoop的HA机制的namenode根据配置去找到zookeeper集群；hbase也是根据配置文件去找到zookeeper集群；zookeeper集群只需要根据配置文件去找该集群的机器即可，其他

作者：wukong0716

2020-02-18 06:45:07

< 上一页

下一页>

最新资讯

猜你喜欢

相关标签