大数据

Impala隐藏的惊天秘密

元数据作为大数据的源泉，有着非常重要的作用。可在Impala中却隐藏着一个秘密？和元数据有着颇深的渊源，我们一起来追溯！一、Impala体系结构（1）每个slave节点运行一个Impala进程，和HD

作者：caosheng03

2020-08-22 13:20:19
深度解析数据挖掘关联规则Apriori算法

01、关联规则挖掘背景和基本概念如下所示的数据集，表中的每一行代表一次购买清单，注意我们只关心记录出现与否，不关心某条记录购买了几次，如购买十盒牛奶也只计一次。数据记录的所有项的集合称为总项集，上表中

作者：Hjiangxue

2020-08-22 08:01:16
Spark基础

官方文档：spark.apache.org/docs/latest Spark背景 MapReduce局限性： 1>) 繁杂 map/reduce (map

作者：ycwyong

2020-08-22 02:12:32
NEXT 2019：Hitachi Vantara的一场数据价值宣言

Hitachi Vantara是一家为数据价值而生的公司。如果说2017年Hitachi Data System、Pentaho、Hitachi Insight Group三家公司的合并，标志着Hit

作者：大数据在线

2020-08-20 12:13:12
Hive初识

Hive产生背景：在给大家讲解Hive之前，我们要先熟悉下Hadoop的一些概念。 Hadoop可以分为一下几个部分 HDFS hadoop的文件系统，用于数据存储 MapReduc

作者：昭帆

2020-08-20 02:44:46
Storm笔记整理（二）：Storm本地开发案例—总和计算与单词统计

[TOC] 概述在Strom的API中提供了LocalCluster对象，这样在不用搭建Storm环境或者Storm集群的情况下也能够开发Storm的程序，非常方便。基于Maven构建工程项目，

作者：xpleaf

2020-08-18 16:18:06
spark源码系列之累加器实现机制及自定义累加器

一，基本概念累加器是Spark的一种变量，顾名思义该变量只能增加。有以下特点： 1，累加器只能在Driver端构建及并只能是Driver读取结果，Task只能累加。 2，累加器不会改变Spark L

作者：鲸落大叔

2020-08-17 09:31:05
大数据之HBase基础

HBase简介1.1. 什么是HBaseHBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase的目

作者：鲸落大叔

2020-08-17 07:07:52
Oracle树查询及相关函数

Oracle树查询的最重要的就是select...start with... connect by ...prior 语法了。依托于该语法，我们可以将一个表形结构的中以树的顺序列出来。在下面列述了Or

作者：沙漏半杯

2020-08-17 06:27:20
（第7篇）灵活易用易维护的hadoop数据仓库工具——Hive

Hivehive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，Hive 定义了简单的类 SQL 查询语言，称为

作者：I加加

2020-08-14 11:20:37

< 上一页

下一页>

最新资讯

猜你喜欢

相关标签