#

大数据

  • Impala隐藏的惊天秘密

    元数据作为大数据的源泉,有着非常重要的作用。可在Impala中却隐藏着一个秘密?和元数据有着颇深的渊源,我们一起来追溯!一、Impala体系结构(1)每个slave节点运行一个Impala进程,和HD

    作者:caosheng03
    2020-08-22 13:20:19
  • 深度解析数据挖掘关联规则Apriori算法

    01、关联规则挖掘背景和基本概念如下所示的数据集,表中的每一行代表一次购买清单,注意我们只关心记录出现与否,不关心某条记录购买了几次,如购买十盒牛奶也只计一次。数据记录的所有项的集合称为总项集,上表中

    作者:Hjiangxue
    2020-08-22 08:01:16
  • Spark基础

    官方文档:spark.apache.org/docs/latest   Spark背景    MapReduce局限性:    1>) 繁杂            map/reduce (map

    作者:ycwyong
    2020-08-22 02:12:32
  • NEXT 2019:Hitachi Vantara的一场数据价值宣言

    Hitachi Vantara是一家为数据价值而生的公司。如果说2017年Hitachi Data System、Pentaho、Hitachi Insight Group三家公司的合并,标志着Hit

    作者:大数据在线
    2020-08-20 12:13:12
  • Hive初识

    Hive产生背景: 在给大家讲解Hive之前,我们要先熟悉下Hadoop的一些概念。 Hadoop可以分为一下几个部分 HDFS hadoop的文件系统,用于数据存储 MapReduc

    作者:昭帆
    2020-08-20 02:44:46
  • Storm笔记整理(二):Storm本地开发案例—总和计算与单词统计

    [TOC] 概述 在Strom的API中提供了LocalCluster对象,这样在不用搭建Storm环境或者Storm集群的情况下也能够开发Storm的程序,非常方便。 基于Maven构建工程项目,

    作者:xpleaf
    2020-08-18 16:18:06
  • spark源码系列之累加器实现机制及自定义累加器

    一,基本概念 累加器是Spark的一种变量,顾名思义该变量只能增加。有以下特点: 1,累加器只能在Driver端构建及并只能是Driver读取结果,Task只能累加。 2,累加器不会改变Spark L

    作者:鲸落大叔
    2020-08-17 09:31:05
  • 大数据之HBase基础

    HBase简介1.1. 什么是HBaseHBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase的目

    作者:鲸落大叔
    2020-08-17 07:07:52
  • Oracle树查询及相关函数

    Oracle树查询的最重要的就是select...start with... connect by ...prior 语法了。依托于该语法,我们可以将一个表形结构的中以树的顺序列出来。在下面列述了Or

    作者:沙漏半杯
    2020-08-17 06:27:20
  • (第7篇)灵活易用易维护的hadoop数据仓库工具——Hive

       Hivehive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,Hive 定义了简单的类 SQL 查询语言,称为

    作者:I加加
    2020-08-14 11:20:37