大数据核心技术系列——目录

  |   0 评论   |   2,999 浏览

平台架构

image.png

通用大数据平台架构设计

数据迁移

DataX的基本使用

Canal的基本使用

Sqoop2简介

FlumeNG

FlumeNG简介

FlumeNG1.8.0源码解析——Application的启动过程

FlumeNG1.8.0源码解析——Source写数据到Channel的过程

FlumeNG1.8.0源码解析——Sink从Channel中读数据的过程

Kafka

Kafka中的消息传递保证语义

Kafka1.1.0源码分析——KafkaProducer介绍

Kafka1.1.0源码分析——KafkaProducer发送消息的过程

Kafka1.1.0源码分析——KafkaConsumer介绍

Kafka1.1.0源码分析——KafkaConsumer消费消息的过程

Kafka配置SSL加密传输

Kafka2.0.0正式版发布!多项重要的新功能

分析引擎

Hive

Hive函数——分析函数

Hive函数——OLAP函数

Hive函数——窗口函数

Hive中reload表的元数据信息到metastore

Spark

Spark2.3源码分析——LiveListenerBus(事件总线)的实现

Spark2.3源码分析——RDD的checkpoint(检查点)实现

Spark2.3源码分析——Job提交过程

Spark2.3源码分析——DAGScheduler处理Job的过程

Spark2.3源码分析——TaskScheduler对作业提交的处理

Spark2.3源码分析——任务推测执行(Speculation Execute)

Spark2.3源码分析——Shuffle的原理与实现

Spark2.3源码分析——Task的启动

Spark2.3源码分析——动态资源分配(Dynamic Resource Allocation)

HBase

HBase2.0.1源码解析——根据RowKey定位Region的过程

HBase2.0.1源码解析——get读数据的过程

HBase2.0.1源码解析——异步处理AsyncProcess

HBase2.0.1源码解析——put写数据的过程

Kylin

OLAP引擎Kylin——Sample Cube构建

OLAP引擎Kylin——创建多维分析的Cube

OLAP引擎Kylin——Cube构建过程

OLAP引擎Kylin——Cube构建算法

OLAP引擎Kylin——Cube优化

OLAP引擎Kylin——工作原理

Druid

实时OLAP引擎Druid.io——安装与简单使用(Imply.io方式)

实时OLAP引擎Druid.io——工作原理

实时OLAP引擎Druid.io——节点类型

Hadoop

HDFS的元数据fsimage和编辑日志edits

Hadoop官方文档——HDFS配额Quota

Hadoop官方文档——HDFS 快照

Hadoop配置Snappy压缩

YARN启用Node Labels标签调度策略

MapReduce开发基础知识

MapReduce开发常用参数

MapReduce中的二次排序

Impala

Impala添加UDF

支持系统

账号系统

基于CAS的单点登录系统

LDAP的基本概念

CentOS7安装OpenLDAP

Hive配置LDAP身份认证

Hue配置LDAP身份认证(Direct bind方式)

Impala配置LDAP身份认证

调度系统

分布式调度系统设计与实现(一)

分布式调度系统设计与实现(二)

分布式调度系统设计与实现(三)

分布式调度系统设计与实现(四)

元数据管理

Goods:   Organizing Google’s Datasets(翻译)

Goods:   Organizing Google’s Datasets(原文)

数据质量管理

数据质量管理系统设计与实现(一)

数据质量管理系统设计与实现(二)

血缘分析

大数据血缘分析系统设计(一)

大数据血缘分析系统设计(二)

大数据血缘分析系统设计(三)

大数据血缘分析系统设计(四)

利用LineageLogger分析HiveQL中的字段级别血缘关系

利用LineageInfo分析HiveQL中的表级别血缘关系

数据仓库

数据仓库的基本概念整理

数据仓库中的数据建模方法

基于大数据的数据仓库分层实现

利用Hive实现数据仓库中的拉链表

监控系统

安装Ganglia

利用SMTP发送预警邮件(Python版)

安装

组件安装

CentOS7下安装Cloudera Manager5.14.1

Cloudera Manager5.14.1配置

安装Hive

安装Sqoop2

Zookeeper简介

源码编译

大数据源码编译系列——Ambari2.5.1编译

大数据源码编译系列——Kylin编译

大数据源码编译系列——Spark编译

大数据源码编译系列——Flume-NG编译 

大数据源码编译系列——HBase编译

大数据源码编译系列——Sqoop2编译

大数据源码编译系列——Hive编译

大数据源码编译系列——通用编译环境

大数据源码编译系列——Hadoop编译

Hadoop本地库编译

MySQL

MySQL的分区表(Partitioned Table)功能详解

Win10安装MySQL-python

CentOS6.5下用yum安装MySQL5.7(Percona-Server)

MySQL优化之OPTIMIZE TABLE

CentOS6.5安装PostgreSQL9.6

Yum安装MySQL

语言

Java NIO中的Zero-copy(零拷贝)技术

四种常用的打Patch方法

全栈工具箱系列——Python常用操作

Shell实现任务同步(_SUCCESS标志文件)

大数据开发实用Shell梳理

大数据开发常用Linux命令

小技巧

利用supervisor管理你的服务

利用vsftpd搭建ftpes

XShell 4增加cmd命令行功能

Hue修改admin密码(非LDAP认证方式)

Linux操作SQLServer

在Excel中利用宏定义实现MD5加密

Excel中实现Join数据——VLOOKUP函数的使用方法

VMware虚拟机配置独立IP

读后有收获可以支付宝请作者喝咖啡