OLAP引擎Kylin——Sample Cube构建

  |   0 评论   |   1,569 浏览

准备数据

执行${KYLIN_HOME}/bin/sample.sh,该脚本主要执行了以下几件事情

在Hive中创建五张样例表并上传数据

创建Hive表并LOAD DATA的脚本位于${KYLIN_HOME}/sample_cube/create_sample_tables.sql

Hive表的数据位于${KYLIN_HOME}/sample_cube/data目录

ll sample_cube/data/
总用量 1544
-rw-r--r-- 1 kylin kylin 200000 10月 30 2017 DEFAULT.KYLIN_ACCOUNT.csv
-rw-r--r-- 1 kylin kylin 512997 10月 30 2017 DEFAULT.KYLIN_CAL_DT.csv
-rw-r--r-- 1 kylin kylin  49634 10月 30 2017 DEFAULT.KYLIN_CATEGORY_GROUPINGS.csv
-rw-r--r-- 1 kylin kylin   8537 10月 30 2017 DEFAULT.KYLIN_COUNTRY.csv
-rw-r--r-- 1 kylin kylin 798009 10月 30 2017 DEFAULT.KYLIN_SALES.csv

上传Sample Cube的metadata

样例metadata的模板位于${KYLIN_HOME}/sample_cube/template,执行脚本后会进行一些替换变量等操作,最终生成在${KYLIN_HOME}/sample_cube/metadata目录下

ll sample_cube/template/
总用量 32
drwxr-xr-x 2 kylin kylin 4096 10月 30 2017 acl
drwxr-xr-x 2 kylin kylin 4096 10月 30 2017 cube
drwxr-xr-x 2 kylin kylin 4096 10月 30 2017 cube_desc
drwxr-xr-x 2 kylin kylin 4096 10月 30 2017 kafka
drwxr-xr-x 2 kylin kylin 4096 10月 30 2017 model_desc
drwxr-xr-x 2 kylin kylin 4096 10月 30 2017 project
drwxr-xr-x 2 kylin kylin 4096 10月 30 2017 streaming
drwxr-xr-x 2 kylin kylin 4096 10月 30 2017 table

bin/sample.sh执行完毕后,需要重新加载元数据

如下图

image.png

然后我们就能够从Project列表中选择learn_kylin项目了

image.png

构建Cube

选择kylin_sales_cube的Action中的build

image.png

选择日期范围

弹出窗口,选择日期范围,Start Date已经默认给填好了,需要填写End Date

image.png

提交Job

单击Submit提交

提交后通过Monitor页面可以看到新建的Job


image.png

查看Job的详细执行流程

单击job最右侧的箭头,查看Job的详细执行流程

image.png

Job执行过程中,可以把鼠标放在图标上查看详细信息

image.png

Job执行完成情况

image.png

查询Cube

查询Kylin

打开Insight页面

输入如下sql

SELECT part_dt,
         sum(price) AS total_selled,
         count(distinct seller_id) AS sellers
FROM KYLIN_SALES
GROUP BY part_dt
ORDER BY part_dt

image.png

可以看到几乎是瞬时就查出了结果

对比Hive

作为对比,我们在Hive中执行同样的sql,用了2分多种

image.png

读后有收获可以支付宝请作者喝咖啡