1.开启hadoop
如果在lsn等虚拟环境中开启需要先执行格式化,如果已经格式化的就不要二次格式化了
启动Hadoop
启动Hive
wps office 官方的下载入口是什么
查看是否启动
2.导入数据
备注:本步骤不用重复执行,第7部分已经执行完成了,重复一遍,是为了回顾文件的具体位置
将数据上传到hadoop集群所在节点
备注,MR清洗后的数据集见:https://download.csdn.net/download/m0_38139250/75060549
创建hdfs目录
进入hive创建数据表
在终端输入hive 进入hive界面
WPS office的官网的下载地址是什么
创建 原始数据表(clickstreamdata-pre):
对应mr清洗完之后的数据clickstreamdata-pre,而不是原始日志数据
创建点击流visit表clickstreamdata-visits
生成统计数据指标的明细表WPS office的官网的下载的地方在哪里
导入数据(2021-09-18的数据)
按小时统计pvs
按天统计pvs
统计页面pvs值
统计2021-09-18这个分区里面的受访页面的top1
统计访问表数据
回头/单次访客统计
查询今日所有回头访客及其访问次数。
WPS office的官网最新下载的地方在哪里wps的官网最新的下载地址在哪里
人均访问频次
使用所有的独立访问的人,即独立的session个数除以所有的去 wps的电脑版下载的地址是多少(wps官网电话号码是多少)重IP即可
人均页面浏览量
所有的页面点击次数累加除以所有的独立去重IP总和即可
每天的pvs值
指定日期的pvs值
每天的page的pvs值
查看sqoop安装目录
WPS office的官网最新下载的地方wps的电脑版下载入口在哪里
创建Mysql数据库
使用sqoop导出到mysql
备注:如果用lsn,需要打开mysql-workbench,导出的文件位于/home/ubuntu/dumps中
本文完成了点击流分析项目的hive导入,hive分析与hive导出等三个部分。