找到自己的日志文件所在的位置
我的在这里
日志文件里的内容大致这样
新建Maven
目录结构大致如下
WebLogBean下
WebLogParser下
打包jar包运行
wps 的官网最新的下载地方是什么
wps office 的官方下载网址在哪(wps下载电脑版旧版本安装到桌面)
打包ok之后一定要点击Bulid
Bulid之后你将会看见新生成的文件
Jar包打包完成
Jar包运行
Hdfs上新建输入路径
上传日志文件
WPS office的电脑版的下载的网址在哪里
上传jar包,在本地上找到打包好的jar包
处理完的数据长这样
下载安装hive
嵌入模式
更换guava jar包
复制hadoop下的高版本
修改配置文件
由于hive包的名称过于冗长,因此首先对于Apache hive进行重命名
配置环境变量
配置MySQL元数据库
上传mysql驱动到hive/libwps的官网下载的网站在哪
自己事先在mysql官网上下载好
wps office 官方的下载网站在哪
在hive/conf路径创建配置文件hive-site.xml:
wps 的官网下载网站在哪
注意写入mysql的用户名密码
重启hadoop集群初始化
格式化hive,在hive下输入命令
schematool -dbType mysql -initSchema
开启mysql权限
创建数据仓库
创建表
导入数据
由于原始的日志文件已经经过MapReduce处理后,直接上传到了HDFS,所以这里,我不需要再一次单独上传。直接载入数据
创建明细表ods_weblog_detail
创建临时中间表t_ods_tmp_referurl,解析客户端来源地址字段
创建临时中间表t_ods_tmp_detail,解析时间字段
修改默认动态分区参数
向ods_weblog_detail表中加载数据
将两张临时表的相关字段数据查询并保存到明细表中
在HDFS上查看
流量分析
首先创建表结构
提取‘day’字段
查看表数据
人均浏览量分析
人均浏览量指标反映了网站对用户的黏性程度,方法是通过总页面请求数量除以去重人数得出。
创建维度表dw_avgpv_user_everyday
从ods_weblog_detail表获取相关数据插入dw_avgpv_user_everyday表中
更换日期分别计算,查看结果
主要运用Sqoop将Hive表中的数据导入到MySQL数据库中
安装Sqoop并配置
下载好sqoop的压缩包,导入
配置环境变量
修改配置文件
打开dfs和yarn集群之后测试:
wps office 官方的下载的网址
说明Sqoop操作是成功的,前期准备完成
将数据导入MySQL
在MySQL下建库建表
导出数据,在sqoop下输入导出命令
如果你用的是idea的企业版,恭喜你,你会省去很多步骤
参考教程https://blog.csdn.net/shaock2018/article/details/86706101
本人使用是idea的社区版,很多方面受限制,比较麻烦,参考教程
https://blog.csdn.net/qq_42881421/article/details/108240531?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-2&spm=1001.2101.3001.4242
这个真的很好,至少本人受益很多,教程很详细,关于这一部分,本人也是参照这个教程写的所以,在这里不再描述
最终结果展示
保持热爱 奔赴山海