统计某视频网站的常规指标,各种TopN指标:
–统计视频观看数Top10
–统计视频类别热度Top10
–统计视频观看数Top20所属类别
–统计视频观看数Top50所关联视频的所属类别Rank
–统计每个类别中的视频热度Top10
–统计每个类别中视频流量Top10
–统计上传视频最多的用户Top10以及他们上传的视频
–统计每个类别视频观看数Top10
1)、数据结构
①、视频表
字段备注详细描述video id视频唯一id(String)11位字符串uploader视频上传者(String)上传视频的用户名Stringage视频年龄(int)视频在平台上的整数天category视频类别(Array)上传视频指定的视频分类length视频长度(Int)整形数字标识的视频长度views观看次数(Int)视频被浏览的次数rate视频评分(Double)满分5分Ratings流量(Int)视频的流量,整型数字conments评论数(Int)一个视频的整数评论数related ids相关视频id(Array)相关视频的id,最多20个
②、用户表
字段备注字段类型uploader上传者用户名stringvideos上传视频数intfriends朋友数量int
2)、项目准备
将数据存放在虚拟机的目录下(假设该数据已经拉取好,并且存放在文本文件内),并启动hadoop集群、启动hiveserver2后台服务
wps office免费版的下载方法在哪里
3)、数据准备
在hdfs上创建project目录,并在该目录下创建user、video目录分别存放事先准备好的user数据和video的数据
wps的电脑版下载地址是多少(wps office下载链接)
4)、数据处理(ETL)
我们观察数据可得:视频可以有多个所属分类,每个所属分类用&符号分割,且分割的两边有空格字符,同时相关视频也是可以有多个元素,多个相关视频又用“ ”进行分割。为了分析数据时方便对存在多个子元素的数据进行操作,我们首先进行数据重组清洗操作。去掉视频类别的&符号两边的空格,再用&将相关视频联合,具体代码如下:
①、ETLMapper.java
②、ETLDriver.java
③、打包提交集群执行
补充:hive-1.0-SNAPSHOT.jar是打包名,project.ETL.ETLDriver是代码的reference,/project/video是hdfs上存储数据的路径,/project/video_ETL是设置输出结果存储的位置。
④、ETL执行完成后截图
wps office 官方下载地址是多少 WPS office官网的下载方法的方法wps 的官网最新下载的网站是多少
5)、Hive端导入数据
①、项目创库
wps office的免费版的下载方法在哪里
②、项目建表
a、外部表wps的官网最新的下载的网站在哪(wps office下载手机版)
b、内部表
c、外部向内部数据导入
1)、统计视频观看数Top10
①、sql
②、结果
wps的官网的下载的地方是什么
2)、统计视频类别热度Top10
①、定义视频类别热度(假设按照类别下视频的个数来决定)
②、将类别炸开
③、统计各类别有多少的视频并排序
④、结果
3)、统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数
①、统计前20的视频和其类别
②、打散类别
③、按照类别统计个数
wps的官网最新的下载网站是什么
④、整合
⑤、结果
4)、统计视频观看数Top50所关联视频的所属类别排序
①、统计观看数前50的视频的关联视频
②、炸开关联视频
③、和原表join获取关联视频类别
④、炸开类别
⑤、和类别热度表join,排序
⑥、整合
⑦、结果
5)、统计每个类别中的视频热度Top10,以Music为例
①、把视频表的类别炸开生成中间表格
②、从video_category直接查询Music类的观看次数前10视频
③、结果
6)、统计每个类别中视频流量Top10,以Music为例
①、从video_category直接查询Music类的流量前10视频
②、结果
7)、统计上传视频最多的用户Top10以及他们上传的观看次数在前20的视频
答案一:前十用户每人前20
①、统计上传视频最多的用户Top10
②、和video_orc联立,找出这些用户上传的视频以及排名
③、求前20
④、整合
⑤、结果
答案二:前十用户总榜前20
①、统计视频上传最多的用户Top10
②、观看数前20的视频
③、二表联列,求出匹配
④、整合
WPS office的官网最新的下载地址在哪里
⑤、结果
8)、统计每个类别视频观看数Top10
①、从video_category表查出每个类别视频观看数排名
②、取每个类别的Top10
③、整合
④、结果