wps 的官网最新的下载入口是多少(wps下载电脑版免费版官网最新)

  统计某视频网站的常规指标,各种TopN指标:

  –统计视频观看数Top10

  –统计视频类别热度Top10

  –统计视频观看数Top20所属类别

  –统计视频观看数Top50所关联视频的所属类别Rank

  –统计每个类别中的视频热度Top10

  –统计每个类别中视频流量Top10

  –统计上传视频最多的用户Top10以及他们上传的视频

  –统计每个类别视频观看数Top10

  1)、数据结构

  ①、视频表

  字段备注详细描述video id视频唯一id(String)11位字符串uploader视频上传者(String)上传视频的用户名Stringage视频年龄(int)视频在平台上的整数天category视频类别(Array)上传视频指定的视频分类length视频长度(Int)整形数字标识的视频长度views观看次数(Int)视频被浏览的次数rate视频评分(Double)满分5分Ratings流量(Int)视频的流量,整型数字conments评论数(Int)一个视频的整数评论数related ids相关视频id(Array)相关视频的id,最多20个

  ②、用户表

  字段备注字段类型uploader上传者用户名stringvideos上传视频数intfriends朋友数量int

  2)、项目准备

  ​ 将数据存放在虚拟机的目录下(假设该数据已经拉取好,并且存放在文本文件内),并启动hadoop集群、启动hiveserver2后台服务

  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QjvHCssw-1611070048907)(C:UsersxiaoyoupeiAppDataRoamingTypora	ypora-user-imagesimage-20210118210125248.png)]

   wps office免费版的下载方法在哪里[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e8NVNX54-1611070048909)(C:UsersxiaoyoupeiAppDataRoamingTypora	ypora-user-imagesimage-20210118210306370.png)]

  3)、数据准备

  ​ 在hdfs上创建project目录,并在该目录下创建user、video目录分别存放事先准备好的user数据和video的数据

   wps的电脑版下载地址是多少(wps office下载链接)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AwZPHIT8-1611070048911)(C:UsersxiaoyoupeiAppDataRoamingTypora	ypora-user-imagesimage-20210118205730409.png)]

  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ot3pWM4m-1611070048913)(C:UsersxiaoyoupeiAppDataRoamingTypora	ypora-user-imagesimage-20210118205748507.png)]

  4)、数据处理(ETL)

  ​ 我们观察数据可得:视频可以有多个所属分类,每个所属分类用&符号分割,且分割的两边有空格字符,同时相关视频也是可以有多个元素,多个相关视频又用“ ”进行分割。为了分析数据时方便对存在多个子元素的数据进行操作,我们首先进行数据重组清洗操作。去掉视频类别的&符号两边的空格,再用&将相关视频联合,具体代码如下:

  ①、ETLMapper.java

  ②、ETLDriver.java

  ③、打包提交集群执行

  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-axbXd5PJ-1611070048914)(C:UsersxiaoyoupeiAppDataRoamingTypora	ypora-user-imagesimage-20210118223508203.png)]

  补充:hive-1.0-SNAPSHOT.jar是打包名,project.ETL.ETLDriver是代码的reference,/project/video是hdfs上存储数据的路径,/project/video_ETL是设置输出结果存储的位置。

  ④、ETL执行完成后截图

   wps office 官方下载地址是多少 WPS office官网的下载方法的方法wps 的官网最新下载的网站是多少[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rSaJmE4G-1611070048915)(C:UsersxiaoyoupeiAppDataRoamingTypora	ypora-user-imagesimage-20210118223759279.png)]

  5)、Hive端导入数据

  ①、项目创库
wps office的免费版的下载方法在哪里
  ②、项目建表

  a、外部表wps的官网最新的下载的网站在哪(wps office下载手机版)

  b、内部表

  c、外部向内部数据导入

  1)、统计视频观看数Top10

  ①、sql

  ②、结果
wps的官网的下载的地方是什么
  2)、统计视频类别热度Top10

  ①、定义视频类别热度(假设按照类别下视频的个数来决定)

  ②、将类别炸开

  ③、统计各类别有多少的视频并排序

  ④、结果

  3)、统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数

  ①、统计前20的视频和其类别

  ②、打散类别

  ③、按照类别统计个数
wps的官网最新的下载网站是什么
  ④、整合

  ⑤、结果

  4)、统计视频观看数Top50所关联视频的所属类别排序

  ①、统计观看数前50的视频的关联视频

  ②、炸开关联视频

  ③、和原表join获取关联视频类别

  ④、炸开类别

  ⑤、和类别热度表join,排序

  ⑥、整合

  ⑦、结果

  5)、统计每个类别中的视频热度Top10,以Music为例

  ①、把视频表的类别炸开生成中间表格

  ②、从video_category直接查询Music类的观看次数前10视频

  ③、结果

  6)、统计每个类别中视频流量Top10,以Music为例

  ①、从video_category直接查询Music类的流量前10视频

  ②、结果

  7)、统计上传视频最多的用户Top10以及他们上传的观看次数在前20的视频

  答案一:前十用户每人前20

  ①、统计上传视频最多的用户Top10

  ②、和video_orc联立,找出这些用户上传的视频以及排名

  ③、求前20

  ④、整合

  ⑤、结果

  答案二:前十用户总榜前20

  ①、统计视频上传最多的用户Top10

  ②、观看数前20的视频

  ③、二表联列,求出匹配

  ④、整合
WPS office的官网最新的下载地址在哪里
  ⑤、结果

  8)、统计每个类别视频观看数Top10

  ①、从video_category表查出每个类别视频观看数排名

  ②、取每个类别的Top10

  ③、整合

  ④、结果