电脑版wps的下载方法的方法

  携程酒店评论数据:

  链接:

  提取码:vkzs

  停用词汇总:

  链接:百度网盘 请输入提取码

  提取码:02eb

  情感分析用词:

  链接:

  提取码:7wwz

  文章目录

  前言

  一、数据集介绍

  二、数据预处理

  1.引入库
官网wps的的下载网址在哪里
  2.剔除无价值数据

  三、情感信息提取及可视化

  四、使用线性支持向量分类模型进行情感预测

  优化处理操作——向下采样:

  五、使用LDA主题分类模型进行数据分析

  1. 积极评论:

  2. 消极评论:

  六、结果分析及结论

  在上一篇文章中,我进行了爱彼迎民宿评论数据的分析,而本篇是携程酒店评论数据的分析,我希望能通过数据分析,从用户体验感出发,找出民宿与酒店的不同点,发觉它们各自的优劣。

  携程酒店评论数据:

  链接:

  提取码:lpy3

  数据集中共有7766条评论,其中5322条正向评论,2444条负向评论,已经带有评论标签,label值为1是正向评论,0为负向评论。

  因为数据中包含部分其他类型的数据,所以要注意将评论数据通过.astype('str')统一转化为字符型。共剔除以下几类数据:

  1)英文数据,由于北京、上海、重庆等城市都是国际化都市,所以数据集中包含了部分英文数据,我在预处理时首先就将数据中的英文评论和评论文本中的空白行去除,具体方法就是将空白行标记为缺失值,再将包含英文字母的评论换为缺失值,然后进行再删去文本中所有缺失值。

  2)重复词,例如:携程、酒店、年月日、北京、上海、重庆、广州、杭州、南京、成都、东路、西路等,这些词虽然频繁出现,但对于分析评论特点没有帮助。

  3)数字,0-9。

  由于携程酒店评论数据数据自带情感标签,所以不需要对酒店评论数据进行情感倾向修正了。直接绘制出正向和负向评论词云图并提取对应的关键词。提取出正负面评论信息:

  

  绘制正面评论信息词云图:

  

  提取负面评论关键词:

  
wps免费版下载的入口的方法
  绘制负面评论信息词云图:

  

  提取负面评论关键词:

  

  我将总数据集随机划分为训练集和验证集,训练集占70%的数据量,验证集占30%的数据量最终使用默认参数的LinearSVC模型,利用模型的fit函数来对数据集做训练,最终打印模型在验证集数据上的准确率。模型准确率为0.7290953545232274wps office免费版的下载方法。
wps office免费版的下载的网址在哪里
  第一步:划分训练集和验证集;

  

  第二步:模型的构建和训练;

  第三步:验证模型效果,查看准确率;

  

  

  我注意到该模型负向评论为2444条,正向评论为5322条,存在着数据不平衡的情况,这里用向下采样的方法,分别采取2444条的正向评论和2444条的负向评论,这里我是参考网络上的自定义函数get_balanced_words进行的向下采样,该函数可以实现采集相同数量的不同类别数据,同时也可以通过改变采集数据总量做到欠采样和过采样。

  在进行了向下采样后,模型的准确率为0.7027948193592365,仍需继续优化。

  

  第一步:划分训练集和验证集;

  

  第二步:验证模型效果,查看准确率;

  第三步:验证模型效果,查看准确率;

  

  

  使用LDA主题分类模型分别对正向评论(label=1)中的词汇和负向评论(label=0)中的词汇进行主题分析,在进行了多次参数调优之后,我发现正向评论中LDA设为3个主题的效果较好,负向评论中LDA设为2个主题的效果较好,如果选择分为更多主题就会出现部分主题之间的大范围重叠。

  第一步:先分别删除正负面评论中是空值的行;

  第二步:进行分词操作;
wps office免费版下载网站在哪(wps office下载后怎么安装到桌面)
  第三步:去除停用词,计算tf值;

  第四步:进行LDA主题分析;

  

  第五步:LDA分类结果可视化;

  

  第三步:去除停用词,计算tf值;

  第四步:进行LDA主题分析;

  

  第五步:LDA分类结果可视化;

  

  通过携程酒店评论数据的分析结果可以看出,用户们喜欢酒店的主要原因有以下几点:

  一、酒店服务周到,早上提供早餐,入住方便且舒适;

  二、酒店的网络好,配套设施齐全,干净整洁;

  三、酒店的周围环境优美,空气清新,这也主要是度假酒店拥有的优点。

  而使住户留下差评的原因主要有以下几点:

  一、酒店设施陈旧,装修不符合住户审美;

  二、酒店服务人员服务不到位,让客人不满意。

  综合民宿篇(详见我的上一篇文章)和酒店篇,通过对数据分析结果的解读,我找出了民宿和酒店各自的优势和劣势。

  民宿作为近些年新兴的住宿方式,优势主要依靠民间房屋独有的装修风格和民宿周边的便民设施,然而民宿由于地处社区内部,具体位置往往没有酒店好找,并且在疫情期间,很多社区的管控较严,使得原本的劣势进一步放大,并且考虑到民宿的卫生条件往往不如酒店,因此在疫情背景下,更多用户选择了更干净卫生的酒店。

  此外酒店的价格标准往往是统一的,统一档次的酒店往往价格都相差不多,而民宿缺少统一标准的严格监管,民宿的具WPS office官网的下载的地址体状况完全依靠房屋所有者的自觉程度和第三方平台的监管,造成民宿配套设施、卫生条件和隔音效果参差不齐,并且由于是房屋所有者和平台第三方共同定价,民宿所有人为了得到更多利益,所以就会出现性价比差的情况。

  爱彼迎作为中国大陆地区民宿预订平台的龙头企业之一,选择在此时推出大陆市场应该也是考虑到疫情环境下,国家防疫政策不可能在短时间内放松,民宿的很多缺点被进一步放大,近年来由于疫情,国内的出行住宿市场的利润就处于低位,民宿行业在这种情况下短时间很难扭转颓势,并且民宿行业自身一直以来都存在着良莠不齐的问题,所以只能依靠出行住宿市场的的整体回暖和民宿行业内部的严格监管,民宿行业才会逐步走出当前困境。

  而酒店行业在当前环境下,虽然收益相对于疫情前有所下降,但依靠较为统一的价格标准和相对于民宿更齐全的服务模式,仍可以保持一定的客户量,但由于收入较少,酒店就需要降低用人成本,这就导致了服务人员素质有所下降,并且收益减少也使得酒店的设施出现翻新不及时的情况,这些因素给wps的的官网最新的下载网址怎么找用户带来了不好的消费体验。