前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。wps的的官网下载入口是什么
点击跳转到网站:人工智能从入门到精通教程
本文电子版获取方式:
我用夸克网盘分享了「Python数据分析(4):jieba分词详解.pdf」,点击链接即可保存。打开「夸克APP」在线查看,支持多种文档格式转换。wps office免费版的下载的方法是什么
链接:https://pan.quark.cn/s/08bd6625949a
提取码:ZinR
jieba分词器提供4种分词模式,并且支持简体/繁体分词、自定义词典、关键词提取、词性标注。
(1)精确模式
该模式会将句子最精确地切分开,适合在文本分析时使用。
(2)全模式
该模式会将句子中所有成词的词语都扫描出来,速度也非常快,缺点是不能解决歧义问题,有歧义的词语也会被扫描出来。
(3)搜索引擎模式
该模式会在精确模式的基础上对长词再进行切分,将更短的词语切分出来。在搜索引擎中,要求输入词语的一部分也能检索到整个词语相关的文档,所以该模式适用于搜索引擎分词。
(4)Paddle模式
该模式利用PaddlePaddle深度学习框架,训练序列标注网络模型实现分词,同时支持词性标注。该模式在4.0及以上版本的jieba分词器中才能使用。使用该模式需要安装paddlepaddle模块。
在Python中,可以使用jieba模块的cut()函数进行分词,返回结果是一个迭代器。
cut()函数有4个参数:
第一个参数:待分词文本cut_all:设置使用全模式(True)还是精确模式(False); 默认Falseuse_paddle:控制是否使用Paddle模式进行分词HMM:控制是否使用HMM模式识别新词
(1)三种模式案例
设置参数cut_all为True:全分词
设置参数cut_all为False:精确分词
cut_all参数不给定时,默认为false,即精确分词
use_paddle参数可以设置开启paddle模式
(2)词性标注
(3)识别新词:HMM参数
HMM参数设置为True,可以识别新词,即词典中不存在的词。
词典为jieba分词自带的字典 wps office 的官方的下载网站是什么。
如下:他知
(4)搜索引擎模式分词:cut_for_search()函数
cut_for_search()函数可以进行搜索引擎模式分词
该函数只有两个参数:
第一个参数:待分词文本第二个参数:HMM,默认为True
用户也可以自己生成一个自定义词典,包含jieba分词自带字典中没有的词语,添加到程序中。比如:
注意:词频、词wps office 官方的下载网址是多少性可省略wps的的官网的下载的地方是多少。
未加载自定义字典时使用精确切分来进行分词
(1)使用自定义词典:load_userdict()函数
load_userdict()函数加载用户自定义字典
(2)动态修改词典:add_word()、del_word()函数
1. 动态添加词:add_word()
2.动态删除词:del_word()
(3)调节词频:suggest_freq()函数
不修改词频前:
修改词频后:
wps office免费版下载的入口在哪里 从文本文件中提取关键词的理论方法主要有两种:
第一种是有监督的学习方法,该方法将关键词的提取视为一个二分类问题,要么是关键词,要么不是
第二种是无监督的学习方法,该方法对候选词进行打分,大风范最高的候选词为关键词
常见的打分算法有TF-IDF和TextRank。
(1)基于TF-IDF算法的关键词提取:extract_tags()函数
extract_tags()函数能基于TF-IDF算法提取关键词
该函数有四个参数:
sentence:待提取关键词的文本topK:关键词数withWeight:是否返回权重allowPOS:指定筛选关键词的词性;默认不分词性
基于TF-IDF算法的关键词提取
(2)基于TextRank算法的关键词提取:textrank()函数
textrank()函数能基于TextRank算法提取关键字
两种方法的区别是默认提取的词性不同
当然算法不同,结果可能有差异
基于TextRank算法的关键词提取
停用词:“你”、“我”、“的”、“在”及标点符号等大量出现但非关键词的词。
我们可以把它们过滤掉
启动停用词过滤前:
为了过滤停用词,需要有一个停用词词典。
我们可以自己制作停用词词典,停用词词典的内容是根据NLP的目的变化的。
如果制作太慢,可以百度下载一个停用词词典,稍作修改成自己想要的。如下:
wps office免费版下载的地方的方法 wps的的官网最新的下载的网站在哪
启动停用词过滤后:
注意:我们根据不同的编码方式,修改encoding参数