实验用到的类库说明
8.1.1 数据集
8.1.1.1 训练集
wps office免费版的下载的网址是多少
0-126 垃圾邮件
127-150 正常邮件
WPS office官网的下载的地方在哪里
8.1.1.2 测试集
151-155 测试邮件
8.1.2 提取邮件文本有效词汇
目标如下:
提取有效词汇代码wps的官网最新下载网址是什么
8.1.3 获取全部邮件文本中出现次数最多的前N个词汇
目标如下:
8.1.4 使用朴素贝叶斯模型进行邮件分类
首先,获取特征向量
然后,为每个邮件贴上标签,朴素贝叶斯为有监督学习,标签必须已知
创建模型,根据训练集进行训练
编写预测分类方法
对测试集进行测试
实验用到的类库说明
8.2.1 数据集
使用画图程序创建的宽度 * 长度为 30 * 60 的图片
部分数据集展示
另外,还有一个 digits.txt 文件,记录了数据集每一张图片中的真实数字,在这只显示部分内容
8.2.2 图像数据读取
加载数据代码
8.2.3 交叉验证与网格搜索
8.2.3.1 交叉验证
创建模型wps的官网最新的下载网址在哪
8.2.3.1.1 K 折叠
8.2.3.1.2 随机拆分
8.2.3.1.3 逐个测试
8.2.3.2 网格搜索
创建模型
设置待测试参数
网格搜索
8.3.1 关于 KNN 算法
KNN 算法的简称是 K-Nearest Neighbor,叫做近邻算法,有监督学习,既可以用于分类,也可以用于回归,在这,只讨论分类
8.3.2 基本思路
在样本空间内查找 K 个最相似或者距离最近的样本,然后根据 K 个最相似的样本对未知样本进行分类
8.3.3 基本步骤
对数据进行预处理,提取特征向量,对原始数据进行重新表达
确定距离计算公式,并计算已知样本空间中所有样本与未知样本的距离
确定距离计算公式(欧几里得的直线距离/曼哈顿的城市距离),在这里使用欧式距离对所有距离按升序排序确定并选取与未知样本距离最小的 K 个样本
K 的参数值对分类结果有影响
统计选取的 K 个样本中每个样本所属类别的出现频率把出现频率最高的类别作为预测结果,认为未知样本属于这个类别
8.3.4 sklearn 实现
实验用到的类库说明
模拟数据集
标签
创建模型,训练后进行预测
改变 K 值,重新预测
查看属于不同分类的概率
分层聚类又称或
8.4.1 基本思路
首先把所有样本看作各自一类(如果有 X 个样本,初始状态就有 X 类),定义类间距离计算公式(欧式距离、曼哈顿距离或其他距离),选择距离最小的一对元素合并成一个新的类,重新计算各类之间的距离并重复上述步骤,直至将所有原始元素划分为指定数量的类(每执行一次,减少一个类)
8.4.2 缺点
该算法的计算复杂度非常高,不适合大数据聚类问题
8.4.3 sklearn 实现
实验用到的类库说明
定义可视化需要用到的散点颜色和符号
创建聚类和可视化函数
生成随机数据
实验结果
wps官网最新的下载网站怎么找
8.5.1 DBSCAN 算法原理
全称 Density-Based Spatial Clustering of Applications with Noise
8.5.1.1 简介
DBSCAN 属于聚类算法,把类定义为密度相连对象的最大集合,通过在样本空间中不断搜索高密度的核心样本并进行扩展得到最大集合完成聚类,能够在带有噪点的样本空间中发现任意形状的聚类,同时排除噪点
8.5.1.2 基本概念
核心样本
如果给定样本的邻域(最大距离为 eps)内样本数量超过阈值 min_samples,则成为核心样本边界样本wps office免费版下载的入口在哪里
在邻域内样本的数量小于阈值,但是落在核心样本的邻域内的样本噪声样本
既不是核心样本也不是边界样本的样本直接密度可达
如果样本 q 在核心样本 p 的邻域内,则称 p 是可以到达 q 的,换言之,q 从 p 出发是直接密度可达的
密度可达
集合中的样本链 p1、p2、p3、…、pn,如果每个样本 pi + 1 从 pi 出发都是直接密度可达的(pi + 1 在 核心样本 pi 的邻域内),则称 pn 从 p1 出发是密度可达的(pn 在 核心样本 p1 的邻域内)密度相连
集合中如果存在样本 o 使得样本 p 和 q 从 o 出发都是密度可达的(p 和 q 都在 核心样本 o 的邻域内),则称样本 p 和 q 是互相密度相连的
8.5.1.3 工作过程
定义邻域半径(eps)和样本数量阈值(min_samples)
如果 eps 设置过大,min_samples 设置过小,会导致核心样本数量过多
如果 eps 设置过小,min_samples 设置过大,会导致核心样本数量过少从样本空间中抽取一个尚未访问过的样本 p如果 p 是核心样本,进入步骤 4;否则,根据实际情况将其标记为噪声样本或某个类的边界样本,进入步骤 2找出样本 p 出发的所有密度相连样本,构成一个聚类 Cp(该聚类的边界样本都是非核心样本),并标记这些样本为已访问如果全部样本都已访问,算法结束;否则,返回步骤 2
8.5.2 DBSCAN 算法应用
实验用到的类库说明
核心方法
生成测试数据并进行聚类
修改参数,重新聚类
Python 数据分析与数据可视化(一)Python 开发环境搭建与编码规范
Python 数据分析与数据可视化(二)数据类型、运算符与内置函数
Python 数据分析与数据可视化(三)列表、元组、字典、集合与字符串
Python 数据分析与数据可视化(四)文件操作
Python 数据分析与数据可视化(五)线性代数基本知识
Python 数据分析与数据可视化(六)numpy 数组和矩阵运算
Python 数据分析与数据可视化(七)pandas数据分析实战
Python 数据分析与数据可视化(八)sklearn机器学习实战
Python 数据分析与数据可视化(工具篇)课程所需扩展库安装
Python 数据分析与数据可视化(实践篇)泰坦尼克号旅客生存预测