数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树

news/2024/5/20 7:28:42 标签: 数据挖掘, 聚类, 决策树, 国考, 评估, 网警

数据挖掘:关联规则

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


文章目录

关联规则

如果相关性很大,那就可以去掉其中一个属性
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

异常检测

在这里插入图片描述

数据挖掘的标准流程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这些不仅是理论,更是实际业务会遇到的东西
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
NLP
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
长尾问题

数据挖掘的经典算法

这些可能会考的
去年就考了聚类
在这里插入图片描述

在这里插入图片描述
TP:实际为正,预测为正
FP:实际为负,预测为正
FN:实际为正,预测为负
TN:实际为负,预测为负

准确率acc,是TP和TN的在所有情况中的占比

recall,数据中所有正类中,真正被预测为正类的比例。就是被真的召回的正类比例

precise,在所有被预测为正类中,实际正类的比例【精确是正类的】这俩别混了
在这里插入图片描述
ROC是pr的曲线

在这里插入图片描述
检测出来了,但是你也不能误报
往往希望,recall高一点,而误报也要小

在这里插入图片描述
误报了

误报率是负样本认为正了
在这里插入图片描述

召回是1000个中的5个,好low

训练误差和泛华误差

在这里插入图片描述

分类算法评估指标:hold-out method

train和test,随机分组的交叉验证

k-fold,k组,但是每次k-1个为训练集,而剩下一组为训练集
轮番高k次
k一般是10,叫十指交叉验证
在这里插入图片描述
留一验证
当数据量很小,就留一个样本作为测试集
在这里插入图片描述

分组,组元素个数为1
在这里插入图片描述

聚类方法

在这里插入图片描述
先了解,后面会详细讲解的

看层次
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Nt就是正类
Ntk是确实是真的正类
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

在这里插入图片描述
离差
在这里插入图片描述
Ck中的i与中心u的距离

l簇和u簇的中心距离,越远越好
在这里插入图片描述
C4.5算法

开始具体的算法了


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。


http://www.niftyadmin.cn/n/5173989.html

相关文章

数据结构:AVLTree的插入和删除的实现

个人主页 : 个人主页 个人专栏 : 《数据结构》 《C语言》《C》 文章目录 前言一、AVLTree二、AVLTree的插入插入新增节点调整平衡因子旋转左单旋(新增节点位于较高右子树的右侧)右单旋(新增节点位于较高左子树的左侧)右左双旋(新增节点在较高右子树的左子…

go单元格测试

编写单元测试(Unit Test)是一种测试方法,用于验证代码中的单个功能单元(通常是函数或方法)是否按照预期工作。以下是编写单元测试的一般步骤: 1. 创建测试文件:在项目的测试目录中创建一个新的…

系列八、Mybatis一对多查询,只查询出了一条记录

一、Mybatis一对多查询,只查询出了一条记录 1.1、问题说明 典型的权限管理框架的数据库表中,一般会存在这样3种角色的表,即用户表、角色表、用户角色关联表,表设计好之后,往这三张表中初始化了一些测试数据&#xff0…

【Redis】String字符串类型

上一篇:Redis-key的使用 https://blog.csdn.net/m0_67930426/article/details/134361821?spm1001 .2014.3001.5501 目录 appen (附加) strlen(获取字符串的长度) incr decr getRange(获取字符串) setRange(替…

Spring面试题:(五)Spring注解开发@Component,@Autowired,@Bean,@Configuration

Bean基本注解 spring提供注解的版本 Component注解替代bean标签 bean其它属性的相关注解: scope 替代scopelazy 替代lazy-initPostConstruct 替代init-methodPreDestroy 替代destroy-method 使用Component注解的前提是开启注解扫描 衍生注解Repository,Servi…

状态图和活动图的含义及其区别

状态图主要用于描述一个对象在其生存期间的动态行为,表现一个对象所经历的状态序 列,引起状态转移的事件(event),以及因状态转移而伴随的动作(action)。 活动图可以用于描述系统的工作流程和并发行为。活动图其实可看作状态图的特殊形 式&am…

大模型应用--prompt工程实践

在使用大模型进行prompt 训练时&#xff0c;自己做的相关笔记。 本文以openai<1.0版为例。 1.调用大模型 定义调用openai大模型的函数 get_completion() def get_completion(prompt, model"gpt-3.5-turbo"):messages [{"role": "user", …

数据结构 | 图

最小生成树算法 Prime算法 算法思路&#xff1a;从已选顶点所关联的未选边中找出权重最小的边&#xff0c;并且生成树不存在环。 其中&#xff0c;已选顶点是构成最小生成树的结点&#xff0c;未选边是不属于生成树中的边。 例子&#xff1a; 第一步&#xff1a; 假设我们从顶…