搜索
您的当前位置:首页正文

数据挖掘札记1_基本概念

来源:二三娱乐

什么是数据挖掘

针对特定的问题,用适当的学科知识从数据中提炼信息,形成结论。常用的知识有:

  • 数理基础知识
  • 数据获取、加工能力
  • 相关行业知识
image.png

一、数据挖掘使用场景

  • 业务逻辑清晰、指标明确
  • 转换成恰当的数据/数学/统计问题
  • 足够的数据支撑
  • 熟悉模型/分析方法的局限性
  • 具体场景具体分析

数据挖掘目的:从数据中找出规律,验证猜想,进行预测


二、数据获取途径

常用的数据获取途径有:

  1. 公开信息
  2. 外部数据库
  3. 自由数据库
  4. 调查问卷
  5. 客户数据
  6. 通过网上爬虫等手段获取
  7. 其他途径

三、数据清洗

  • 数据的可读性
  • 数据的完整性
  • 数据的唯一性
  • 数据的权威性
  • 数据的合法性

四、数据可视化

通过视觉的形式展现数据的方式,如图:

image.png

数据可视化工具:

  • 专业工具
    • Tableau
    • Plotly
  • 通用工具
    • Excel
    • R
    • Python,例如:matplotlib包

五、数据分析主要模型

机器学习中主要是包含有监督学习无监督学习两种情形:

  • 有监督学习:提供标签的学习,比如信用卡用户数据中是否违规
    • 回归
    • 决策树
    • 其他
  • 无监督学习
    • 聚类
    • PCA
    • 其他
  • 决策树
  • 随机森林
  • 支持向量机
image.png

有监督学习模型

决策树模型

  • 一个树形结构:二叉树或非二叉树模型
  • 每个叶节点存放一个类别
  • 决策过程从根节点开始,测试待分类项中相应的特征属性值,按照其值进行输出分支
  • 到达叶子节点,将叶子节点中存放的类别作为决策结果
  • 缺点:不加控制,无限制增长,出现过拟合现象,泛化能力差;解决:剪枝

随机森林

  • 基于树模型的集成模型
  • 从待选属性集中随机选取子集,再进一步挑选最优分裂属性
  • 加权平均/投票
  • 泛化能力强

支持向量机

  • 最优平面分隔:对偶问题
  • 低维映射到高维
  • 线性不可分中的软间隔与松弛变量

神经网络

  • 一个包含了多个参数的、由若干个函数互相(嵌套)带入的模型
  • 最简单的单层神经网络:感知机
    • 只有输入层和输出层
    • 其中每个每个输入层有自己的权重 w~i


      image.png

无监督学习模型

  • 聚类分析
    • 原型聚类:k-means
    • 密度聚类:DBSCAN
    • 层次聚类:AGNES
  • 主成分分析:将高维向量x通过特征向量矩阵投影到低维空间,表征为低维向量y,损失信息少。
  • 因子分析:找出少数互不相关的综合变量来尽可能地反映原来数据所含有的绝大多数信息,例如信用卡用户的使用情况分析
    image.png

半监督学习

  • 训练样本部分有标签
  • 所有样本独立采样于同一数据源
  • 利用学习机器不依赖与外部,自动地利用未标记样本来提升学习性能
  • 常用模型:半监督学习模型S3VM(Semi-Supervised SVM)


    image.png
Top