《常用数据挖掘算法从入门到精通》系列共21篇文章,主要向大家介绍了包括K-means聚类,决策树分类,人工神经网络以及支持向量机等10多种常用的数据挖掘算法理论和具体的案例。本文给出全部的链接以及每一篇文章的简介,大家可以根据自己的需要有选择性地学习和查阅,真正想学习数据挖掘和机器学习但是算法理论功底又不够扎实的同学建议把这一系列的文章都看一看,每天看一点也不用多久就可以看完了,每一篇文章除了以尽量简单通俗的语言给大家介绍理论部分外,还附有详细的案例帮助大家理解和巩固,希望对后续大家进一步的学习有所帮助。
CONTENT
介绍了数据预处理的目的;常用的数据预处理方法;一般数据预处理流程。
介绍了填充缺失值,光滑噪声数据的数据清理方法。
介绍了数据集成的概念;数据集成的内容;模式集成和对象匹配,冗余数据的处理,数值冲突的检测和解决的数据集成方法。
介绍了平滑/光滑处理,聚集操作,数据泛化,数据规范化,属性构造/特征构造的数据变换方法。
介绍了数据归约的概念;数据立方体聚集,维归约,数据压缩,数值规约,直方图的数据规约方法。
介绍了数据离散化和概念分层的概念;数值数据的离散化和概念分层建立的方法;分箱方法:一种简单的离散化技术,离散化:直方图方法,离散化:聚类分析方法的数据离散化和概念分层方法。
介绍了K-means聚类算法简介;相似度准则与聚类性能评价准则;K-means聚类算法原理和步骤;K-means聚类算法实例。
介绍了K-中心点聚类算法简介;K-中心点聚类算法原理;四种情况的代价函数;K-中心点聚类算法步骤;K-中心点聚类算法实例。
介绍了SOM神经网络简介;SOM神经网络的结构;相似性测量;竞争学习规则WTA(Winner-Take-All);竞争学习步骤。
介绍了SOM网络的拓扑结构;SOM网的权值调整域;SOM网络的运行原理;SOM网络的算法流程;SOM网络算法实例;SOM神经网络聚类算法的简单理解。
介绍了分类分析;贝叶斯概率—主观概率;概率基础知识;Bayes 决策理论;贝叶斯分类案例。
介绍了决策树分类模型简介;决策树的结构;决策树分类模型学习;分类特征选择;决策树的剪枝。
介绍了ID3算法原理介绍;熵和信息增益;ID3算法的信息增益算法;ID3算法实例分析。
介绍了C4.5分类算法介绍;信息增益比(Information Gain Ratio);对连续型属性的处理;对样本缺失值的处理;C4.5算法步骤;C4.5算法实例分析。
介绍了CART算法简介(Classification And Regression Tree);Gini指数;对缺失值和连续属性的处理;CART决策树的算法步骤;CART算法实例分析。
介绍了统计学习理论;经验风险和结构风险;函数集的VC维。
介绍了结构风险最小化(Structural Risk Minimization,SRM);分类问题的数学表示;分类问题的学习方法;线性可分情形:最大间隔原理;近似线性可分情形;线性不可分情形;核函数K(xi,xj)。
介绍了人工神经网络简介;人工神经元模型;神经网络模型的三个要素;前馈(forward)神经网络;BP神经网络模型;BP神经网络训练的两个阶段;BP神经网络参数设定;BP网络的正向传递过程;BP网络的反向传播过程;BP神经网络的算法步骤。
介绍了关联规则挖掘的概念;关联规则的种类;支持度与置信度;频繁项集;Apriori定理;Apriori算法关联规则挖掘详细过程。
介绍了回归分析介绍;简单线性回归;简单多项式回归;多元线性回归;多元多项式回归;多变量回归;Logistic逻辑回归;Poison泊松回归;Cox比例风险回归。