分类算法-AdaBoot 算法

AdaBoost 是英文"Adaptive Boosting"(自适应增强)的缩写,是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器 ( 弱分类器 ),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。AdaBoost 是 Adaptive Boosting(自适应)的缩写,它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的样本再次被用来训练下一个基本分类器。同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足

使用朴素贝叶斯过滤垃圾邮件

朴素贝叶斯分类器 (Naive Bayes Classifier, NBC) 发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC 模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。之所以成为 “朴素” 是因为整个形式化过程只做最原始、最简单的假设。朴素贝叶斯在数据较少的情况下仍然有效,可以处理多类别问题。

数据预处理-数据归约

数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。原数据可以用来得到数据集的归约表示,它接近于保持原数据的完整性,但数据量比原数据小得多,与非归约数据相比,在归约的数据上进行挖掘,所需的时间和内存资源更少,挖掘将更有效,并产生相同或几乎相同的分析结果。

数据预处理-数据清理

主要是针对数据之中包含缺失的数据,存在异常数据和数据包含噪声的情况。当出现这些情况的时候,需要对数据进行过滤清洗清理。

百度推送工具开发

百度站长平台官方提供的推送接口 工具的作用是批量提交网站链接,推送给百度收录

分类算法-朴素贝叶斯

朴素贝叶斯分类器(Naive Bayes Classifier, NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC 模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。之所以成为“朴素”是因为整个形式化过程只做最原始、最简单的假设。朴素贝叶斯在数据较少的情况下仍然有效,可以处理多类别问题。

分类算法-决策树 Decision Tree

决策树(Decision Tree)是一个非参数的监督式学习方法,决策树又称为判定树,是运用于分类的一种树结构,其中的每个内部节点代表对某一属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。