使用朴素贝叶斯过滤垃圾邮件

朴素贝叶斯分类器 (Naive Bayes Classifier, NBC) 发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC 模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。之所以成为 “朴素” 是因为整个形式化过程只做最原始、最简单的假设。朴素贝叶斯在数据较少的情况下仍然有效,可以处理多类别问题。

Algorithm-sort

python 排序算法:插入排序、冒泡排序、归并排序、快速排序等。

Sorting algorithms: insert sort, bubble sort, merge sort, quick sort, etc.

k-邻近算法实现约会网站的配对效果

k- 近邻 (k-NearestNeighbor,kNN) 分类算法是数据挖掘分类技术中最简单的方法之一。K- 近邻算法是通过测量不同特征值之间的距离进行分类的。基本思路是:如果一个样本在特征空间中的k 个最邻近样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在决定类别上只依据最近的一个或几个样本的类别来决定待分类样本所属的类别。KNN 算法中,所选择的邻居都是已经正确分类的对象。该方法在分类决策上只依据最邻近的一个或几个样本的类别来决定待分类

分类算法-AdaBoot 算法

AdaBoost 是英文"Adaptive Boosting"(自适应增强)的缩写,是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器 ( 弱分类器 ),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。AdaBoost 是 Adaptive Boosting(自适应)的缩写,它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的样本再次被用来训练下一个基本分类器。同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足

分类算法-决策树 Decision Tree

决策树(Decision Tree)是一个非参数的监督式学习方法,决策树又称为判定树,是运用于分类的一种树结构,其中的每个内部节点代表对某一属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。

机器学习基础

机器学习是英文Machine Learning的翻译,主要研究使计算机模拟或者实现人类的行为,就行一个学生一样,通过学习获取新的知识或技能,完善自身已有的知识结构,并不断提高自身的性能。它是人工智能的核心,其应用遍及人工智能的多个领域,例如: 图像处理、人脸识别、自然语言处理、数据挖掘、生物特征识别、检测信用卡欺诈、证券市场分析、语音和手写识别等等。

分类算法-支持向量机 SVM

SVM(Support Vector Machine) 指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类及回归分析。与其他算法相比,支持向量机在学习复杂的非线性方程时提供了一种更为清晰、更加强大的方式。