17

文章分类:Notebook_杂谈

记录一些日常会用到的操作,个人笔记本!!!

分类算法-k 邻近算法

k- 近邻 (k-NearestNeighbor,kNN) 分类算法是数据挖掘分类技术中最简单的方法之一。K- 近邻算法是通过测量不同特征值之间的距离进行分类的。基本思路是:如果一个样本在特征空间中的k 个最邻近样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在决定类别上只依据最近的一个或几个样本的类别来决定待分类样本所属的类别。KNN 算法中,所选择的邻居都是已经正确分类的对象。该方法在分类决策上只依据最邻近的一个或几个样本的类别来决定待分类

markdown基本语法

语法内容基本修改于mdeditor、有兴趣的可以研究研究。基本介绍此网站支持的语法、尚未支持的未来会进行扩展。

「Wide & Deep Learning for Recommender Systems」- 论文阅读

我们介绍了广深学习——联合训练的宽线性模型和深度神经网络——将推荐系统记忆和概括的好处结合起来。我们在 Google Play 上生产并评估了该系统,这是一个商业移动应用商店,拥有超过 10 亿活跃用户和 100 多万个应用程序。在线实验结果表明,与仅宽度和仅深度模型相比,宽和深综合模型显著提高了应用的获取量。我们还在 TensorFlow 中开源了我们的方法。

数据预处理-数据集成与数据变换

主要是将多个数据源中的数据进行整合并统一存储。

分类算法-AdaBoot 算法

AdaBoost 是英文"Adaptive Boosting"(自适应增强)的缩写,是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器 ( 弱分类器 ),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。AdaBoost 是 Adaptive Boosting(自适应)的缩写,它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的样本再次被用来训练下一个基本分类器。同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足

使用朴素贝叶斯过滤垃圾邮件

朴素贝叶斯分类器 (Naive Bayes Classifier, NBC) 发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC 模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。之所以成为 “朴素” 是因为整个形式化过程只做最原始、最简单的假设。朴素贝叶斯在数据较少的情况下仍然有效,可以处理多类别问题。

数据预处理-数据归约

数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。原数据可以用来得到数据集的归约表示,它接近于保持原数据的完整性,但数据量比原数据小得多,与非归约数据相比,在归约的数据上进行挖掘,所需的时间和内存资源更少,挖掘将更有效,并产生相同或几乎相同的分析结果。