机器学习基础

2020年1月14日 05:08 阅读 715 评论 0

机器学习是英文Machine Learning的翻译,主要研究使计算机模拟或者实现人类的行为,就行一个学生一样,通过学习获取新的知识或技能,完善自身已有的知识结构,并不断提高自身的性能。它是人工智能的核心,其应用遍及人工智能的多个领域,例如: 图像处理、人脸识别、自然语言处理、数据挖掘、生物特征识别、检测信用卡欺诈、证券市场分析、语音和手写识别等等。

根据不同的算法,机器学习算法有监督学习、非监督学习、半监督学习和强化学习。

监督学习

监督学习可以理解为是从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人类事先进行标注的。

监督学习主要应用于 分类classify 回归regression ,常见的监督学习算法有:k-近邻算法、决策树、朴素贝叶斯、logistic回归、支持向量机、adaboost算法、线行回归、局部加权线性回归、收缩和树回归

非监督学习clustering

在学习的过程中,只提供事物的具体特征,但不提供每个事物的名字。让学习者自己总结归纳。所以非监督学习又称归纳性学习(clustering),是指将数据集合分成由类似的对象组成的多个簇(或者组)的过程。

通常的算法有:k-均值、apriori、fp-growth

增强学习reinforcement learning, RL、强化学习

通过增强学习,一个人类合作机器可以知道在什么状态下应该采取什么行为。增强学习是从环境状态到动作的映射的学习,我们把这个映射称为策略,最终增强学习是学习到一个合理的策略。另一方面,增强学习是试错学习(Trail-and-error),由于没有直接的指导信息,参与学习的个体或者机器要不断与环境进行交互,通过试错的方式来获得最佳策略。另外,由于增强学习的指导信息很少,而且往往是在事后(最后一个状态)才得到的反馈信息,以及采取某个行动是获得正回报或者负回报,如何将回报分配给前面的状态以改进相应的策略,规划下一步的操作。

常见算法:动态规划、马尔可夫决策

深度学习

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。

人工智能让机器和人一样具有智力,机器学习实现人工智能的基础,深度学习是一种特定类型的机器学习

同机器学习方法一样,深度机器学习方法也有监督学习与无监督学习之分.不同的学习框架下建立的学习模型很是不同.例如,卷积神经网络就是一种深度的监督学习下的机器学习模型,而深度置信网就是一种无监督学习下的机器学习模型。

机器学习常用术语

数据集

“数据集”(Data Set):就是数据的集合的意思。其中,每一条单独的数据被称为“样本”(Sample) 。若没有进行特殊说明,本书都会假设数据集中样本之间在各种意义下相互独立。事实上,除了某些特殊的模型(如隐马尔可夫模型和条件随机场模型),该假没在大多数场景下都是相当合理的。数据集又可以分为以下三类。

(1)训练集( Training Set) :顾名思义,它是总的数据集中用来训练模型的部分。尽管将所有数据集都拿来当作训练集也无不可,不过为了提高及合理评估模型的泛化能力,通常只会取数据集中的一部分来当作训练集。

(2)测试集(TestSet) :顾名思义,它是用来测试、评估模型泛化能力的部分。测试集不会用在模型的训练部分:换句话说,测试集相对于模型而言是“未知”的,所以拿它来评估模型的泛化能力是相当合理的。

(3)交叉验证集( Cross-Validation Set, CV Set) :这是比较特殊的一部分数据,它是用来调整模型具体参数的。

其中训练集用来估计模型,交叉验证集用来确定网络结构或控制模型复杂程度的参数,而测试集则检验最终选择最优的模型性能如何。-一个典型的划分是训练集占总样本的50%,而其他各占25%,三部分都是从样本中随机抽取的。

但是,当样本总量少时,上面的划分就不合适了。 通常是留少部分做测试集,然后对其余N个样本采用K折交叉验证法。就是将样本打乱,然后均匀分成K份,轮流选择其中的K一1份训练,剩余的一份做验证, 计算预测误差平方和,最后把K次的预测误差平方和再做平均作为选择最优模型结构的依据特别的K取N,就是留一法Leave One Out)。

交叉验证和测试集的区别:

很多读者经常会把测试集和交叉验证集混淆。用一句话概括两者的区别就是,交叉验证集主要用于进一步 确定模型的参数(或结构),而测试集只是用于评估模型的精确度。

属性和特征

对于一个具体的样本,通具有一些属性或者特征,特征所具体取得值被称为特征值,特征和样本所组成得空间被称为特征空间】和样本空间,可以把他们简单的理解为特征和样本的可能存在空间。

标签或类别

与之相对应的,有“标签空间”(Labe Space),它描述了模型的输出“可能存在的空间" ;当模型是分类器时,通常会称为“类别空间”。

原创文章,转载请注明出处:https://boywithacoin.cn/article/ji-qi-xue-xi-ji-chu/


您尚未登录,请 登录注册 后评论
    0 人参与 | 0 条评论
    暂时没有评论,欢迎来尬聊!