数据预处理-数据归约

2020年1月19日 11:26 阅读 684 评论 0

数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。原数据可以用来得到数据集的归约表示,它接近于保持原数据的完整性,但数据量比原数据小得多,与非归约数据相比,在归约的数据上进行挖掘,所需的时间和内存资源更少,挖掘将更有效,并产生相同或几乎相同的分析结果。

数据规约常用方法如下:

常用维归约

常用维归约、 数值归约等方法实现:维归约也称为特征规约,是指通过减少属性特征的方式压缩数据量,通过移除不相关的属性, 可以提高模型效率。维归约的方法很多。例如,AIC准则可以通c过选择最优模型来选择属性: LASS通过定约束条件选择变量:分类树、随机森林通过对分类效果的影响大小筛选属性;小波变换、主成分分析通过把原数据变换或投影到较小的空间来降低维数。

数值归约

数值归约也称为样本规约,样本归约就是从数据集中选出一个有代表性的样本的子集。子集大小的确定要考虑计算成本、存储要求、估计量的精度及其他一些与算法和数据特性有关的因素。例如,参数方法中使用模型估计数据,就可以只存放模型参数代替存放实际数据,如回归模型和对数线性模型都可以用来进行参数化数据归约。对于非参数方法,可以使用直方图、聚类、抽样和数据立方体聚集为方法。

原创文章,转载请注明出处:https://boywithacoin.cn/article/shu-ju-yu-chu-li-shu-ju-gui-yue/


您尚未登录,请 登录注册 后评论
    0 人参与 | 0 条评论
    暂时没有评论,欢迎来尬聊!