首页 - 国内时事 - 锋范,链家地产,羊蝎子

锋范,链家地产,羊蝎子

发布时间:2019-03-11  分类:国内时事  作者:admin  浏览:145

主成分分析(PCA)是一种无监督的非参数统计技术,主要用于机器学习中的降维。

高维度意味着机器学习数据集具有大量特征。在机器学习领域,与高维相关的主要问题是模型过拟合,这会降低在训练集之外进行泛化的能力。1961年,理查德贝尔曼(Richard Bellman)将这一现象描述为“维度诅咒”,“当输入是高维的时候,许多在低维度上运行良好的fakeagent算法变得难以处理。”

随着训练数据集的维数的增加,机器学习模型泛化的能力将以指数形式变得越来越资生堂紧急召回困难。通过删除冗余的特征不仅降低了计算成本,还提高了学习速度,从而使模型也变得更加有效。

PCA还可以用来过滤噪声数据集,如图像压缩。第一个主成分表示的方差最大。较小的方差意味着较多的噪声,因此用较小的主成分子集表示数据会保留信号并丢弃噪声。

主成分分析:

通过旋转轴,PCA使数据集中的最大可变性更加明显。PCA根据每个轴捕获的方锋范,链家地产,羊蝎子差量,在对基础数据集进行排名之前,识别主轴的列表以描述基础数据集。

在上图中,第一个主成分(PC1)是一个合成变量,它被构造成一个线性组合来确定数据集中最大方差的大小和方向。在所有成分中,此成分的可变性最高,因此信息最多。第二个主成分(PC2)也是线性组合,它捕捉数据集中剩余的方差(与PC1无关)。后面的主成分类似地捕获剩余的变化,不与先前的成分关联。

PCA是一种无监督学习算法,因为这些成分的方向完全根据解释性特征集计算而不参考响应变量。

特征组合的数量等于数据集的维数,并且通常设置可以构造的PCA的最大数量。

每个蓝色点对应一个观测值,每个主分量将三维空间缩小到二维。该算法找到一对正交向量(红色箭头),它们定义了一个低姜小淘维空间(灰色平面集肤伴热),以从原始数据集捕获尽可能多的方差。

测量

特征向量和特征值是用于量化每个轴捕获的变化的方向和大小的度量。特征向量通过数据空间描述轴的角度或方向,特征值量化了轴上数据方差的大小。弃妃让朕轻薄一下

A是x n矩阵,是特征值,X是特征向量。

要素组合的数量等于数据集的维数。例如,具有十个特弗萨卡征的数据集将具有十个特征值/特征向量组合。

每个主成分之间的相关性应该为零,因为后续的成分会捕获剩余的方差。任意一对特征值/特征向量之间的相关性为零,因此轴是正交的,即,在数据空间中相互垂直

将数据投影到守梦者观后感数据空间后,使其方差最大化的直线等价于找到投影最小二乘距离的路径。

假设

PCA基于Pearson相关系数框架并继承了类似的假设。

  1. 样马配驴本量:最少150个观测值,理想情况下观测值与特征值之比为5:1(Pallant,2010)
  2. 相关性:特征集是相关的,因此简化的特征集有效地代表了原始数据空间。
  3. 线性:所有变量都表现出恒定的多元正态关系,主成分是原始特征的线性组合。
  4. 异常值:数据中没有显著的异常值,因为这些异常值对双血统是什么意思结果的影响可能不成比例。
  5. 大方差意味着更多结构:高方差轴被视为主要组件,而低方差轴被视为噪声并被丢弃。

应用PCA工作流程

从理论上讲,PCA线性变换也可以通过神经网络的输入层教父复仇权重来进行。然而,当对神经网络进行缩放时,计算网络权重所需的数据集的大小会增加,并且过度拟合会成为问题。

另一方面,PCA减少了输入节点的数量g473,反过来减少了训练网络的数据集的大小。

用于说明的数据集是Fas管家拐到床上来hion-MNIST:一个包含60,000个训练样例的数据集和一个包含10,000个观测值的测试集,总共有784个特征。每个观察示例是28x28灰度图像,与砖石之心游戏下载10个类别的标签相关联。使用具有784个输入节点,10个隐藏层和10个输出节点的未调整神经网络来对性能进行基准测试。

1. 归一化数据

PC蜂窝玉米的做法视频A用于识别具有最大方差的成分江西鑫合晟,每个变量对成分的贡献基于其方差大小。最佳实践是在执行PCA之前对数据进行归一化深宫离凰曲,因为具有不同度量单位的未缩放数据会扭曲特征间方差的相对比较。

2.为特征分解创建协方差矩阵

要得到所有不同维度之间所有可能的关系,一个有用的方法是计算它们之间的协方差,并将它们放入一个协方差矩阵中,该矩阵表示数据中这些关系。了解每个主成分捕获的累积方差百分比是减少特征集的一个组成部分。

3.选择最佳主成分莫西雅数

主成分的最优数量是通过将累积解释的方差比作为成分数量的函数来确定的。pc的选择完全取决于维度减少和信息损失之间的权衡。下面累积方差的图形化表示表明,近75%的方差仅归因于100/784个特征,95%归因于300/784个特征,表明特征冗余度较高。

性能分析

没有PCA应用的神经网络在训练和验证损失指标之间有很大的差异狱乐营,表明存在显著的过拟合。通过主成分分析减小特征空间,损失度量开始收敛,对准确度测量没有显著影响。降维提一查三督高了模型的性能和效率。

PCA限制

  • 模型性能:PCA会导致在没有或低特征相关性或不满足线性假设的数据集上的模型性能下降。
  • 分类准确性:基于方差的PCA框架不考虑类的区分特征。此外,区分一个类与另一个类的信息可能在低方差分量中并且可能被丢弃。
  • 异常值: PCA也受到异常值的影响,数据的归一化需要成为任何工作流程的重要组成部分。
  • 可解释性:每个主成分是原始特征的组合,不允许识别单个特征的重要性。

结论

PCA是数据科学家工具包的一个便利补充,可以在大多数情况下提高模型性能。 在Scikit-Learn库中有一些扩展可以缓解PCA的特定限制。 这些包括RandomizedPCA,它适用于快速逼近高维数据中的前几个主成分,以及SparsePCA,它引入了正则化调整参数以增加稀疏性。