加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

十个技巧,让你成为“降维”专家

发布时间:2019-07-16 16:04:34 所属栏目:教程 来源:PLOS 编译:啤酒泡泡、刘兆娜、李雷、sirin、邢畅、武
导读:大数据文摘出品 来源:PLOS 编译:啤酒泡泡、刘兆娜、李雷、sirin、邢畅、武帅、钱天培 在分析高维数据时,降维(Dimensionality reduction,DR)方法是我们不可或缺的好帮手。 作为数据去噪简化的一种方法,它对处理大多数现代生物数据很有帮助。在这些数据

对于非优化方法,通常在降维之前预先指定成分的数量。当使用这些方法时,可以通过迭代的方法不断增加维度的数量,并评估每次迭代中增加的维度是否能够使损失函数显著减小,来最终选择降维时要保留的成分的数量。例如t分布随机嵌入的情况下,由KL散度(KL)定义的输入变量和输出变量之间的转换概率。理想情况下,你肯定愿意你的发现(例如,可视化中观察到的模式)对维度数量的选择具有鲁棒性。

技巧6:在可视化时使用正确的宽高比

可视化是数据探索过程的重要组成部分。因此,你生成的DR图能否准确反映降维方法的输出至关重要。关于可视化,一个重要但经常被忽视的属性是其宽高比。2D(和3D)图的高度和宽度(以及深度)之间的比例关系可以强烈影响你对数据的感知; 因此,DR图应遵循与显示的输出轴所解释的相对信息量相一致的宽高比。

在PCA或PCoA的情况下,每个输出维度都具有相应特征值,该特征值与其所代表的方差值成比例。如果图表的高宽比是任意的,则不能获得数据的完整图像。由于用于分析生物数据的流行软件通常默认生成方形(2D)或立方形(3D)的图形,因此高宽相等的二维PCA图很常见,但也经常使人产生误解。其实,PCA图表的高宽比应与相应特征值之间的比率相一致。由于特征值反映了相关主成分坐标的变化,因此只需要确保在图表中,一个PC方向上的单位长度与另一PC方向单位长度相同。(如果你使用ggplot2 R软件包来生成图表,添加+ coords_fixed(1)将确保正确的宽高比。)

我们用图2所示的模拟示例来说明宽高比问题。在矩形(图2A)和正方形(图2B)图中,宽高比与PC1和PC2坐标的方差不一致; 结果是明显地将数据点(错误地)分组到图表的顶部和底部。相反,图2C,垂直两轴的长度比与相应特征值之间的比率一致,因此可以显示正确的分组,与真实的分类一致。

十个技巧,让你成为“降维”专家

图2. PCA图的宽高比

两个模拟高斯群集投射在第一和第二个主成分上。矩形(a)和方形(b)图中的宽高比不正确。将(c,d)图中的宽高比进行校正,其中调整图表的高度和宽度以匹配PC1和PC2坐标中的方差。(d)图中显示的颜色表示真正的高斯分组关系。Dim1,维度1; Dim2,维度2; PC,主成分; PCA,主成分分析。

在许多基于优化的降维方法中,维度的排序没有意义。例如,在t-SNE的情况下,你可以在生成新的数据表示之前选择输出维度的个数(通常为两个或三个)。与主成分不同,t-SNE的各维度是无序且同等重要的,因为它们在通过优化算法的最小化损失函数中具有相同的权重。因此,对于t-SNE,通常的做法是使投影图形为正方形或立方形。

技巧7:理解新维度的含义

许多线性DR方法,包括PCA和CA,都为观测值和变量提供了约化表示。特征映射(Feature maps)或相关性圆图(correlation circles)可用于确定哪些原始变量彼此相互关联,或与新生成的输出维度相关联。特征向量之间的夹角或与PC轴之间的夹角包含如下信息:两个夹角大约在0°(180°)的向量,其相应的变量间的关系也是是密切正(或负)相关的,而具有90°夹角的两个向量可以看作相对独立的。

图3A展示了具有变量投影的缩放坐标的相关性圆图。该图表明PC1的高值表示“Flav”(类黄酮)和“Phenols”(总酚类)中的低值以及“Malic Acid”( 苹果酸)和“AlcAsh”(灰分的碱度)中的高值。此外,“AlcAsh”(灰分的碱度)水平似乎与“NonFlav Phenols”(非黄烷类酚)密切负相关并且与“Alcohol”(酒精)水平无关。

十个技巧,让你成为“降维”专家

图3.变量的投影

葡萄酒数据集上的PCA显示了怎样用变量的表示来理解新维度的含义。相关性圆图(a)和PC1贡献图(b)。AlcAsh,灰分的碱度; Dim1,维度1; Dim2,维度2; Flav,黄酮类; NonFlav Phenols,非黄烷类酚类; OD,OD280 / OD315稀释的葡萄酒; PC,主成分; PCA,主成分分析; Phenols,总酚类; Proa,原花青素。

可以用贡献条形图来展示原始变量对新维度的重要性。变量对给定新轴线的贡献为其坐标平方(在此轴线上)与相应的所有变量总和之比; 该比率通常用百分比表示。许多程序将变量的贡献作为标准输出; 不仅可以为单个轴线定义贡献值,还可以通过对选定成分相对应的值求和为多个DR轴定义贡献值。图3B显示的是变量对PC1的百分比贡献; 请注意,百分比贡献不包含关联方向的信息。当使用高通量分析等高维数据集时,数千个或更多变量的贡献条图就不实用了; 相反,你可以限制图表的取值,仅显示具有最高贡献的前几个(例如,20个)特征。

变量和观测值可以包含在同一图形中 - 称为“双时隙”。这个术语是由Kuno Ruben Gabriel 于1971年创造的,但是Jolicoeur和Mosimann早在1960年就提出了类似的观点。如图4所示的双时隙图可以同时展示数据样本和特征的趋势; 同时查看两者,你可能会发现类似(近距离)观察的组,这些观测值对于某些测量变量具有高值或低值(更多详细信息,请参见技巧8)。

十个技巧,让你成为“降维”专家

图4. 主成分双标图

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读