十个技巧，让你成为“降维”专家

发布时间：2019-07-16 16:04:34 所属栏目：教程来源：PLOS 编译：啤酒泡泡、刘兆娜、李雷、sirin、邢畅、武

导读：大数据文摘出品来源：PLOS 编译：啤酒泡泡、刘兆娜、李雷、sirin、邢畅、武帅、钱天培在分析高维数据时，降维(Dimensionality reduction，DR)方法是我们不可或缺的好帮手。作为数据去噪简化的一种方法，它对处理大多数现代生物数据很有帮助。在这些数据

对于非优化方法，通常在降维之前预先指定成分的数量。当使用这些方法时，可以通过迭代的方法不断增加维度的数量，并评估每次迭代中增加的维度是否能够使损失函数显著减小，来最终选择降维时要保留的成分的数量。例如t分布随机嵌入的情况下，由KL散度(KL)定义的输入变量和输出变量之间的转换概率。理想情况下，你肯定愿意你的发现(例如，可视化中观察到的模式)对维度数量的选择具有鲁棒性。

技巧6：在可视化时使用正确的宽高比

可视化是数据探索过程的重要组成部分。因此，你生成的DR图能否准确反映降维方法的输出至关重要。关于可视化，一个重要但经常被忽视的属性是其宽高比。2D(和3D)图的高度和宽度(以及深度)之间的比例关系可以强烈影响你对数据的感知; 因此，DR图应遵循与显示的输出轴所解释的相对信息量相一致的宽高比。

在PCA或PCoA的情况下，每个输出维度都具有相应特征值，该特征值与其所代表的方差值成比例。如果图表的高宽比是任意的，则不能获得数据的完整图像。由于用于分析生物数据的流行软件通常默认生成方形(2D)或立方形(3D)的图形，因此高宽相等的二维PCA图很常见，但也经常使人产生误解。其实，PCA图表的高宽比应与相应特征值之间的比率相一致。由于特征值反映了相关主成分坐标的变化，因此只需要确保在图表中，一个PC方向上的单位长度与另一PC方向单位长度相同。(如果你使用ggplot2 R软件包来生成图表，添加+ coords_fixed(1)将确保正确的宽高比。)

我们用图2所示的模拟示例来说明宽高比问题。在矩形(图2A)和正方形(图2B)图中，宽高比与PC1和PC2坐标的方差不一致; 结果是明显地将数据点(错误地)分组到图表的顶部和底部。相反，图2C，垂直两轴的长度比与相应特征值之间的比率一致，因此可以显示正确的分组，与真实的分类一致。

十个技巧，让你成为“降维”专家

图2. PCA图的宽高比

两个模拟高斯群集投射在第一和第二个主成分上。矩形(a)和方形(b)图中的宽高比不正确。将(c，d)图中的宽高比进行校正，其中调整图表的高度和宽度以匹配PC1和PC2坐标中的方差。(d)图中显示的颜色表示真正的高斯分组关系。Dim1，维度1; Dim2，维度2; PC，主成分; PCA，主成分分析。

在许多基于优化的降维方法中，维度的排序没有意义。例如，在t-SNE的情况下，你可以在生成新的数据表示之前选择输出维度的个数(通常为两个或三个)。与主成分不同，t-SNE的各维度是无序且同等重要的，因为它们在通过优化算法的最小化损失函数中具有相同的权重。因此，对于t-SNE，通常的做法是使投影图形为正方形或立方形。

技巧7：理解新维度的含义

许多线性DR方法，包括PCA和CA，都为观测值和变量提供了约化表示。特征映射(Feature maps)或相关性圆图(correlation circles)可用于确定哪些原始变量彼此相互关联，或与新生成的输出维度相关联。特征向量之间的夹角或与PC轴之间的夹角包含如下信息：两个夹角大约在0°(180°)的向量，其相应的变量间的关系也是是密切正(或负)相关的，而具有90°夹角的两个向量可以看作相对独立的。

图3A展示了具有变量投影的缩放坐标的相关性圆图。该图表明PC1的高值表示“Flav”(类黄酮)和“Phenols”(总酚类)中的低值以及“Malic Acid”( 苹果酸)和“AlcAsh”(灰分的碱度)中的高值。此外，“AlcAsh”(灰分的碱度)水平似乎与“NonFlav Phenols”(非黄烷类酚)密切负相关并且与“Alcohol”(酒精)水平无关。

十个技巧，让你成为“降维”专家

图3.变量的投影

葡萄酒数据集上的PCA显示了怎样用变量的表示来理解新维度的含义。相关性圆图(a)和PC1贡献图(b)。AlcAsh，灰分的碱度; Dim1，维度1; Dim2，维度2; Flav，黄酮类; NonFlav Phenols，非黄烷类酚类; OD，OD280 / OD315稀释的葡萄酒; PC，主成分; PCA，主成分分析; Phenols，总酚类; Proa，原花青素。

可以用贡献条形图来展示原始变量对新维度的重要性。变量对给定新轴线的贡献为其坐标平方(在此轴线上)与相应的所有变量总和之比; 该比率通常用百分比表示。许多程序将变量的贡献作为标准输出; 不仅可以为单个轴线定义贡献值，还可以通过对选定成分相对应的值求和为多个DR轴定义贡献值。图3B显示的是变量对PC1的百分比贡献; 请注意，百分比贡献不包含关联方向的信息。当使用高通量分析等高维数据集时，数千个或更多变量的贡献条图就不实用了; 相反，你可以限制图表的取值，仅显示具有最高贡献的前几个(例如，20个)特征。

变量和观测值可以包含在同一图形中 - 称为“双时隙”。这个术语是由Kuno Ruben Gabriel 于1971年创造的，但是Jolicoeur和Mosimann早在1960年就提出了类似的观点。如图4所示的双时隙图可以同时展示数据样本和特征的趋势; 同时查看两者，你可能会发现类似(近距离)观察的组，这些观测值对于某些测量变量具有高值或低值(更多详细信息，请参见技巧8)。

十个技巧，让你成为“降维”专家

图4. 主成分双标图

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/11

首页

尾页

新萝卜家园xp sp3 纯净	xp变雨林木风win7 xp安
教您怎样解决office 2	ISO文件如何安装,教您