加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

十个技巧,让你成为“降维”专家

发布时间:2019-07-16 16:04:34 所属栏目:教程 来源:PLOS 编译:啤酒泡泡、刘兆娜、李雷、sirin、邢畅、武
导读:大数据文摘出品 来源:PLOS 编译:啤酒泡泡、刘兆娜、李雷、sirin、邢畅、武帅、钱天培 在分析高维数据时,降维(Dimensionality reduction,DR)方法是我们不可或缺的好帮手。 作为数据去噪简化的一种方法,它对处理大多数现代生物数据很有帮助。在这些数据

葡萄酒数据集的单时隙图将样本和变量的投影组合到前两个主成分中。AlcAsh,灰分的碱度; Dim1,维度1; Dim2,维度2; Flav,黄酮类; NonFlav Phenols,非黄烷类酚类; OD,OD280 / OD315稀释的葡萄酒; PCA,主成分分析; Phenols,总酚类; Proa,原花青素。

技巧8:找到隐藏的信号

降维的主要目标是压缩数据,同时保留大部分有意义的信息。数据压缩简化了理解数据的过程,因为简化的数据表达可以更有效地获知数据变化的主要来源。其目的是找到能够成功揭示数据底层结构的“隐藏变量”。最常见的潜在模式是离散集群或连续梯度。

在前一种情况下,相似的观察结果远离其他群体。图5A显示了一个模拟集群数据集的例子。当执行聚类分析时,目的是分析样本的组别,通常的做法是首先应用主成分分析。更具体地说,实践者经常使用一组顶部的PC(例如,50个)作为集群算法的输入。主成分分析所带来的维度的减少是一个数据降噪步骤,因为顶部特征向量应该包含所有感兴趣的信号。遗憾的是,该属性并未扩展到所有降维方法。邻域嵌入技术(如t-SNE)产生的输出不应用于聚类,因为它们既不能保持距离也不能保持密度——这两个量在解释聚类输出时都非常重要。

十个技巧,让你成为“降维”专家

图5.潜在结构

主成分分析图中的观测值可分为组(a)或遵循连续梯度(b)。Dim1,维度1;Dim2,维度2;PCA即主成分分析法

与离散集群不同,数据中的连续变化不太容易被识别。了解如何识别和准确解释潜在梯度非常重要,因为它们经常出现在与未知连续过程相关的生物数据中。当数据点没有分离成不同的聚类,而是从一个极端向另一个极端逐渐移动时,梯度就出现了;它们通常在数据降维的可视化中以平滑曲线的形式出现。值得注意的是,当PCA和cMDS(PCoA)应用于涉及线性梯度的数据时,数据点通常以呈现出马蹄形或弓形。当相关特征向量由于计算中使用的数据协方差或距离矩阵的性质而呈现特定形式时,特别是当这些矩阵可以表示为中心对称的Kac-Murdock-Szego矩阵时,PCA和cMDS图中就会出现“马蹄效应”。

你可以在图5B中看到具有潜在梯度的模拟数据的这种模式的示例。当观测随着时间的推移而进行时,经常会遇到连续跃迁;例如,细胞发育的文献中有大量介绍分析pseudotime的方法的文章,pseudotime是细胞分化或发育过程中观察到的一种梯度。可以有多个梯度影响数据,在不同方向可以记录一个稳定的变化。然而,观测到的连续梯度背后的变量可能是未知的。在这种情况下,你应该通过检查任何可用的外部协变量的值之间的差异,集中精力找出梯度端点(极值)处的观测值之间的差异(参见技巧7)。否则,你可能需要收集关于数据集中样本的其他信息,以研究这些差异的解释。

其他连续测量值(不用于数据降维计算的测量值)通常是根据数据集中包含的观测值获取的。额外的信息可以用来提高对数据的理解。使用外部协变量的最简单和最常见的方法是将它们包含在数据降维的可视化中——它们的值被编码为绘图上相应点的颜色、形状、大小甚至透明度。这方面的一个例子如图6A所示:葡萄酒属性数据集的主成分分析嵌入,其中数据点按葡萄酒类别着色,这是数据降维所忽视的一个变量。观察到的葡萄酒分组表明,用于降维的13种葡萄酒特性可以很好地表征葡萄酒类别。“葡萄酒数据集”可从加州大学欧文分校(University of California Irvine ,UCI)机器学习数据库中获取。

十个技巧,让你成为“降维”专家

图6.使用外部信息

(a)对葡萄酒数据集的PCA样本投影显示,根据葡萄酒的特性,葡萄酒往往与葡萄品种分类一致:内比奥罗(Nebbiolo)、格里诺利诺(Grignolino)和巴贝拉(Barbera)。(b)主成分分析双标图(biplot)可以用来找出哪一组葡萄酒具有较高的哪一种性质。Dim1,维度1;Dim2,维度2;主成分分析。

有时,根据新计算的特征直接绘制外部变量是显示数据变化趋势的有效方法。例如,连续变量(例如患者的年龄或体重)的散点图与所选输出维度的坐标之间的关系显示所选协变量与新特征之间的相关性。如果外部信息是分类的而不是连续的,则可以为变量的每一级生成PC坐标的箱线图(例如PC1、PC2或其他)。

外部信息也可以合并到双标图(bioplots)中。图6B显示了将观察到的外部信息与根据原始变量对新坐标轴的解释相结合 (如技巧7所述)。你可以发现“Barbera”葡萄酒往往含有较高的“苹果酸”和较低的“黄烷酸”,而“Grignolinos”往往含有较低的“灰分”和“酒精”含量。

此外,外部信息可用于发现批次效应。批次效应是技术或系统的变异来源,它掩盖了感兴趣的主要信号。它们经常出现在测序数据中,其中来自相同测序运行(lane)的样品聚集在一起。因为批次效应会混淆感兴趣的信号,所以在进行进一步的下游分析之前,最好检查它们的存在,如果发现,则将其移除。你可以通过数据降维嵌入图来检测技术或系统变化,该嵌入图中的数据点按批次成员资格进行着色,例如按测序运行、笼号、研究队列进行着色。如果发现批次效应,你可以通过移动所有观察值来移除它,方法是每个批处理的质心(组的重心)移动到绘图的中心(通常是坐标系的原点)。

技巧9:利用多域数据

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读