加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

十个技巧,让你成为“降维”专家

发布时间:2019-07-16 16:04:34 所属栏目:教程 来源:PLOS 编译:啤酒泡泡、刘兆娜、李雷、sirin、邢畅、武
导读:大数据文摘出品 来源:PLOS 编译:啤酒泡泡、刘兆娜、李雷、sirin、邢畅、武帅、钱天培 在分析高维数据时,降维(Dimensionality reduction,DR)方法是我们不可或缺的好帮手。 作为数据去噪简化的一种方法,它对处理大多数现代生物数据很有帮助。在这些数据

在许多情况下,可用的测量不是数值的,而是定性的或分类的。对应的数据变量表示类别,而不是数值数量,例如表型、队列成员、样本测序运行、调查应答评级等。当关注点是两个分类变量的水平(不同的值)之间的关系时,对应分析(CA)会用于分析列联表中类别的共现频率。如果有两个以上的分类变量时,多重对应分析(MCA)可以用来分析观测点之间的关系以及变量类别之间的联系。多重对应分析是对应分析的泛化,其本质就是将对应分析应用到一个将分类变量独热编码(one-hot encoding)的指示矩阵中。当输入数据既包括数值变量又包括分类变量时,则有两种策略可用。如果只有少数几个分类变量,那么可以对数值变量进行主成分分析处理,分类变量每个水平的平均值则可以通过投影为补充点(不加权)。另一方面,如果这个混合数据集包含大量的分类变量,则可以使用多因子分析法(MFA)。这个方法是对数值变量使用主成分分析,对分类变量使用多因子分析,然后加权并合并变量组的结果。

处理分类或混合数据的另一种方法是采用“最佳量化”的思想,利用PCA(即主成分分析法,下文直接采用PCA)对变量进行转换。由于目标是最大化方差,故传统PCA只能对数值型变量实行降维,不能作用在分类变量上。要想对定类(无序)或定序(有序)分类变量实行PCA降维,一种方式是将方差替换成由基于各类别的频数计算出的卡方距离(如在对应分析中),或者可以在执行PCA之前进行适当的变量变换。这里提供两种变量变换的方式:一种是将分类变量虚拟化编码为二分类特征;另一种是使用最佳缩放分类主成分分析法(CATPCA)。最佳缩放法的原理是将原有的分类变量进行类别量化,从而转换成新变量的方差最大化。通过最佳缩放可以将分类主成分分析转化成最优化问题,通过成分得分、成分加载和成分量化的交替变换,经过不断迭代使得量化后的数据和主成分之间的平方差最小。

最佳缩放的一个优点是它无需预先假定变量之间存在线性关系。 实际上,即使输入数据都是数值型时,分类主成分分析法在处理变量之间非线性关系的能力也很重要。 因此,当变量之间存在非线性关系且标准PCA只能解释方差的低比例时,最佳缩放法提供了可能的补救措施。

技巧4:使用嵌入方法降低输入数据的相关性和相异性

在既没有可用的定量特征也没有可用的定性特征时,用相异性(或相关性)度量的数据点之间的关系可以采用低维嵌入的方法进行降维。即使可以进行可变测量,计算相异性和使用基于距离的方式也是一种有效的方法。但要,你要确保你选择了一个能够最好地概括数据特征的相异度量标准。例如,如果源数据是二进制的,那就不能使用欧几里德距离,这时选择曼哈顿距离更好。但是,如果特征是稀疏,则应该优选Jaccard距离。

经典多尺度分析(cMDS)、主坐标分析(PCoA)和非度量多尺度分析(NMDS)使用成对数据之间的差异性来找到欧几里德空间中的嵌入,从而实现对所提供距离的最佳近似。尽管经典多尺度分析(cMDS)是一种类似于主成分分析(PCA)的矩阵分解方法,但非度量多尺度分析(NMDS)是一种力求仅保留相异性排序的优化技术。当对输入距离值的置信度较低时,后一种方法更适用。当相异性数据是非标准的、定性数据时,可以使用更专业的序数嵌入方法,可以参考Kleindessner和von Luxburg的详细讨论。当使用基于优化的多维缩放(MDS)时,可以选择仅通过局部交互将最小化问题限制在从数据点到其邻居(例如,k-最近邻)的距离。该方法称为“局部”MDS。

相异性也可以用作t分布随机嵌入(t-SNE)的输入。与局部MDS类似,t分布随机嵌入(t-SNE)专门用于于表示短程交互。然而,该方法通过使用小尾的高斯核函数将所提供的距离转换为邻近度量,从而以不同的方式实现了局部性。目前,已经开发了一种基于神经网络的词向量(word2vec) 方法,该方法使用相似性数据(共现数据)来生成连续欧几里德空间中的对象的向量嵌入。 事实证明,这项技术在从由文本语料库衍生的数据中生成单词嵌入方面非常有效。 但是,这些高级计算方法的鲁棒性尚未在很多生物数据集上进行广泛测试。

技巧5:有意识地决定要保留的维数

在对数据进行降维时,关键问题是选择一个合适的新维度的数量。这一步决定了能否在在降维后的数据中捕获到感兴趣的信号,降维时维度数量的选择在统计分析或机器学习任务如聚类之前的数据预处理步骤中尤为重要。即使你的主要目标是进行数据可视化,但是由于可视化时一次只能显示两个或三个轴,你仍要选择降维后要保留的合适的新维度数量。例如,如果前两个或三个主成分对方差的解释不足时,就应该保留更多的成分,在这种时候就需要对成分的多种组合进行可视化(例如,成分1与成分2,成分2与成分4,成分3与成分5之间的对比等)。在某些情况下,最强信息是一个复杂的因子,并且有用的信息被高阶成分捕获。在这种情况,就必须使用高阶成分来显示其模式。

要保留的最佳维度数很大程度上取决于数据本身。在了解数据之前,您无法确定正确的输出维度数。请记住,最大的维度数量是数据集中记录数(行数)和变量数(列数)的最小值。例如,如果你的数据集包含10,000个基因的表达式,但只有10个样本,则降维时行不能超过10个(如果输入数据已居中,则为9个)。对于基于光谱分解的降维方法,例如主成分分析(PCA)或主坐标分析(PCoA),你可以根据特征值的分布情况来进行维度的选择。在实践中,人们在做决定时通常依赖于碎石图“scree plot”(见图1)和“肘部法则(也称为拐点法则)”。碎石图直观展示了输出结果中的每个特征的值,或者等价地展示,每个特征如一个成分对方差的解释比例。通过观察图形,你能够找到一个拐点,这个位置的特征的值比它之前紧挨着它的位置的值显著下降。或者,你可以观察特征值的直方图,并从所有特征中找出“脱颖而出”的值比较大的特征。马尔琴科—巴斯德分布(Marchenko-Pastur distribution)在形式上近似地模拟了大量随机矩阵的奇异值的分布。因此,对于记录数量和特征数量都很大的数据集,你使用的规则是只保留拟合的马尔琴科—巴斯德分布支持之外的特征值;但请记住,这仅在数据集至少包含数千个样本和数千个特征的情况下才可用。

十个技巧,让你成为“降维”专家

图1.碎石图

根据优化方法,特征值可用于确定保留多少维度是充分的。根据“肘部规则”,可以选择要保留的维度的数量。在上面的示例中,你应该保留前五个主成分。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读