加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

十个技巧,让你成为“降维”专家

发布时间:2019-07-16 16:04:34 所属栏目:教程 来源:PLOS 编译:啤酒泡泡、刘兆娜、李雷、sirin、邢畅、武
导读:大数据文摘出品 来源:PLOS 编译:啤酒泡泡、刘兆娜、李雷、sirin、邢畅、武帅、钱天培 在分析高维数据时,降维(Dimensionality reduction,DR)方法是我们不可或缺的好帮手。 作为数据去噪简化的一种方法,它对处理大多数现代生物数据很有帮助。在这些数据

所以的数据集都可以投影到这个共识空间。单个数据集的投影可以帮助观察来自不同领域的数据所描述的观察中的不同模式。图7显示了DiSTATIS在5个模拟距离表上对20个合成数据点的使用示例。不同的颜色对应不同的数据点,不同的形状对应不同的距离表。数据表之间的“折中点”用较大的菱形标记表示。有关多表数据分析的详细研究,重点是生物多组学数据集,可以请参见Meng及其同事的相关研究结果。

十个技巧,让你成为“降维”专家

图7.多域数据

为同一观测值定义的多个距离表上的DiSTATIS。可以从不同的数据类型(例如,基因表达、甲基化、临床数据)或从已知的数据生成分布中重新采样的数据来计算多个距离。

技巧10:检查结果的鲁棒性并量化不确定性

如图8所示,对于某些数据集而言,PCA的 PC定义是不明确的,即连续两个或多个PC可能具有非常相似的方差,并且相应的特征值也几乎完全相同,如图8所示。尽管由这些分量共同组成的子空间是有意义的,但特征向量(即PC)并不能单独提供信息,而且它们的载荷也不能单独解释,因为即使是一个观察点中的微小变化也会导致完全不同的特征向量集。在这种情况下,我们说这些pc是不稳定的。相似特征值对应的维度应该一起理解而不能单独解释。

十个技巧,让你成为“降维”专家

图8.不稳定的特征值

当多个特征值近乎相等时,PCA表示是不稳定的。PCA,principal component analysis,即主成分分析。

使用需要指定参数的技术时,还应根据不同的参数设置检查结果的稳定性。例如,在运行t-SNE时,你需要为困惑度选择一个值,不同的值甚至可能定性地改变结果。当困惑度被设置为非常小的值时,常会形成“人工聚类”。不应该使用t-SNE目标函数的值即KL散度作为选择“最佳困惑度”的标准,因为随着困惑度值的增加,KL散度总是单调减小。对于t-SNE,Cao和Wang在提出了用于选择困惑度的贝叶斯信息准则(BIC)类型规则。然而由于t-SNE的稳定性理论还没有开发出来,在实践中,应该针对一系列输入参数重复降维计算,并直观地评估所发现的模式在不同规格中是否一致。尤其是当困惑度值的微小增加导致聚类模式消失时,你得到的分类可能只是参数选择不合适带来的错误结果。

另一个需要关注的问题是方法面对异常值时的稳定性。一般来说,远离中心的观察点对PC的影响要大于靠近中心的观察点;有时数据中的一小部分样本几乎决定了PC。

你应该注意这样的情况,并验证降维方法捕获的结构是否能代表大部分数据,而不仅仅是少数异常值。在降维图中,异常值是远离大多数观测值的点。在PCA和其他线性方法中,如果样本投影图中的所有点都位于原点即图的中心附近,只有一两个点位于很远的地方,降维结果将被异常值控制。应该使用特定数据质量控制指标对这些点进行检验,并考虑将其删除。

如果删除了样本,则需要重新进行降维计算,并且应注意输出表示中的更改。通过比较去除异常值前后的降维可视化,观察观察点的变化。你不仅应该考虑删除异常值,还应该考虑删除异常组,即与多数数据有很大不同的异常类。除去异常组并重新进行降维计算,得到适合大部分数据的模式。另一方面,如果数据集中包含许多异常观测,则应使用稳定的方法,比如健壮的核主成分分析。

此外,可以通过构建“引导”数据集来估计与观察点相关的不确定性,即用替换方法重采样观察点以生成数据的随机子集。“引导”集可以看作是多路数据,使用技巧8中描述的STATIS或Procrustes对齐方法匹配随机子集。当数据的真实噪声模型可用时,可以生成数据点的副本,而不需要使用自举子样本。通过扰动样本的测量值,并应用技巧9中提到的STATIS或DiSTATIS方法生成“折中方案”和每个受干扰的数据副本的坐标。获取每个数据点的多个估计值后就可以估计它的不确定性。你可以使用密度等值线或通过将每个引导程序投影中的所有数据点绘制到折中方案上来显示DR嵌入图上每个样本的不确定性。图9表示两个模拟数据集的PCA投影的Procrustes比对。彩色线表示自举子集输出坐标的密度等值线,菱形标记对应于全部数据的投影坐标。图中绘制了20个合成数据点,这些数据点分别来自2维高斯分布和5维高斯分布,均正交投影到10维。我们可以观察到低秩数据点的不确定性要小得多,即前2个PC能更好地代表第一个数据集。

十个技巧,让你成为“降维”专家

图9.数据点的不确定性

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读