摘要

目的探索代谢组学研究中数据处理的新方法。方法本文提出了在代谢组学数据预处理中,用稳健PCA的方法进行离群样品点的诊断,用变量的类内差异和类间差异的比较来判断非保守性代谢组分,用尺度同一化的方法进行数据预处理来消除数据的尺度差异。并以Arabidopsis thaliana属的四个基因型的植株代谢组学的数据为例,用以上的方法进行数据预处理后再用PCA的方法分析。结果与结论研究表明这三种数据预处理方法的应用会明显的改善代谢组学生物信息学分析中聚类分析的结果和生物标志物识别的准确性及全面性。