摘要

为了客观地确定数据点投图后分布的主要区域,本文提出了一种基于数据密度确定数据主要分布区域的方法。利用该方法可以更加直观地了解数据分布,并可以作为数据清洗的预处理手段。本文基于GEOROC大数据,以全碱对硅(TAS)图解为例,进行了分析和验证。通过提取GEOROC数据库中与TAS图解相关的岩石样本中SiO2、Na2O、K2O和烧失量含量数据,通过数据常规清洗和归算,最终获得24个种类合计13.3万条有效数据。通过数据投点、分区统计和提取80%数据的分布区域,验证了24种岩石样品与TAS图解的吻合程度。通过综合研究分析发现,有6类岩石的数据分布与TAS图解定义区域基本一致,18类岩石的数据分布与TAS图解定义区域有系统性偏差。大数据研究证明了TAS图解的不足之处,利用全碱和SiO2作为指标,难以实现提升总体分类的准确性。