摘要

英语是国际上常用的语言。目前,经常使用的英语是英式英语和美式英语。但是从词汇到语法,它们都有根本的区别。在学习英语的过程中,人们必须确保他们要学习的英语类型。因此,该研究建立了一个文本分类系统,可以根据文本中使用的英语类型对句子进行分类。其核心是使用N-gram特征、字词频率反转文件频率加权(TF-IDF)和附加字词字典作为特征。在TF-IDF加权过程中,给出了文档频率(DF)的阈值。并采用线性核支持向量机(SVM)算法进行分类。实验结果表明,得到的最佳分类精度为96.53%。