SparkCRF:一种基于Spark的并行CRFs算法实现

朱继召; 贾岩涛; 徐君; 乔建忠; 王元卓; 程学旗

摘要

条件随机场(condition random fields,CRFs)可用于解决各种文本分析问题,如自然语言处理(natural language processing,NLP)中的序列标记、中文分词、命名实体识别、实体间关系抽取等.传统的运行在单节点上的条件随机场在处理大规模文本时,面临一系列挑战.一方面,个人计算机遇到处理的瓶颈从而难以胜任;另一方面,服务器执行效率较低.而通过升级服务器的硬件配置来提高其计算能力的方法,在处理大规模的文本分析任务时,终究不能从根本上解决问题.为此,采用"分而治之"的思想,基于Apache Spark的大数据处理框架设计并实现了运行在集群环境下的分布式CRFs——SparkCRF.实验表明,SparkCRF在文本分析任务中,具有高效的计算能力和较好的扩展性,并且具有与传统的单节点CRF++相同水平的准确率.

出版日期2016
单位中国科学院计算技术研究所; 东北大学

收藏分享被引浏览

更新时间：2024-05-12 22:20

SparkCRF:一种基于Spark的并行CRFs算法实现

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友