摘要

现代汉语虚词的研究历史悠久,成果丰富。但是目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于NLP的相关研究。本文从计算语言学的观点出发,根据目前已有的虚词研究成果以及对《人民日报》分词与词性标注语料中虚词用法规律的考察,着力构建面向NLP的现代汉语广义虚词知识库,旨在为现代汉语虚词用法的机器识别打下一定的数据基础。