摘要

Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word2 Vec词向量训练的中文分词和算法选择环节进行试验,配合深入解析部分核心源代码,发现能使训练效果最优的策略,使得Word2Vec的性能获得一定的提升,为下一步的应用提供了更好的词向量。

  • 出版日期2018
  • 单位中国人民解放军外国语学院