摘要

TF-IDF算法是一种在信息检索领域常用的加权技术,用来评估一个字词对文档的重要程度,在文本挖掘领域使用TF-IDF算法对文本进行特征提取,将具有较高权重的字词提取出来。这些关键性的字词大体上就能代表该文本所描述的内容。TF-IDF是一种基于统计分析的方法,它并没有考虑到文本上下文的语义关联性。所以,如果单纯只是使用TF-IDF算法对文本进行特征提取效果并不好,文章提出了word2Vec结合TF-IDF算法对酒店评论进行特征词汇提取,使用深度学习wored2vec对酒店评论进行训练,通过word2vec进行上下文索引匹配寻找语义近似词汇,我们将语义相似的词汇构建为一个字典,特征词汇的不同权重反应出酒店评论中不同的关注点。依照这些不同的关注点个性化的推送酒店评论给特定的用户。

全文