电商网页中商品规格信息自动抽取方法研究

赵晓永; 王磊

摘要

Web中数十亿的商品规格信息的自动挖掘,对电子商务领域的市场分析、商品推荐、售后服务等诸多领域有重要的应用价值。但目前的商品规格信息抽取方法尚未有效解决人工标注工作量、扩展性和准确率之间的平衡问题,提出一种商品网页规格信息自动抽取方法TSAE(Title Seed Automatic Extract),采用无监督的学习方法,以网页标题为种子,结合统计特征、自然语义和机器语义,在减少工作量、提升扩展性的同时,达到了较高的准确率。实验表明,TSAE方法在提供更好的自动化抽取效果的同时,具备良好的性能和扩展性,能够支撑海量数据处理,具有良好的实用价值。

出版日期2017
单位北京信息科技大学

收藏分享被引浏览

更新时间：2024-05-11 14:00

电商网页中商品规格信息自动抽取方法研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友