摘要

Web数据的不断丰富,使构建学者的社会网络成为可能,但是国内目前鲜有系统挖掘学者的师生关系.DegreeTree系统借助Deep Web数据集成技术从互联网上自动集成计算机领域的学位论文,进行数据清洗、实体识别、实体关系抽取和实体链接,由数据源模块、语义构建模块、查询处理模块、数据展示模块组成.由于学者的单位信息可能发生改变,匹配同一学者不同时期的导师、学生身份至关重要,该系统用学位论文的年份、授予单位、关键词、分类号等属性完成这一实体链接过程.用户使用DegreeTree系统可以查询以学者为中心的谱系图,并编辑修改错误或缺失信息.