摘要

自主研制微博爬虫系统WeiboCrawler。针对2013年3月爆发的甲型H7N9流感疫情,使用该系统抓取了新浪微博中与该主题相关的数据集,包括用户信息、原创和转发博文信息。以原创博文为根节点,基于转发关系采用递归方法构造博文转发树,为了严格、清晰地描述微博信息传播过程,对博文转发树进行形式化定义,进而研究微博信息传播过程及转发树的大小、深度、宽度等结构特性。结果表明:博文转发树的结构特性分布符合长尾分布,博文转发树具有深度小、密度大的结构特性;博文流行程度取决于博文转发树的宽度,而与博文转发树的深度无关;在博文转发的不同阶段,信息传播表现出相似的传播特性。考虑微博平台信息传播的特点以及博文转发树的结构特性,结合Galton-Watson分支过程,给出一种新的信息流传播模型,使用该模型对博文转发树的大小、深度、宽度三项结构特性进行仿真,发现该模型能较准确地体现信息传播的结构特性。