搜索引擎中基于密度聚类的混合编码检测算法

章晟; 张启飞; 潘雪增; 朱旭辉

doi:10.16337/j.1004-9037.2011.01.019

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

搜索引擎中基于密度聚类的混合编码检测算法

作者：章晟; 张启飞; 潘雪增; 朱旭辉

来源：数据采集与处理, 2011, (01): 95-100.

DOI：10.16337/j.1004-9037.2011.01.019

摘要

搜索引擎有很多的关键技术,本文主要针对互联网中文HTML混合编码文件,研究了中文HTML文件的字符编码组成结构,然后对混合编码文件内容进行聚类,采用了数据挖掘领域的经典算法DBSCAN,将HTML文件分成几个大类,然后分别对各个类进行了基于特征编码检测。实验结果显示,当选取合适的参数时,对混合编码文件的聚类后,每个类与中文字符特征编码相符率达100%,可以广泛应用于搜索领域。

出版日期2011
单位浙江大学

全文

访问全文

收藏分享被引浏览

更新时间：2019-07-25 12:23

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号