基于特征词群的新闻类重复网页和近似网页识别算法

来源 :成都信息工程学院学报 | 被引量 : 0次 | 上传用户:n19851020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻类网页是互联网上冗余信息的重灾区。冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新闻网页实施消重处理。该算法依据新闻报道的自然语法特点将一篇新闻报道分解到词,从7类词性类别中提取该类别最高词频的词组成新闻报道的特征词群;通过词级倒排索引的建立,完成不同网页间特征词群的检索和对比;通过类型倒排索引的建立,完成重复和近似网页的识别和分类管理。本算法在实施过程借助于搜索引擎系统原有模块,避免新模块的引入保持了系统的简洁性;实验表明该算法是有效的,在测试的网页中召回率达9
其他文献
将WebGIS技术应用于能源管网的管理,可使能源管网的数据管理更加直观,数据的维护与共享更加方便。文中介绍了根据某钢铁公司蒸气管网管理模式进行开发的企业能源管网管理系统的
讨论了几种产生(0,1)均匀分布伪随机数的方法,以及几种用其进一步产生服从正态分布随机数的方法。并根据实时性要求,选择其中一种产生数据速度较快的算法,在ADSP-TS201S浮点DSP上实
针对已提出的多签名方案不适用于基于双线性对的身份密码系统的情况,分析了一些特定应用环境对多签名思想和身份密钥系统的有着共同的需求,在Hess等人提出的数字签名方案的基
对地面测报中自动气象站和人工观测资料的对比研究分析,并探讨了两者差异的形成原因。利用2009~2010年怀化自动气象站和人工观测的20时气压、风向风速、温度、湿度、地温等资