基于特征词群的新闻类重复网页和近似网页识别算法

来源 :成都信息工程学院学报 | 被引量 : 0次 | 上传用户:n19851020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻类网页是互联网上冗余信息的重灾区。冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新闻网页实施消重处理。该算法依据新闻报道的自然语法特点将一篇新闻报道分解到词,从7类词性类别中提取该类别最高词频的词组成新闻报道的特征词群;通过词级倒排索引的建立,完成不同网页间特征词群的检索和对比;通过类型倒排索引的建立,完成重复和近似网页的识别和分类管理。本算法在实施过程借助于搜索引擎系统原有模块,避免新模块的引入保持了系统的简洁性;实验表明该算法是有效的,在测试的网页中召回率达9
其他文献
将WebGIS技术应用于能源管网的管理,可使能源管网的数据管理更加直观,数据的维护与共享更加方便。文中介绍了根据某钢铁公司蒸气管网管理模式进行开发的企业能源管网管理系统的
为了解四川盆地闪电产生的NOX向低空的传输特征,利用大气平均电场仪、氮氧化物分析仪、臭氧分析仪对成都地区雷暴过程中闪电产生的NOX进行了地面观测,并结合风廓线雷达测得的
现在国家提倡建立城市新型医疗卫生服务体系,健康管理是提高居民健康水平的重要途径之一,而全科医生在居民健康管理中担当了重要角色。城市居民期待高水平、高质量的健康服务,这
为了实现温室控制,针对温室环境的多输入、多输出、非线性和难以建立数学模型等特点,提出一种基于BP神经网络的专家系统并用于温室控制。该方法将传感器采集的温度、湿度等信息
《诗经·小雅·小宛》中记载"螟蛉有子,蜾赢负之"。认为蜾赢不产子,喂养螟蛉为子,因此用"螟蛉"比喻义子。南北朝时,医学家陶弘景对此产生怀疑。于是,他找到一窝蜾蠃,发现
讨论了几种产生(0,1)均匀分布伪随机数的方法,以及几种用其进一步产生服从正态分布随机数的方法。并根据实时性要求,选择其中一种产生数据速度较快的算法,在ADSP-TS201S浮点DSP上实
Blasius问题用来描述稳定不可压缩流体流过平板的情况,常出现在流体力学边界层理论中.主要对Blasius问题中的剪应力进行分析估计.从与Blasius问题等价的积分方程人手,对积分方程
餐后血糖是指患者自吃第一口饭起至餐后2小时的血糖值。一般糖尿病患者餐后血糖的高峰值出现在餐后2小时、而当今大多数糖尿病患者不知道或不明确餐后血糖何时监测,也有非患者
针对已提出的多签名方案不适用于基于双线性对的身份密码系统的情况,分析了一些特定应用环境对多签名思想和身份密钥系统的有着共同的需求,在Hess等人提出的数字签名方案的基
对地面测报中自动气象站和人工观测资料的对比研究分析,并探讨了两者差异的形成原因。利用2009~2010年怀化自动气象站和人工观测的20时气压、风向风速、温度、湿度、地温等资