Web文本检索中信息的分布特性与检索策略研究

来源 :全国搜索引擎和网上信息挖掘学术讨论会 | 被引量 : 0次 | 上传用户:joey_don
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文通过对Web文本中信息分布特性的考察,重点研究了网页内容、网页内向链接结构、网页链接文字和URL四个部分的信息特征,并针对每种特性的信息分布,提出新的检索策略,是对传统信息检索模型的一种改进.文中提出主特征域和主特征空间的概念,在传统词的权重计算中引入主特征词信息因子,改进检索效果.并将网页的内向链接作为主要依据,对Web中的多主题文档进行分段检索.在TREC大规模测试数据集合上的实验表明,综合考虑四种信息的分布特性,将不同的检索策略结合起来,可有效地大幅度改善检索性能.
其他文献
本文详细地介绍了重型定量给料机的机械设计及其控制仪表的研制,同时,对实际应用效果作了简单的描述.
水泥企业在已拥有荧光分析仪的基础上,开发压片制样法,并用X荧光分析仪测定水泥中SO3、MgO的含量,及时为生产质量控制快速提供可靠的指导数据,是一种简便、快捷、合理利用资源的科学方法.
由成都建材工业设计研究院设计并组织试生产的四川双马水泥(集团)有限公司1500t/d熟料湿磨干烧生产线一次点火投料成功,顺利通过达标达产考核,整个项目建设工期仅10个月,充分利用生料设备富裕能力,单线吨熟料投资仅177元,成为进入21世纪第一年在西部大开发中率先建成的第一条湿磨干烧生产线,奏响了建设、设计、施工、安装等部门协力合作的凯歌.众所周知,湿磨干烧工艺兼有湿法制备料浆、新型干法锻烧熟料的优
由于水泥行业生产规模大型化,一条水泥工艺生产线日产可达万吨以上,因此水泥生产设备的拖动电动机容量也随之增大,而现代化生产线的年运转率达到90﹪以上,很少停机检修,高压电动机属于运动设备,而且体积很大,在长期运行情况下,难免会出现一些损坏故障,必须尽快判断故障原因进行处理,但是拆卸搬动和故障处理难度相对比较高,因此尽量不进行拆卸处理,而且过维护也会造成零部件的损伤.有些故障比较明显,处理起来容易一些
海螺集团白马山水泥厂目前有两台φ3.5×145m湿法窑和一台φ3.5×88M半干法窑,一台φ3.5×145m湿法窑为1995年11月新建,φ3.5×88m窑在1991年由原来φ3.5×145m窑技改而成,在1995年又进行了一次完善性改造,现将技改状况做一介绍,并提供一些个人看法,以与各位同仁探讨.
七号窑工程于2000年4月立项,经过紧张的报批手续,于2000年8月4日举行了开工奠基典礼,9月2日正式破土动工,历经9个月27天的奋力拼搏,至2001年6月29日竣工点火,投料试生产,于9月18日顺利达产.七号窑工程为一条日产1500t熟料生产线及其配套项目,采用湿磨干烧工艺,年产P.0525R硅酸盐水泥49.5万t.工程项目总投资11626万元,实际总投资7882万元(八号磨待建),七号窑工程
在我国水泥行业中,回转窑是主要的大型设备,其调速系统的好坏,将直接影响回转窑的使用寿命、产品的产量和质量,该设备多年来一直沿用直流电机及其直流调速系统.水泥厂环境恶劣,粉尘大,直流电机长期工作在高热辐射的环境中,其碳刷、整流子损坏严重,这不仅需要大量的维修费用,而且对生产造成了极为严重的影响;回转窑属特殊负载,低速启动力矩大,在窑体大修烘炉期间,直流电机长时间低速运行,需要较大的励磁电流,致使低速
随着互联网的快速发展,对网上信息的研究方兴未艾.其中,自动建立网站网址和其拥有所属地的对应关系是一项特别有意义的工作.本文通过总结网页中地址信息的出现规律,给出了一些自动识别地理位置的规则.利用这些规则,可以很方便地识别一个中文网页的所在地.同时,这些规则在实践中是很容易被扩充和完善的.同时我们对应用这些规则而得到的结果进行了检验,得到了令人满意的覆盖率和正确率.
网络安全日志数据库是一种历史数据,对它的分析具有十分重要的实际价值.作为一种时序数据库,针对它的信息挖掘已研究出许多方法.本文提出了一种新的对此类时序数据库的信息挖掘方法,即将数据库中要分析的某一个属性序列首先进行信号化,信号化后的数据可以应用信号分析领域的处理方法对其进行分析和信息挖掘.为避免傅里叶变换在时域上无局部化能力的弱点,本文采用小波变换多分辨率分析的方法,对信号化后网络安全日志数据库中
针对中文网页,比较研究了kNN和NB分类算法.主要的实验结果有:(1)kNN的分类质量明显优于NB;(2)即使是同一个算法对于不同领域的文档,其分类能力也是各有差异的.从总体而言,NB算法对不同类别比较敏感,是一种不稳定的分类算法,kNN的分类质量受领域的影响不大.