【摘 要】
:
Web数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高.现有的网络数据清理方式并非专门针对网络
【机 构】
:
清华大学计算机系智能技术与系统国家重点实验室
论文部分内容阅读
Web数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高.现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足.本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为检索结果页面的概率,从而进行网络数据清理的算法.基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资
其他文献
住房公积金作为社会住房保障体系的重要组成部分,从表面上看,住房公积金政策在房改制度中发挥了自身的优越性,但由于住房公积金制度的特殊性,因此在实际执行过程中,会因区域
本文旨在研究如何基于小世界模型进行文本分割,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来。为此首先证明由文本形成的词汇共现图呈现短路径,高聚集度的
由各级地方官员收集信息,进而逐级上报中央,始终是我国古代的舆情收集方式。为了弥补其不足,唐代还规定州及行政长官每年都要对所辖各县至少巡查一次,通过观风俗、问百姓、录囚徒、恤鳏寡、阅丁口,来体察民情。 唐代的地方官员究竟如何进行舆情的收集工作呢? 唐代在地方行政区划上,前期实行州、县二级制,后期演变为道、州、县三级制,但无论是前期还是后期,以州统县的地方行政区划是始终不变的。一般来说,地方舆情主
去年,业内专家公认是人民币国际化的起步之年。而今年,人民币国际化开始进入“提速期”。6月份,央行宣布决定进一步推进人民币汇率形成机制改革,增强人民币汇率弹性;之后紧接着出
采用自制醋酸乙酯加氢制乙醇Cu/SiO2成型催化剂,基于催化剂的小试研究成果,对催化剂进行模试评价实验,考察了反应温度、反应压力、重时空速和氢气与醋酸乙酯的摩尔比(氢酯比)对催化