一种提高中文搜索引擎检索质量的HTML解析方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:asdhjy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大多数情况下是不可能的。在这篇论文中 ,我们提出了网页噪声的概念 ,并针对中文网页的特点 ,实现了一种对网页自动分块并去噪的HTML解析方法 ,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明 ,该方法能够在不占用查询时间的前提下 10 0 %地消除中文搜索引擎隐藏的间接项 ,以及大约 11%的无法过滤或隐藏的无关项或间接项 ,从而大幅度提高检索结果的查准率。
其他文献
<正>近年来,一些养殖户为了追求鱼产量,盲目地加大放养密度,致使池内残饵、粪便等有害物质逐渐增多,水体越来越富营养化,进而产生大量的有害藻类,造成水质恶化,影响鱼类的生
2012年2月28日9时30分,河北省石家庄市赵县克尔化工厂硝酸胍车间发生爆炸。目前已造成25人死亡、46人受伤。爆炸事故导致一号生产车间的3层楼基本被炸平,爆炸地点出现了一个
大学生就业难既有社会的原因,也和大学生本人的就业观念和求职意向密切相关。调查结果表明,大学生在就业观念方面还存在脱离现实、期望值过高、忽视社会需要的问题,在求职意
新兴经济体内的本土企业,面对激烈的全球竞争环境是如何形成有效的竞争策略并成长起来的,这是目前尚未进行充分研究的战略管理领域。以中国体育用品行业的李宁品牌为研究对象
本文观察了参麦注射液对慢性阻塞性肺部疾病(COPD)患者胃肠功能紊乱的影响。60例随机分为治疗组40例,予参麦液20ml+NS20ml/静脉滴注;对照组20例,予NS20ml/静脉滴注。结果:治疗组痊愈8例,显效17例,有效10例,无效5例,总有效率
<正>四轮定位仪和前束调整台是汽车检测线中常用的设备。四轮定位可对汽车主销倾角、轮胎倾角、前束等参数进行综合检测,配合调整参数,其测量精度较高,主要用于中高档汽车检
环境污染责任保险在我国还属于初步发展阶段,还有许多问题需要引起注意。本文从几则相关案例出发,探讨哪些主体需要购买,为什么要购买以及易于发生纠纷的条款内容,以期防范和
近年来,农民工群发性职业病频繁发生,引发了社会对农民工职业病的关注。本文以河北省农民工职业病的特征分析为切入点,指出当前工伤保险在应对农民工职业病风险中的不足,并在
要实现柴油发动机整机技术的持续升级,并降低排放、改善燃油经济性,电控燃油喷射技术的运用是其中的关键技术之一,目前最流行的是单体泵和共轨式两大类电子燃油喷油系统。玉