基于示例的中文Web信息自动获取系统的研究与实现

来源 :海南大学 | 被引量 : 0次 | 上传用户:confusion00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的基于关键词的搜索引擎虽然在一定程度上满足了用户查询各种网络信息的需要,但是没有考虑用户个体间的差异,无法满足人们日益增长的个性化需求。中小型智能个性化网络信息获取系统凭借比搜索引擎更为优质的网络信息获取服务赢得了越来越多的用户的认同,已经成为个性化网络信息获取技术的一个重要研究方向。但是,中小型智能个性化网络信息获取系统在用户个性特征提取、基于用户兴趣的Web信息采集、网页过滤等方面研究的滞后制约了这类系统的开发和使用。为此,本文通过基于示例的中文Web信息自动获取系统的研发对这些问题展开了研究。 本文主要对中文示例Web页面的特征抽取、待过滤Web信息源的采集、Web页面的过滤等系统开发过程中面临的技术难题进行了研究,提出一些新的算法、机制:为了减轻用户的使用负担,提出了一种适用于少量中文正例Web页面的特征抽取方法,使得用户即使只提交一至两个示例也可完成兴趣定制,增强了系统的易用性;提出了一种基于元搜索的Web页面聚焦采集机制,能快速、有针对性地采集待过滤Web信息源,节约系统资源和网络资源;提出了一种可调节的过滤阈值设定方法,可按用户选取的过滤精确等级向用户推送兴趣Web页面。另外,改进了基于分块的HTML网页去噪解析方法,可以有效地剔除各种页面噪声、解析出Web页面的正文文本内容;设计的系统构架具有较好的可扩展性、可维护性、可伸缩性以及可靠性,对其它个性化Web信息获取系统的开发也具有一定的借鉴意义。最后在上述基础上,确立了系统的技术方案,并据此实现了一个原型系统。系统采用的技术方案是:采用多层客户机/服务器体系结构,引入伪正例Web页面并结合《人民日报》切分标注语料抽取用户提交的少量示例网页的特征来建立用户兴趣模板、设置过滤阈值,构建元搜索引擎获取待过滤Web信息源,使用向量空间模型过滤出兴趣网页并将它们推送给用户,根据用户对结果的反馈自适应地修改用户兴趣模板。 实验结果表明,较基于关键词的机器人搜索引擎而言,系统能充分考虑用户的兴趣偏好(示例),以较小的资源代价长期、主动地向用户提供更加准确的Web信息获取服务,具有一定的实用价值。
其他文献
目的:评价复方太子参颗粒治疗儿童厌食的临床疗效及不良反应。方法:选择58例厌食患儿给予复方太子参颗粒治疗1个月,1个月后复诊。观察服药前后患儿食欲、食量、偏食、体重等症状
干眼症是一种多因素作用下的眼表疾病,会引起眼部的干涩等不适。老年人是干眼症的高发人群,病因复杂,临床表现各异,但其病理生理改变相似。炎症是干眼症发生的关键因素,而细胞凋亡
目的::胎儿颈项透明层厚度(NT)在胎儿检查中的应用价值。方法:395例孕妇作为研究对象,对胎儿进行NT超声检查,并对NT增厚的患者进行染色体分析。对 NT 增厚但染色体分析正常的孕
空时编码技术作为第四代移动通信的关键技术之一,结合了信道编码和发射分集技术。在不增大发射功率和不扩展频带前提下,实现高速和可靠的数据传输,是空间资源利用技术的重要
随着互联网技术的发展,计算机网络丰富的信息资源给人们带来了越来越快捷和方便的服务,但同时由于其开放性和超越组织与国界等特点,也带来了突出的网络信息安全问题,如目前大多数
目的:分析冰盐水联合冰帽与冰毯的亚低温疗法对重症脑卒中和颅脑外伤患者的临床疗效及神经功能的恢复作用,为亚低温治疗方案的临床应用提供可靠的临床资料。方法:收集重症脑卒中
目的:探讨脑卒中肢体功能障碍Bobath治疗的价值。方法:收集2015年2月至2016年1月我院脑卒中患者,分为:研究组和对照组,两组基础治疗相同(抗凝、活血、降压、降糖、降脂等),研究组加用
本文研究了TMN和SNMP网管体系结构,分析了这两种体系结构的基本技术和实现方式,对两者进行了比较,探讨了网络管理的其它一些主流技术。在此基础上着重进行了FIBERHOME综合宽带接
目的:卡前列素氨丁三醇防治高危妊娠产后出血的临床疗效。方法:本文选取60例高危妊娠患者,随机划分两组,对照组采用缩宫素,治疗组采用缩宫素联合卡前列素氨丁三醇疗法,对比两组的产
伪码调相连续波雷达的扩频特性和大时宽带宽积使其具有优越的性能,越来越受到人们的关注。M序列具有优良的双值自相关特性,在工程实践中得到了广泛的应用。但m序列的优选对数目