网页内容获取及基于意图的聚类

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:a30355115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于意图的信息检索研究如何针对用户查询意图进行检索结果的提交,是信息检索智能化的一个热门课题,具有重要的发展前景。本文针对意图信息检索中的网页内容获取和基于意图的网页聚类进行研究。主要工作如下:1.元搜索引擎平台的搭建本文首先设计并实现了一个对多个搜索引擎检索结果的信息进行抓取和结构化存储的元搜索引擎,为进一步获取检索结果数据奠定基础。2.基于VIPS(VIsion-based Page Segmentation)原理的REBVIPS(Regular Expression Based on VIPS)算法模型本文基于VIPS技术提出了一种利用正则表达式建立视觉页面同标签属性关系矩阵的网页内容获取算法REBVIPS,实现了网页的结构化抓取模式,同时通过对属性标签的分析实现了网页噪声干扰处理。实验表明,该方法具有较好的网页内容获取性能。3.基于TR(Topic Rank)相似意图网页聚类本文在总结现有网页意图分类标准和人工评测模型的基础上,采用TR特征进行面向网页意图的聚类分析。其中包括:(1)分别采用k-均值和k-中心聚类算法,分别考察了采用TR特征与采用一般序列特征的聚类性能。实验表明,基于TR特征的聚类比基于通常特征聚类具有更好的意图聚类性能。(2)比较了所采用的聚类算法中的距离度量对于意图聚类的影响。通过实验,分析了闵可夫斯基距离度量中p范数对于聚类结果的鲁棒性影响。
其他文献
目前,我国居民家庭中安装的智能型家居产品所实现的功能比较简单,各设备拥有独立的控制系统,交互能力差;有些设备功能的实现需要架设有线的数据传输网,这种有线的传输网前期建设成
研究了表土段立井井壁的破裂情况;通过模拟试验,首次探讨了井壁破裂的机理;继而研究了竖直附加力沿深度的变化规律、竖直附加力与影响因素间的关系;指出了井壁破裂防治技术的路线
近日,教育部、国家发展改革委、审计署联合印发的《治理义务教育阶段择校乱收费八条措施》规定:制止通过办升学培训班(“占坑班”)乱收费;制止通过跨区域招生乱收费;制止通过组织招
高等学校的教材是体现教学内容和教学方法的知识载体,是进行教学的基本工具,也是深化教学改革、提高教学质量的重要保证。高等学校的教材建设工作是高校的一项基本建设工作,是稳定教学秩序,实现高等学校人才培养目标的重要前提。地方本科院校教材建设工作普遍薄弱,尤其要把教材建设工作放在重要位置。  一、我国高校教材建设情况回顾  新中国成立后,特别是改革开放以来,在教育部的领导下,经过各级领导、广大教师、教材出
期刊
我院自2002年6月~2003年6月对28例原发性孔源性视网膜脱离患者采取巩膜外垫压、环扎、裂孔冷凝、不放液手术治疗,取得了良好的效果,既缩短了手术时间,又从根本上杜绝了放液所
深谋远虑这词说起来容易,真正要做到,可就不那么容易了:在一叶障目的情况下,谁还看得到泰山呀?再说,眼前有了一叶,谁又愿意再去看什么泰山呀!也就因为这个缘故,我们这里才流
近年来,随着信息技术的迅猛发展,在人们的日常生活中各种各样的视频信息随处可见,目前的电影预告片、广告等视频经常在一些在线社交网络(Online Social Networks,OSN)中预先
高功能微波设备可探测、破坏和干扰对方先进的电子设备系统,有利于发现和打击敌人,同时也可能对自己造成损害。为探讨微波对从业人员眼睛危害效应,2002年9月~10月间,由解放军
本论文主要研究了离散时间系统的几种新型数据驱动终端迭代学习控制(TILC)方法及其不确定性问题,论文的主要工作和创新点如下:第一,针对一类输入为常数的单输入单输出(SISO)
百姓心中的丰碑——任长霞任长霞,1964年2月8日生于郑州;1983年10月从河南省人民警察学校毕业后分配到郑州市公安局中原分局工作,先后任预审科民警、预审科副科长、法制室主