垂直检索中的关键问题研究

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:why_2213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对垂直搜索引擎“专”的特点,主要研究了产品层次信息抽取和用户产品查询扩展两个问题,主要创新工作和成果如下:第一,提出了基于网页分析的产品层次抽取算法。该算法挖掘网页上已标注的产品链接附近区域的标签重复规律,根据DOM叶子结点的DOM Path进行编码,并找出编码序列的最优重复子串,统计重复子串连续覆盖的区域,将已知网页上的产品链接(product-urls)进行深层次聚类,并找到该类别的名字。该方法在安全类产品领域网站构成的测试集中,产品链接聚类正确率达到71.0%,(类别)命名正确率(在聚类正确的基础上)达到77.3%。第二,提出了基于概念格的产品优先的查询扩展算法。信息检索中的“文档—特征词”关系能够很自然的被看作形式概念分析中的形式背景。因此,在文本处理中,文本作为实例,描述文本的关键词作为属性,就构成了形式背景,从而建立概念格。考虑概念格中的不同“概念结点”的距离,获取查询扩展词汇,并结合产品层次,就给出了基于概念格的产品优先的查询扩展。该方法在测试中展现出了良好的查询扩展性能,辅助用户精确定位所需信息。第三,本文给出一种小型检索系统的设计方案及实现。该系统适用于各种信息检索领域的相关研究,使得个人能够在有限的硬件资源下,最大限度地模拟信息检索平台。其中,第一部分属于预处理,第二部分是本文的核心,第三部分从工程上实现系统。
其他文献
永磁同步直线电机(PMLSM)能够直接提供直线推力,其直线型结构使它不受离心力的约束,同时取消了旋转电机与工作台之间的运动转换机构,因此在需要直线驱动的场合中,相比旋转电机,直线电机伺服控制系统可以获得更大的运行速度和加速度以及定位精度。直线电机的这些特性使它在军事、交通、工业等领域的应用前景广阔,特别是在数控机床中成果显著。但是也因为直线电机的一些不足限制了其控制系统性能的提高,例如摩擦力和齿槽
CCD成像设备目前广泛应用于军事摄像、小区监控,民用摄影等领域。感光度(ISO)作为CCD设备的一个光学成像参数,描述了其捕捉光线的敏感程度。感光度越高,曝光时间就可以缩短很
在现代钢铁连铸生产方式中,钢包下渣检测方法是提高连铸生产力,保证钢水纯净度,提高产品质量的关键因素。本文在对国内外连铸下渣自动检测技术广泛调研和分析的基础上,结合国
无线传感器网络(WSN)与AdHoc网络有很大的相似之处,也是一个由大量传感器节点组成的,采用无线通信方式的、动态组网的、多跳的移动性对等网络。无线传感器网络同时也与AdHoc网
学位
静止同步补偿器在电力系统中的应用日益广泛,起到了提高电力系统功率因数、消除高次谐波的作用,显著提高了电网的供电品质,减小了馈电线路的线路损耗。目前静止同步补偿器主要应
对混沌现象的研究是非线性科学中重要课题之一,混沌运动是一种确定性的类随机运动,它广泛存在于客观世界中,基于混沌的奇异特性,不施加控制的混沌将无法应用,混沌控制是混沌
当今航天器的结构日益复杂,执行的任务越来越多种多样,所面临的干扰也越来越难以描述,航天器的姿态控制显得愈发复杂和重要。一些任务要求航天器有很高的指向精度并且能够快
本文论述了网络管理发展历史、网络管理协议的相关理论,分析了网络管理的基本模型,根据乘客信息服务系统的特点,制定了网络管理软件的功能模块,并且对基于简单网络管理协议的乘客
精确、可靠的焊缝跟踪传感系统是焊接自动化研究的主要内容之一。在众多的传感方式中,结构光视觉传感以其较高的精度和广泛的适应性而备受重视。但是目前国内市场上成型的结