基于层次多词表达的文本匹配研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:luo000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息的海量增加使得信息检索成为信息获取的重要途径,但是,传统的基于关键词在很多场合下并不能满足日益增长的各种信息获取的需求。比如,对于存在供需双方的搜索,如求职,在检索时,更好的方式是采用简历文本作为输入,直接与职位库中的职位描述文本进行匹配,这时,检索问题不再是搜索关键词在检索源中的词匹配,而是检索文本在检索源中的文本匹配。在这类文本中,大量涉及的是单位名、职位名、技术名、地名以及固定搭配等多词表达,这些多词表达在文本匹配中具有决定性的作用。为此,本文提出建立基于多词表达的文本表示和文本匹配技术来满足此类信息检索的需求。本文在基于多词表达建立文本表示的基础上,将度量两个串之间距离的最小编辑距离扩展至度量两个串集合之间的距离,提出了一种基于最小编辑距离计算两个多词表达集合间相似度的度量,并把该算法应用于计算文本匹配度,进而在职位搜索系统中进行了应用。实验表明,本文提出的基于最小编辑距离的相似度度量能得到比传统的余弦夹角度量更好的匹配性能。
其他文献
脑机接口(BCI)是人机一体系统,广泛地应用于生理脑组织和外部设备(例如假肢)之间建立直接通信。在大脑和外部设备之间建立接口以表达皮层神经元活动。通过感测和解释神经元活动
随着稀土永磁材料的使用,计算机控制技术、电力电子技术以及现代控制理论的发展,以永磁同步电机(PMSM)为执行器的数字化永磁同步伺服系统的应用越来越广泛,逐渐成为了中低容量伺服驱动系统的发展方向。与异步电机相比,永磁同步电机由于其结构和运行特点,具有转矩响应快速,无转子损耗等优点。然而,永磁同步伺服系统受电机参数变化,外部负载扰动等因素的影响,要达到良好的控制效果,必须依靠先进的控制理论,以提高其控
蒸汽动力系统是化工企业能源系统的重要组成部分,在当前社会呼吁节能减排的形势下,蒸汽动力系统的优化运行正面临着严峻的考验。已有的理论研究成果不能很好地适应化工企业实际
第二代成像制导的反坦克导弹是广泛应用的一种武器系统,由于制导系统成像背景的复杂性和制导方式的固有特性,在实际应用中需要解决两个方面的问题。一是由于导弹的旋转、烟雾
双足机器人系统是当前机器人领域的一大研究热点。双足机器人融合了计算机视觉、运动控制、传感与数据融合、智能控制和通信等多个领域的技术。视觉系统是双足机器人的重要组
随着VoIP应用的发展,简单并易于扩展的SIP协议得到了广泛应用。由于SIP协议是一个基于文本的协议,在安全上考虑不足,因此,基于SIP协议实现的VoIP实体在网络中面临着安全威胁,
催化重整是炼油厂中最关键的过程之一,在炼油厂中起着非常重要的作用。它不仅可生产高辛烷值的清洁汽油,而且也可为炼油厂中的加氢过程提供大量廉价氢源。因此,通过研究操作优化
嵌入式视觉系统体积小、功耗低、易安装易维护,其在工业机器视觉和智能机器人领域的应用日趋广泛,但是嵌入式视觉系统的性能与基于PC平台的视觉系统相比,还有一定差距。为提
在整个机器视觉系统中,其最大的功能是在实际工况中提高生产的自动化程度和效率。在许多工作中,有很多是不太适合于人亲身去操作还有的人的眼睛不能满足工业要求,这里就经常用机器视觉来替代人工视觉,可以说机器视觉给现代工业带来了新的革命,加速了工业自动化的脚步。在整个机器视觉系统中,工业相机是机器视觉系统中的一个关键组件,选择合适的工业相机也是机器视觉系统设计中的重要环节,工业相机直接决定所采集到的图像分辨
评估工业过程运行的经济性能水平,并给出正确的优化思路对工厂保持高效生产状态有着重要意义,有效的经济性能评估方法能够在不影响系统正常运行的情况下提升企业生产效益。实际