领域文本相似度计算方法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:westlink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着行业内文本数据的不断积累,如教育、财经、餐饮、旅游等领域拥有大量的doc、pdf等格式的非结构或半结构化的数据。同结构化的数据管理相比,这些非结构或半结构化的数据管理要难很多。最近几年来出现了许多面向行业领域的应用,如酷讯网的车票信息、搜房网的房产信息等,它们提供的服务方便了人们的生活,但大多数是基于领域内结构化数据的信息加工和服务,所以本文主要研究行业领域内非结构化数据文本信息处理中文本相似度计算的问题。文本相似度计算是文本信息处理的基础,可为文本聚类、文本分类、相似文本资源推荐等提供技术支持。传统的文本相似度计算是基于关键词集的向量空间模型,它仅考虑了文本中关键词的简单匹配,而没有考虑关键词的语义以及关键词之间的联系;同时它在针对领域文本相似度计算时,很少考虑文本的领域特征。本文研究领域文本相似度计算,其研究思路就是如何从文本集中抽取领域知识以及如何利用领域知识来挖掘文本的语义特征来计算文本相似度。主要工作和贡献如下:(1)提出了一种中文未登录词检测方法。在研究未登录词特点的基础上,设计并验证了基于大规模语料集的候选未登录词统计和阈值过滤的未登录词检测方法。(2)设计了一种领域知识获取模型。使用带有正负符号的卡方分布计算词语和领域的相关度,将相关度较大的词语加入到领域词典;利用领域词典和“是一个”上下位关系模式相结合的方式识别领域语义知识中上下位关系的词语对。(3)提出了一种领域文本的领域特征和语义特征的抽取方法。利用领域词典抽取文本的领域特征,减少其他词语对文本主题特征的影响;同时利用上下位语义关系对领域关键词向量模型进行上位关系的词语扩展。(4)提出了一种领域文本相似度计算方法。使用上位关系扩展的领域关键词的向量模型,定义领域文本相似度计算公式计算领域文本相似度。实验表明针对领域文本集,基于领域知识的领域文本相似度计算方法和传统的文本相似度计算方法相比,它能够较好的抽取文本领域和语义特征,更好的衡量领域文本相似度。
其他文献
随着虚拟仿真技术的广泛应用,静态的建筑场景仿真已经不能满足人们的需求。为了提高与现实的契合程度,虚拟仿真平台中需要运动人群的参与。因此,人群仿真技术得到了广泛研究
视频跟踪技术具有广阔的应用前景,可应用于军用和民用监控等多个领域。本文以粒子滤波理论为基础,研究和实现了基于颜色特征的粒子滤波跟踪算法。并在该基本粒子滤波算法的基
无线局域网(WLAN)的迅速发展使得网络设备可以方便快速地通过无线方式接入到网络当中。OFDM作为WLAN的核心技术被应用,提高了WLAN的性能。无线信号的传输受到周围环境影响,这些
口腔颌面外科手术,尤其是正颌外科手术,主要针对面部骨性形态异常的患者。颌面部属于人体的显露部位,正颌外科手术的手术结果将直接影响患者的面部美学效果,对患者的日常生活至关
近年来,心脏病的防治已成为当前医疗保健的一项重要内容。心脏病具有难以预测,致残致死率高的特点。很多情况下,需要医院能够长期地对病人的心脏状况进行实时监测。普适计算
基于位置的服务(Location-Based Services, LBS)正在广泛应用于工作和生活的多个方面。作为实现LBS的关键前提,室内定位技术成为了学术界和工业界近十年来共同的研究热点。由
虚拟企业的概念是为了适应市场经济的快速发展和企业竞争环境的快速变化而提出的,它是由不同的企业借助信息网络的支持,为了快速响应市场机遇,对企业的核心技术、核心能力及
随着万维网(World Wide Web)上越来越多的多媒体数据的出现,从它们中挖掘信息在互联网应用技术中显得越来越重要。注意到互联网上目前已经存在着大量带标注的文本信息,考虑到
随着人们对快速、准确地获取信息的需求,问答系统以其能用准确、简洁的自然语言回答用户的问题而备受研究人员的关注。随着Internet技术的发展,互联网上存在着大量的在线论坛
有色Petri网作为一类特殊的Petri网模型语言,特别适用于并发、同步和资源共享起主要作用的系统。它结合了一般Petri网过程互操作特性和高级程序语言的数据类型定义及数据处理