基于语义的文本相似度算法研究及应用

被引量 : 0次 | 上传用户:renbinf4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代的快速发展,科技日新月异的进步,越来越多的信息充斥在网络平台上,网络平台上的数据表现出级数增长的势头,文本在众多信息载体中无疑是互联网上主要的载体形式,导致对文本的挖掘研究逐渐成为计算机领域的热点。文本分词、文本词性标注和文本表示等相关的基础研究都是为了最终的文本相似度计算,而文本的相似度计算则是众多上层文本应用领域进行深度研究的基础,文本相似度算法的研究作为联系基础研究和上层应用的纽带,已经在自然语言处理、文本分类、文本聚类、问答系统、信息检索、搜索引擎等众多文本挖掘领域中崭露头角,得到了极其广泛的应用。文本相似度算法是指采用一定的策略来比较两个文本之间的相似程度。目前文本相似度算法主要朝着两个方向发展:其一为基于向量空间模型的余弦相似度算法;其二为基于语义词典的语义相似度算法。这两种做法在计算文本之间相似度时都具有一定的意义,但是都缺乏对文本自身特性(文本篇幅和文本语言特征等)的深入分析,余弦向量法相对适用于大篇幅文本,然而该相似度算法中各个关键词的关联性却被全盘忽略;语义词典法受词典容量的制约难以较为准确地反映文本之间的相似度。不同文本应用领域中文本的特性存在着一定的差异(文本篇幅存在长、短之分,文本语言也存在中、英文之分),本文从实际的文本应用出发,展开对不同篇幅、不同语言文本之间相似度计算的研究。针对大篇幅文本中关键词数目丰富而关键词存在多义性的特性,对文本进行语义单元划分,语义单元中关键词间语义相关性采用不同的策略(关键词共现频率投票因子和关键词词性权重等)获得;针对不同语言特性(中文和英文)的小篇幅文本,对文本以词性为标识进行词性向量的划分,针对不同语言特性的文本,关键词语义化权值的定义也采用不同策略。本文主要研究长-长文本、短-短文本和短-长文本之间的相似度比较,并将长-长文本之间的相似度比较算法应用于文本分类领域,短-短文本相似度比较算法应用于FAQ系统领域,短-长文本相似度比较算法应用于搜索引擎领域,实验表明,改进的语义相似度算法使得文本分类的准确率、句子相似度计算的准确率都有了较为明显的提高。
其他文献
湿地与森林、海洋一起并称为全球三大生态系统。湿地在调节气候、涵养水源、降解污染物、保护生物多样性等方面有着不可替代的作用,有着地球之肾的美誉。滨海湿地是湿地的重要
肠道病毒71型(EV71)是导致手足口病重症病例的重要病原体之一,具有明显的嗜神经性,可导致脑炎、脑干脑炎、无菌性脑膜炎、脑脊髓炎、脊髓灰质炎样综合征等神经系统病变。EV71于19
农民法律意识是社会主义法制的重要组成部分,是实现依法治国的重要要求。一直以来,由于受政治、经济、社会、文化等因素的影响,我国农民法律意识的状况不容乐观,农民知法、懂法、
肿瘤生物治疗是肿瘤治疗研究最活跃的领域。新的治疗方法不断涌现。CIK细胞治疗正在临床转化过程中。如何提高细胞治疗的特异性及其杀伤活性,仍有很大的研究空间。CIK细胞由
同伴是小学生学习、生活中的重要他人,同伴在儿童的发展过程中具有成人无法取代的作用。由于学业不良是普遍存在的问题,因此对于学业不良儿童同伴关系的研究就显得异常重要。
研究背景慢性创面在临床上比较棘手。过去已经进行了大量的工作以促进慢性创面的愈合。但是,由于缺乏与人类病理生理学相似的前期的动物模型,慢性创面的新治疗方法的研究进展
近年来,随着我国经济水平的不断提高,我国旅游业的发展也持续升温,而民宿作为旅游产业中的其中一个要素也如雨后春笋般在旅游市场中破土而出。民宿作为一种新型的旅游业态,具
足部按摩是一门既古老而又新兴的一种非药物的自然疗法,目前备受国内外关注的一种老年人保健养生的疗法,足部按摩是指运用按摩手法作用于足部的腧穴、经络和各种反射区,使之
目的:肥大细胞(mast cell)广泛分布于皮肤及内脏粘膜下结缔组织中,具有强嗜碱性颗粒的组织细胞。分泌多种细胞因子,参与免疫调节,表达大量的IgE Fc受体,释放过敏介质。肥大细
目前,温室气体排放引起的全球变暖已经成为国际社会普遍关注的问题。建筑业的相关活动产生大量的温室气体,而温室气体的主要成分是二氧化碳(CO2),约占到80%。随着我国建筑数量逐