一种利用TF-IDF方法结合词汇语义信息的文本相似度量方法研究

被引量 : 0次 | 上传用户:sb0077
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似度量,顾名思义,就是衡量两个文本之间语义相似的程度。是自然语言处理(Natural Language Processing,简称NLP)中一个非常重要的任务,也是很多下游应用的基础。文本相似度量在诸多领域都有着十分广泛的应用,比如文本重复检测领域,图像检索领域,信息检索领域,文本摘要自动生成领域以及文本分类领域。传统的文本相似度量方法通常有两种,分别是基于统计学的方法和基于语义分析的方法。前者一般都将文本视作一组词的集合,然后分析在整个文本集合中每个词项出现的次数,以及文本中每个词项出现的次数,接下来利用得到的词频信息,以此为基础将文本进行向量建模,随后利用向量间的余弦相似度、Jaccard系数等来计算文本间的相似性。后者考察文本间相似性通则常利用特定领域的语义词典来构建词语间的语义关系。现有的比较常见且完备的语义词典包括:WordNet用来研究词语消歧;知网(HowNet)用来进行句子和词语的语义相似度研究;同义词词林用来计算句子间的相似度。基于统计学的方法的缺点在于忽略了文本中词项的含义,也忽略了词项间的语义关系。同时,由于词项和文本数目的庞大,会导致文本表示模型中的向量维度极高且稀疏;基于语义分析的方法又需要大规模的知识库构建词项词项语义间的关系,虽然可以在基于统计的方法中对语义项进行某种程度的扩展,但是也进一步提高文本表示的向量维数,所以也不能够很好地反映两文本之间的相似性。TF-IDF方法就是一种传统的基于统计学的文本相似性度量方法,主要是利用文本词频向量建模,然后利用余弦相似性度量等方法来计算文本间的相似性。所以在本文中,以TF-IDF模型为基础,同时在文本中分析关键词项的语义信息,运用了一种文本相似性度量的新方法。本文使用的方法首先对文本预处理,采取自然语言的处理技术,然后使用TF-IDF方法在文本寻找TF-IDF值较高的关键词项。然后随着外部词典词分析,结合使用一种相似度加权树,和文本语义相似度的定义计算两个文本之间的相似程度。最后以基准数据集合来进行文本聚类实验,比较优越性。最终实验结果表明,本文使用的方法在以准确率、召回率、宏平均为评价指标的状况下优于TF-IDF方法和另外一种基于词语语义相似度(本文称之为WRSim)的方法,进一步验证了本文使用方法的有效性。
其他文献
马克思在《1844年经济学哲学手稿》中,立足资本主义社会的发展现状,从4个方面系统分析了异化在资本主义社会生产方式下的具体表现,揭露了随着社会生产力的发展、社会财富的积
研究了线性双峰聚乙烯(LBPE)与低密度聚乙烯(LDPE)共混物熔体的流变行为。讨论了共混物的组成、剪切应力和剪切速率以及温度对熔体流变行为、熔体粘度的影响,测定了不同配比
随着多媒体技术的发展,三维模型及其动画被引入高中生物教学领域。目前,高中生物教学领域中使用的三维模型及其动画存在资源短缺、实用性不强等问题,现亟需一批符合新课程改革要
本文借助对国外城市工业废弃地再开发的背景、内容、组织运作、资金来源等的总结,从场地内部规划设计原则和场地规划实施的外部保障两大方面,归纳成功的工业废弃地再开发需关
<正>一、前言赫伯特·哈特(Herbert Lionel Adolphus Hart,简称H. L. A. Hart),1907年生于英国北方的哈罗盖特(Harrogate), 1926年入读牛津大学新学院(New College), 1929年
意识形态工作是党的一项极端重要的工作,它凝聚思想共识,关乎旗帜、关乎道路、关乎国家政治安全、关乎党的事业全局。实事求是和求真务实是意识形态工作的灵魂和基本要求。而形
目前我国的增值税营业税并存,从制度上人为地割裂了增值税抵扣链条,造成税负失衡。2012年1月1日,国家税务总局发布110号《营业税改征增值税试点方案》在上海市交通运输和部分
<正>没错!这是一个信息化"密集"、高科技"泛滥"的时代,活在当下的我们,捧着ipad、握着iphone过着快节奏生活,那就怨不得那些传统的、古典的习俗和味道渐行渐远,弃我们而去。
运用查阅文献资料、问卷调查和数理统计等方法,对广西11个少数民族的传统体育项目进行了统计分析。结果表明,广西少数民族的传统体育项目种类齐全,数量丰富,文化内涵丰韵,具
一直以来我国政府投资项目领域带有浓厚的计划经济色彩,政府不仅是工程建设项目的投资人,还是工程项目管理人,致使投资失控、工期拖延、质量不保等现象层出不穷。国务院正式出台