基于TeztRank的多文档关键词抽取技术

来源 :第四届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:qaz370724qaz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出一种基于TextRank的多文档关键词抽取方法,该方法利用ATF*PDF方法计算文档集中的词语权重,抽取权重较大的实词为候选关键词,并根据候选关键词之间的语义相似关系建立TextRank模型,递归计算至收敛,最后生成关键词序列并抽取关键词.该方法综合考虑了词语的频率,词性以及词语之间的语义关系等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高了4.2%.召回率提高7%,F-measure提高4.6%.
其他文献
近年基于内容的图像检索技术是一个深受关注的研究热点,但是通用意义的基于内容的图像检索技术并未取得很好的效果.本文将基于内容的图像检索技术应用于电子购物领域,用于支持用户检索服装图像.提出基于分割算法的图像背景去除技术,用于减少背景对提取特征的干扰;用颜色直方图、LBP算法来提取图像的颜色与纹理特征.最后验证了图像背景去除技术对检索效果的影响以及颜色直方图、基于颜色或者纹理特征时的检索效果.
手写体文档的检索方法既与手写体文字的识别有相似之处,同时也有重要区别,主要体现在这种检索需要在开放的集合上执行,而文字识别通常可以看成是在一个事先建立的固定样本集合中查找与匹配,显然前者面临的情况会更复杂.为有效解决这一问题.本文充分利用时间与空间信息,首先建立基于模糊语法模式的笔画识别方法,在此基础上建立手写体文字的能量弹性网格及基于弹性网格坐标的文字表示,然后利用惩罚因子提高检索信息的冗余度,
谓词是语句的中心元素,其词义在分析语句含义时起着关键作用.谓词识别与词义消歧就是根据词语所处的上下文环境对谓词进行准确识别并标注谓词词义,其结果可被广泛应用到信息检索、文本分类、机器翻译等自然语言处理领域中,有着重要的研究意义.本文基于最大熵机器学习方法建立谓词的识别与词义消歧系统,并使用CoNLL 2008 share task提供的语料数据进行评测.最后系统在wsj+brown语料上谓词识别与
本文研究的目的是对学术文献进行自动分类.其分类体系为中国图书馆图书分类法(以下简称中图分类法).中图分类法下分类号数量共计近5万类,如此多的类别,使本文的研究又不同于一般的文本分类,主要难点在于:类别众多,且类别交叉大,区分难度大.本文的目的是自动赋予一篇文献中图分类号.首先我们利用CNKI海量的已经经过人工标注的期刊语料,对近200万的短语词汇进行训练,为每一个短语赋予相应的一个或多个中图分类号
极高的特征维数使文本分类变得复杂和费时,为此非常需要有效的特征降维方法.目前已有很多种特征选择方法,但据我们所知,没有一种独立的特征选择方法能够在非平衡语料上取得很好的效果.本文依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时可以给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适合于非平衡语料,也
本文在简要介绍线索二叉树和高度平衡二叉树的查找、构造、更新方法的基础上,将二者结合,提出了线索高度平衡二叉树(TAVL)结构,这种结构添加、删除、查找单个节点操作的复杂度与高度平衡二叉树相同(O(log2n))而优于线索二又树(O(n)),查找中序下相邻节点操作的复杂度(O(log2n))低于线索二叉树与高度平衡二叉树(O(n)).
使用词、短语或句法成分为基本标注单元的语义角色标注方法存在时间复杂性高、可理解性差、适用范围窄等缺点.本文以句法依存关系作为基本标注单元,使用最大熵分类器,选择并使用了一些有用的特征序列,对语义角色进行识别与标注.在CoNLL 2008 share task的语义评测子任务中,取得了世界排名第11,国内排名第2的成绩.测试集的F1值达到了69.95.通过错误分析,针对识别率较低的某些词性的中心词进
为了改善互联网信息检索的性能和效率,越来越多的研究致力于挖掘网页自身的结构化信息.网页的版面信息是网页结构化信息的重要组成部分,网页版而信息决定了网页的体裁,而网页体裁可以帮助获得更好的信息检索结果.因此,本文提出了一种基于网页信息结构的网页版面特征提取方法,并探讨了网页版面特征的选择、模型构建、网页版面距离的计算等问题,最后试验研究了该方法在基于划分的聚类算法上的表现.
本文介绍了一种搜索引擎根据搜索结果网页中的相互引用现象对其进行排序.将包含较多与查询相关信息的网页放在前面的算法.本方法认为在网络上传播越广泛的信息越重要、越有效.本方法通过查找网页集合中相互引用的部分,给予包含大量引用的网页较高排名.本方法应用于对包含具体信息为主的网页如百科知识的搜索,解决了传统的基于超链接分析的网页搜索结果排序算法中由于超链接相对缺失造成的排序不完善问题,能够取得较好的效果.
在人类社会中,人们所使用的词语是有社会性和个体性双重性质的,—个词语对于不同的人或者是同一个人生命的不同时期来讲,由于个体经验的不同,人们所对同一个词语语义的理解就会有所不同,而现在大部分的信息检索系统和搜索引擎都是按照词语的社会平均认识来进行检索并给出结果的,这就在相当程度上造成了人们进行信息检索时检索结果的查全率和查准率的下降.为了对这种状况进行改进,本文根据词语的社会性和个体性,从个人对于词