【摘 要】
:
本文对内容相近的多个文档抽取关键词,考虑到TF*IDF方法仅适于计算词语在单个文档中的权重,提出了一种计算词语权重的方法ATF*PDF。此方法能计算词语在多文档中的权
【机 构】
:
沈阳航空工业学院自然语言处理研究室沈阳110034
【出 处】
:
第四届全国学生计算语言学研讨会(SWCL-2008)
论文部分内容阅读
本文对内容相近的多个文档抽取关键词,考虑到TF*IDF方法仅适于计算词语在单个文档中的权重,提出了一种计算词语权重的方法ATF*PDF。此方法能计算词语在多文档中的权重。首先对文档词语进行权重计算选取候选关键词,然后结合词语之间的语义相似度进行关键词抽取。实验表明,此方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率,召回率和F值均有较大提高。
其他文献
语义角色标注为谓语动词的论元及附属成分分派语义角色,从而得到句子的浅层语义结构。本文针对两类中文特殊句式“把”字句和“被”字句的句式特点,提出了一种基于规则的语义
如何让计算机根据自然语言的语义表示消解句子乃至段落篇章中的人称代词,一直是自然语言处理的一大难题。本文依据HNC理论的句类表达式和语义块构成的相关知识,提出了一种基
省略恢复是计算机在处理自然语言时遇到的典型网难之一,对自动文摘、信息抽取等具有极为重要的意义。虽然国内外学者从句法、语用、认知等多个角度探讨了省略现象,但是从自然
本文实现了一个基于机器学习的指代消解平台。在此基础上,通过自动语义角色标注工具得到目标动词和语义角色信息,组合语义角色特征和动词驱动特征,研究发现两者的结合能够显
组块分析是自然语言的处理研究领域中新近出现的一个语言处理策略,它能有效降低句法分析的难度。本文在汉语多词块描述体系的基础上,阐述了汉语多词块库中块的结构,并对库中
为实现自动分析和自动生成蒙古语语句而研制的《蒙古语语法信息词典》由不同的层次构成,《蒙古语语法信息词典叹词分库》是它第二层次的有机组成部分。本文介绍了有关《叹词分
短语译文获取技术是基于实例机器翻译系统EBMT中的核心技术之一,短语译文获取技术的性能直接影响到EBMT的性能。当前主要的短语译文获取方法过于依赖词对齐结果,只能从词对齐
词对齐是目前主流的统计机器翻译系统必备的模块,而IBM模型是词对齐最常用的模型,但是IBM模型不允许源语到目标语的一对多词对齐,这一限制在像汉英翻译这样频繁出现一对多对齐
本文针对互连网上近似镜像网页严重降低搜索引擎效率的现象,提出了一种去重的方法。该方法通过句子在文中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量
本文提出了一种基于交互增强原理的多文档自动文摘方法。首先对句子集合和文档集合建立二部图,然后根据交互增强原理计算每个句子和文档的重要性得分。为了去除冗余,用Normal