基于文本类别信息熵的中文文档关键词提取

来源 :第七届中文信息处理国际会议 | 被引量 : 0次 | 上传用户:ghgbmnmaps
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
批量的对文本进行关键词抽取已经成为了情报检索领域相当有挑战性的工作。在本文中,一种全新的,基于文本统计类别信息熵的关键词抽取技术将被系统的介绍。此外,根据关键词,特别是在互联网上的功能,本文还尝试地给出了一种新的关键词分类:内容关键词、导出词(TAG关键词)和锚点关键词.通过将关键词的功能进行分化后,一套多样的,能满足不同需求的关键词排序算法被系统的提了出来。测评结果显示该关键词系统有较好的准确性、稳定性和高效性。
其他文献
副词用法多样,已有的副词研究大都是面向人用的,很难直接用于自然语言处理的实际应用中。本文从副词的实际用法入手,调整和完善了副词用法信息词典,构建了面向机器识别的规则
无线传感器网络因其巨大的应用前景而受到学术界和工业界越来越广泛的重视.简述了无线传感器网络的体系结构,详细介绍了一种基于ATmega128L和2.4GHz无线收发模块CC2420的无线
本文主要描述了意见挖掘中如何判定汉语语句情感词的语义倾向(极性)。我们不仅计算情感词的静态极性,而且通过分析它的上下文,计算情感词的动态(修饰)极性。从而提高了情感描
景德镇陶瓷行业经管类人才的队伍现状不容乐观.表现为平均学历职称水平远低于其它行业、人才流失严重、人才结构严重不合理、高端企业经管人才稀缺等等.集团化、专业化、品牌
长距离回指是回指的一种,其先行语一般在离回指语较远的上文中,从而增加了消解的难度。长距离回指消解一直是自然语言处理中的难题。本文以汉语为个案,旨在探讨长距离回指的
实体关系的抽取是信息抽取中的一个重要问题。针对中文句法分析研究现状,本文首先设计了一种能够直接利用浅层语言特征的混合谱核来描述关系实例的上下文,并给出了基于广义后
会议
树库的构建是语料库语言学的重要组成部分。本文提出构建一种全新的汉语树库-依存图库.依存图表示可以突破以往树结构表示的局限,更好地表示词语之间的关系,对于汉语特殊结构
本文在理论分析的基础上,并通过基准实验验证,提出一种多向量表示模型,该模型在尽量不丢失新闻报道信息的情况下,对特征集合尽可能细的划分,在模型比较时采用支持向量机对多
针对中文命名实体构成的复杂性,提出了一种基于模糊支持向量机的层叠模型。基于最长次长匹配一体化分词标注结果,在底层利用支持向量机基于单字特征进行人名、简单地名和机构
当今社会处于一个信息爆炸的时代,面对日益增长的海量信息,构建知识系统进行知识管理尤为重要.概念分类是知识系统的核心,但分类的构建是一项庞大的工作,如果完全采用人工方