中文关键词挖掘方法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:dtmark
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,Internet已经成为一个庞大的信息源,据统计,在这些信息源中80%以上的信息是以语言文字为载体的,如何通过对这些海量的Web文本进行分析挖掘,从中获得有价值的信息是中文信息处理领域面临的一个重要问题,自动挖掘出能准确代表文本意义的关键词,是一种解决信息危机的有效方案。   本文在研究了国内外关于关键词挖掘技术的基础上,提出了一种基于词汇网络模型的关键词挖掘方法,主要研究的内容包括以下几个方面:   汉语词语相似度方面,总结了目前广泛应用的汉语词汇之间的相似度计算技术和方法,基于此而后引入义项词袋的概念来计算具体语境下词语之间相似度值。   文本表示方面,在关键词挖掘中的文本图模型基础上,本文提出了一种以汉语词汇语义相似度为依据来构建文本的词汇网络图模型的方法,将一篇文本映射为一个词汇网络,解决了VSM模型在表示文本时的高维度问题,同时词汇网络可以从语义层次表示文本。对词汇网络的研究发现语义相似度阈值对词汇网络的特征有重大影响,实验也验证了基于语义关系的词汇网络具有小世界特征。   关键词挖掘方面,借助复杂网络理论和以及相关统计因子来研究表示成的词汇网络,提出了一个综合衡量词语节点重要性的测度,利用这个重要性测度来对每一个词语打分从而挖掘出文本关键词。该方法挖掘的关键词能从语义层次反映文本主题,同时与领域无关,对不具有复杂网络特性的文本仍可以有效的挖掘出关键词,在挖掘文本关键词基础上,利用《知网》进一步从语义层次形成文本主题。   为了验证算法的有效性,开发了基于词汇网络的关键词挖掘系统,同时从语料库中选取各类文本进行了实验测试,实验结果表明基于词汇网络的方法明显优于词频-倒文档频率(TF-IDF)和单纯的复杂网络特征方法。
其他文献
生物多样性是人类赖以生存和发展的物质基础。然而人类活动与全球气候变化使生物多样性面临着严重的威胁。因此,生物多样性的发现、评估及监测刻不容缓。由于拥有极高的生物多
金吉丽海棠系北美引进的蔷薇科苹果属植物,母、父本不详。其特征是四红:花红色、幼叶红色、果实红色、树皮红色。另外,该品种花期长,花量大,挂果期长,所以金吉丽海棠是集观花
FADD(Fas-associated death domain),最早是作为细胞进行程序性死亡(凋亡)过程中的接头蛋白被人们熟识。细胞凋亡在众多的生理、病理条件下发挥不可替代的作用。当FADD的上游
中学教育由应试教育向素质教育转化已是必然,培养学生养成独立思考的习惯越早越好,因此,初中化学教学应特别要注意素质教育方面的教材内容。在教学中,教师应根据学生的情况,合理利
本文主要研究认知无线电的关键技术频谱检测,讨论了如何利用信号和噪声极化信息的差异性进行检测的问题,并提出不同条件下的几种极化检测算法,分析了未知信号到达角信息对极
光纤放大器可以在光域内直接对多路信号同时进行放大,避免了传统的光电光转换过程所带来的一系列问题,给大容量光纤通信的发展奠定了基础。当前宽带网络流量持续高速地增长,骨干
当前,网络正步入一个快速发展的时期,网络技术和基础设施的不断完善,网络基础设施不断完善,各种应用层出不穷,人们更加注重信息获取的可靠性和高效性。单向信道下没有反馈信息,数据
随着卫星导航系统的应用逐渐地推广和发展,人们对于位置服务的需求越来越高,导航卫星所提供的位置服务,不仅便利地服务了人们各种日常活动如出行、航海、驾车等,更为实现高科技武
基于现场可编程门阵列(Field Programmable Gate Arrays,FPGAs)的可靠性加固电路广泛应用于工业和军工领域,尤其在需要考虑单粒子翻转效应的航天领域中。为了开发高性能高可
近年来,CMOS技术由于其低成本,低功率,高度可集成性等优点已经在射频集成电路设计中获得广泛使用,而且随着栅极长度的持续降低以及工作频率的增加,MOSFET已然成为射频集成电路应用