基于统计与语法分析的关键词提取

被引量 : 7次 | 上传用户:wuzhaoan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的不断发展,每天都会有海量的信息呈现出来。信息爆炸式的增长是当前计算机自然语言处理领域面临的既困难、又重要的问题。如何有效地掌控海量数据,并且准确识别、区分是否是人们所需要的信息,已经成为当今亟待解决的问题。所以提出关键词提取这一课题。文本关键词自动提取的处理技术可以广泛的应用于许多领域,如文本分类,信息反馈系统、网络信息过滤系统、信息检索、数字图书馆,自动文摘。本文采用基于TF统计和语法分析的关键词提取算法。这其中包含了中文分词、语法分析、句法分析、关键词提取等相关技术,主要研究内容如下:一、详细阐述了汉语关键词自动提取的相关理论、解决方案以及实验分析。并且提出在统计的基础上结合语法分析的关键词提取算法。二、详细介绍了中文分词技术,而且对分词歧义进行了总结。然后介绍一些当前比较成熟的分词算法,并且进行对比,通过实验数据选取结果明显优于其它算法的中科院分词系统作为本题目实验前期工作的工具。然后根据实际应用提出一种统计方法,对中科院的初步分词后的结果进一步划分。三、详细描述了目前比较流行的语法分析方法:基于规则和基于统计两种方法。进行规则和统计两种方法的对比,通过其他学者的研究、分析,最后采用两者结合的办法来建立树库。四、在句法分析算法方面,简单介绍了目前比较流行的方法,并且详细的描述当前公认的比较好的Chart算法。五、在语法分析、句法分析是通过宾夕法尼亚大学的Penn语料库,提取句子的组成结构信息。并且根据汉语语法实际应用情况,对句子成分划分等级分别赋予不同级别的值。六、最后是通过统计和语法分析相结合的办法,提出六种特征值作为权重的参数并对六种特征值进行详细讲解、分析。
其他文献
笔者结合所在学院的实际情况,分析仓储与配送课程实训过程中存在的问题并提出一些解决途径。
大吨位快速液压机油缸尺寸大、工作压力高,在压制行程完毕油缸回程之前,由于油液的压缩,在工作缸及系统的部分管道中积聚了相当大的液压能。这部分能量以及压机变形所储存的
婚姻作为民族文化的有机构成部分,一直是民族学所热衷的课题之一。然而,由于民族及其文化复杂多样的客观存在,不同民族的婚恋习俗也是相互迥异的。较之于汉族传统婚恋习俗而言,侗
世界各地不同的民族,不同社群,不同国家以其各自独特的非物质文化遗产,共同构成了人类丰富绚丽的人文环境自然,其中蕴含着生态环境权等丰富的权利内容。随着现代工业文明时代的到
采用分段冷却(淬火+空冷)方式对Q245R/06Cr19Ni10复合钢板进行热处理。利用扫描电镜、EDS和显微硬度等方法分别对热处理前、后复合钢板试样的微观结构和性能进行了研究。结果
列宁一生最突出的贡献,在理论上继承、捍卫和发展了马克思主义,形成了俄国的马克思主义——列宁主义;在实践上把社会主义由空想变成现实,成功地在俄国建立了世界上第一个社会
自1994年我国出现民营媒介企业以来,在其发展的过程中机遇与挑战并存,既体现了媒体管制政策的不断变化,又体现出传媒产业化、市场化的必然要求。民营媒介的发展史可以在某种
马克思主义是人类近现代史上最伟大的思想成果,它源于对资本主义社会的阶级压迫和资本统治的现实的强烈批判,指向消灭私有制的共产主义社会的实现。它的基本性质是什么?发源
现代机器制造业中机器的功率需求不断增大,而同时机器的尺寸和重量却要求减小,故此,对其中最重要的传动零件“齿轮”的强度和精度指标提出了越来越高的要求。相应地,近年来我国齿
在亚洲开发银行的倡议下,大湄公河沿岸六国于1992年共同发起了大湄公河次区域经济合作(GMS)机制,二十年来,大湄公河次区域合作在交通、能源、电信、环境、农业、人力资源开发