基于转换学习的词性标注研究

来源 :太原理工大学 | 被引量 : 6次 | 上传用户：yudsly2001

【摘要】

：

随着社会信息化的日益增强,互联网越来越成为人们日常生活中的一部分,人们越来越强烈地渴望用自然语言同计算机进行交流。但这有个前提就是计算机能够理解人类的自然语言,这

【作者】

：

王旗

【机构】

：

太原理工大学

【出处】

：

太原理工大学

【发表日期】

：

2011年01期

【关键词】

：

自然语言处理词性标注基于转换学习规则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着社会信息化的日益增强,互联网越来越成为人们日常生活中的一部分,人们越来越强烈地渴望用自然语言同计算机进行交流。但这有个前提就是计算机能够理解人类的自然语言,这是一个很富有挑战性的问题。这样的问题称作自然语言处理问题,而词性标注作为这一领域浅层处理中最基础最重要的技术对整个语言处理起着至关重要的作用。词性标注应用的领域十分广泛,包括语法分析、语音识别、文本分类、文本语音转换、信息检索、机器翻译等诸多领域。同时,随着机器学习算法的飞速发展,各种机器学习方法先后被应用到词性标注领域,有HMM算法、最大熵算法、决策树算法、基于规则的算法等。而TBL就是一种基于规则的算法。虽然TBL算法从1995年出现到现在,已经有不少学者对它进行了一定的改进,已经比较成熟,但由于此算法在工作时需要占用大量的资源和性能进行规则的提取和评估,从而造成了算法自身训练时间偏慢的特点。本文采用前人的研究思想,在原有算法的基础上通过跳过那些评估分数很低,并且不能对语料库的标注起到显著结果的规则,只为那些应用效果显著的规则进行打分。首先寻找应用最好的转换规则使语料库中的样例发生改变,从而可以找到这些样例在语料库中的上下文,通过这些样例对其上下文进行影响,最终达到标注的目的。在Penn Tranbank Wall Street Journal语料库上,经过与其它TBL算法进行测试和比较,发现本文的改进算法相比之前的一些方法有了很大的进步,在训练时间有所降低的情况下,标注准确度并未丢失。

其他文献

基于云平台的电子相框系统研究与实现

近年来,随着互联网+时代的来临,以及智能手机的普及,移动互联网越来越参与并辅助人们的生活。同时社会正面临严重的人口老龄化问题,日益增多的空巢老人数量,带来一系列的社会

学位

私有云平台Android移动终端

知识搜索引擎在高科技企业中的应用研究

随着经济发展，信息不对称、大量信息孤岛存在、客户数据无法统一等问题，增加了高科技企业信息管理工作的动态性和复杂性。本文从当前搜索引擎发展的背景和趋势出发，利用Microsof

学位

知识搜索引擎知识管理SharePoint平台Web Service企业信息化

基于机器学习的双语词汇抽取问题研究

传统的双语词汇词典,一般由人工整理、编辑,具有权威度高、词条质量高的特点,但是其编制需要花费大量的人力、物力和时间。与此同时,随着互联网的发展和社会的发展,各种各样

学位

双语词条抽取机器学习模式挖掘排序学习多因素融合

适于复杂逻辑关系子任务的Hadoop调度系统

由通用机器组成的大规模集群作为并行计算的有效途径之一，广泛应用于科学及工程中的计算模拟、海量数据处理等复杂问题中。并行编程模型是并行计算及开发并行软件的基础，是决定

学位

并行编程模型Hadoop调度系统软件开发模块化设计

类纸阅读器在线读物系统设计与实现研究

随着移动互联网的快速发展，随时随地进行网络在线阅读已经成为现实。特别是以起点中文为首的在线读物网站为阅读爱好者提供了数以百万计的网络原创文学读物，丰富了文学爱好者的

学位

信息抽取网络预取类纸阅读器在线读物系统移动互联网启发式规则动态预取算法

基于.NET平台下的电子商务系统的研究与实现

上世纪90年代以来，随着互联网的发展，电子商务在社会经济领域发展迅速，电子商务推动了商业、贸易、营销、金融、广告运输、教育等社会经济领域的创新，给企业带来许多新的机会。现

学位

电子商务ASP.NET平台三层结构Web服务B2C模式用户权限管理

个性化信息服务系统中用户建模技术研究

随着网络资源的爆炸式增长,“信息过载”,“信息迷向”等问题的出现,用户如何快速有效地获取信息,成为现今信息服务系统亟待解决的问题。传统的信息服务也逐渐向个性化信息服

学位

用户兴趣模型领域本体个性化信息服务相似度

支持数据更新的XML结构连接的编码方案研究

随着XML已成为互联网上数据存储和信息交换领域事实上的标准,人们已经开始习惯使用XML文档来存储、管理Internet上的海量信息资源,因而Web也正逐步转化为一个庞大的XML文档数

学位

XML编码方案数据更新

基于自适应神经网络的野外环境地形分类研究

移动机器人在野外执行军事侦察、抢险救灾、农林作业等任务时，准确、快速的地形分类是保证这些特定任务完成的关键。针对传统地形分类方法存在的一些问题与实际森林环境地形分

学位

移动机器人地形分类图像特征模糊自适应神经网络野外环境组合策略

基于变异粒子群的聚类算法研究

在数据挖掘中,很多工作都集中在发现能够高效地对大数据库进行聚类分析的方法上。在现有的大量聚类算法中,尤其以K-means算法应用比较广泛。K-means算法以点为原型,能够实现

学位

数据挖掘粒子群K-均值聚类算法变异聚类

基于转换学习的词性标注研究

与本文相关的学术论文