基于转换学习的词性标注研究

来源 :太原理工大学 | 被引量 : 6次 | 上传用户:yudsly2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化的日益增强,互联网越来越成为人们日常生活中的一部分,人们越来越强烈地渴望用自然语言同计算机进行交流。但这有个前提就是计算机能够理解人类的自然语言,这是一个很富有挑战性的问题。这样的问题称作自然语言处理问题,而词性标注作为这一领域浅层处理中最基础最重要的技术对整个语言处理起着至关重要的作用。词性标注应用的领域十分广泛,包括语法分析、语音识别、文本分类、文本语音转换、信息检索、机器翻译等诸多领域。同时,随着机器学习算法的飞速发展,各种机器学习方法先后被应用到词性标注领域,有HMM算法、最大熵算法、决策树算法、基于规则的算法等。而TBL就是一种基于规则的算法。虽然TBL算法从1995年出现到现在,已经有不少学者对它进行了一定的改进,已经比较成熟,但由于此算法在工作时需要占用大量的资源和性能进行规则的提取和评估,从而造成了算法自身训练时间偏慢的特点。本文采用前人的研究思想,在原有算法的基础上通过跳过那些评估分数很低,并且不能对语料库的标注起到显著结果的规则,只为那些应用效果显著的规则进行打分。首先寻找应用最好的转换规则使语料库中的样例发生改变,从而可以找到这些样例在语料库中的上下文,通过这些样例对其上下文进行影响,最终达到标注的目的。在Penn Tranbank Wall Street Journal语料库上,经过与其它TBL算法进行测试和比较,发现本文的改进算法相比之前的一些方法有了很大的进步,在训练时间有所降低的情况下,标注准确度并未丢失。
其他文献
近年来,随着互联网+时代的来临,以及智能手机的普及,移动互联网越来越参与并辅助人们的生活。同时社会正面临严重的人口老龄化问题,日益增多的空巢老人数量,带来一系列的社会
随着经济发展,信息不对称、大量信息孤岛存在、客户数据无法统一等问题,增加了高科技企业信息管理工作的动态性和复杂性。本文从当前搜索引擎发展的背景和趋势出发,利用Microsof
传统的双语词汇词典,一般由人工整理、编辑,具有权威度高、词条质量高的特点,但是其编制需要花费大量的人力、物力和时间。与此同时,随着互联网的发展和社会的发展,各种各样
由通用机器组成的大规模集群作为并行计算的有效途径之一,广泛应用于科学及工程中的计算模拟、海量数据处理等复杂问题中。并行编程模型是并行计算及开发并行软件的基础,是决定
随着移动互联网的快速发展,随时随地进行网络在线阅读已经成为现实。特别是以起点中文为首的在线读物网站为阅读爱好者提供了数以百万计的网络原创文学读物,丰富了文学爱好者的
上世纪90年代以来,随着互联网的发展,电子商务在社会经济领域发展迅速,电子商务推动了商业、贸易、营销、金融、广告运输、教育等社会经济领域的创新,给企业带来许多新的机会。现
随着网络资源的爆炸式增长,“信息过载”,“信息迷向”等问题的出现,用户如何快速有效地获取信息,成为现今信息服务系统亟待解决的问题。传统的信息服务也逐渐向个性化信息服
随着XML已成为互联网上数据存储和信息交换领域事实上的标准,人们已经开始习惯使用XML文档来存储、管理Internet上的海量信息资源,因而Web也正逐步转化为一个庞大的XML文档数
移动机器人在野外执行军事侦察、抢险救灾、农林作业等任务时,准确、快速的地形分类是保证这些特定任务完成的关键。针对传统地形分类方法存在的一些问题与实际森林环境地形分
在数据挖掘中,很多工作都集中在发现能够高效地对大数据库进行聚类分析的方法上。在现有的大量聚类算法中,尤其以K-means算法应用比较广泛。K-means算法以点为原型,能够实现