词的内部结构分析

来源 :苏州大学 | 被引量 : 0次 | 上传用户:wnan100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词法分析是自然语言处理中最基础、最关键的步骤。在中文信息处理领域,词法分析的一般做法是通过分词给词和短语划定边界,从而使汉语的后续处理过程跟英语等西方语言基本一致。然而,汉语中词与短语之间的界限比较模糊,许多情况下,某些语言单位就连语言学家也很难确定是语素、词还是短语。这导致实践中人工标注的分词语料存在严重的不一致性,而这种不一致性无疑会制约汉语的后续处理工作。分词语料的不一致性不仅体现在不同语料库间分词标准不同,而且同一语料库中的分词标准也存在不一致。此外,不同的自然语言处理应用对词的粒度大小也有不同的需求,单一的分词标准难以满足各种要求。因此,针对目前中文分词的不足和实际应用的需要,本文给出了一种与传统分词不同的词法分析选择,即分析词的内部结构。相比于传统的分词,分析词的内部结构能够同时获得词的边界和内部结构信息,它更加符合汉语词法与句法边界模糊的事实,解决了语料库标准不一致问题并满足了不同应用的需求。本文针对词的内部结构分析方法的研究,开展了以下几个方面的研究工作:首先,本文阐述了词内部结构分析详细的任务定义,并严格按照任务定义标注了PKU1998年1月的《人民日报》语料,将该语料的80%作为训练语料,剩余的20%作为测试语料进行研究。此外,由于还没有在PKU语料上进行词内部结构分析的相关研究,所以没有现成的评测工具可以使用。本文借鉴了句法分析的评测方法,设计了一套适合评测词的内部结构分析结果的方法。其次,提出了一种基于层叠CRF模型的词结构分析方法。该方法包括底层模型和高层模型两部分。底层模型是在识别词的内部结构之前,对汉字序列进行细粒度分词。高层模型是对经细粒度分词后的词序列使用CRF模型来识别词的内部结构。实验结果表明,该方法对词结构的识别取得了较高的准确率,总体性能达到了实用水平。最后,提出了一种利用扩展标记集来实现词结构分析的方法。核心思想是将词结构中的前缀和后缀作为特殊词位来识别,通过识别前后缀来识别词的内部结构。与基于层叠CRF模型的词结构分析方法相比,该方法克服了细粒度分词所带来的错误传递。实验证明,相比于基于层叠CRF模型的词结构分析结果,该方法进行词结构分析的整体性能有所提高。
其他文献
标点符号研究是篇章分析中最基本的一个研究任务。有效识别标点符号在句子中的作用,是篇章分析研究的一个关键。因此,标点符号识别是一项很有意义的研究工作。本文针对标点符号
图像修复指在计算机上通过一定的算法填补图像上缺损信息的过程,并要求填补结果达到人眼接受的程度。目前图像修复技术主要分为基于偏微分方程的结构部分修补和基于纹理合成的
在虚拟化桌面技术应用日益增加、功能愈发强大的情况下,其安全问题已然成为阻碍虚拟化桌面发展的一大瓶颈,无法满足客户对安全性的需求。如何确保虚拟化桌面的安全性、让用户可
近几年,基于位置的服务得到了广泛的关注,在诸如行车导航、位置查询、生活服务等领域有着广泛的应用。随着定位技术的不断发展,人们对于室内定位的需求同样与日俱增,并凸显出
近年来,随着互联网信息的迅速膨胀,数据的商业价值不断地被挖掘出来,以提供增值服务,例如评论分析、元搜索、比较购物、大数据应用等,这些都是建立在Deep Web数据获取与数据集成基
学位
传统的基于Web的应用系统中,开发者可能会将业务逻辑、数据逻辑和展示逻辑混在一起。这不利于代码调试和页面的设计,更不利于系统的可扩展性。MVC设计模式的出现解决了这些问题
医生对病人的诊断过程是利用临床医学知识加上多年的经验积累,并通过询问病情、化验、B-超、核磁共振等医疗手段获取相应数据后,判断推理该病人所患疾病、选取治疗方案。论文采
节点能量有限已成为制约无线传感器网络性能的主要瓶颈,在保障信息传输质量的前提下,如何充分利用有限的网络资源、减少网络节点能耗、延长网络生命周期等已成为无线传感器网
近年来,以智能手机等移动设备为载体的移动应用得到了广泛使用,并逐步影响人们的生活方式。人的移动性带来的位置行迹不仅记录了人的行为历史,也记录了人与社会的交互活动信