基于单语字对齐的无监督分词及其在领域适应中的应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:one_tester
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不同于英语,中文的词与词之间没有显著的边界标记。句法分析、机器翻译等自然语言处理任务大多以词作为基础单元。分词问题吸引了很多学者们的研究目光。以字标注为代表的有监督分词方法取得了较好的分词效果。然而有监督分词过于依赖人工标注的语料,存在领域适应性问题。在大规模的无标注语料上由无监督分词方法学习到的信息可以用于改善有监督分词的效果。但是传统的无监督分词方法倾向于将词看作是连续的字符串,对于词内部结构刻画尚有不足。对词的内部结构建模可以帮助分词。  本文使用字对齐描述词的内部结构,即词内部字和字之间关联关系。通过利用单语字语料中的字对共现、字的位置等全局信息,学习到句子级的字对齐结构。句子级的字对齐结构可以用于更好地推导出词和词的内部结构。因此,本文研究利用单语字对齐改进无监督分词并探索单语字对齐在有监督分词领域适应中的应用。研究内容主要分为三个部分:基于单语字对齐的两阶段无监督分词模型,单语字对齐和分词的联合模型,以及单语字对齐在领域适应中的应用。具体的说,本文研究的内容主要如下:  1.基于单语字对齐的两阶段无监督分词模型  本章提出了一个两阶段的无监督分词模型。先利用双语词对齐工具GIZA++获得单语字对齐结果,根据对齐一致性约束等启发式方法构建词图,然后利用非参贝叶斯语言模型求解最优的切分。本章的贡献包括两个方面。首先,本章提出了三种基于单语字对齐的候选词语抽取算法,并将它们结合使用以生成更为紧凑的词图。其次,本章提出了联合字关联模型和n元字语言模型的拼写模型,考虑了非连续的字之间的关系。实验表明本章提出的拼写模型和基于字对齐的词图生成方法能有效提高无监督分词的效果。  2.无监督联合单语字对齐和分词  研究内容一中字对齐结果仍然由词语对齐工具GIZA++生成,字对齐和分词是两个独立的过程。为了更好地建立单语字对齐和分词之间的关联,本章提出了一种联合模型,同时生成单语字对齐和分词。联合模型是包含了五个子模型的专家模型,它们分别是由双语词语对齐改变而来的字关联模型、位置模型、繁衍模型和转移模型,以及跟分词有关的层次化Pitman-Yor语言模型。一个吉布斯采样器对单语字语料做阻塞采样,生成字对齐和词语切分的样本。相比于单独的字对齐,它用词语切分模型约束对齐的结果;相比于简单的层次化Pitman-Yor语言模型,它引入了更丰富的字级别的特征。实验表明本文所提出的模型在英语音标数据集和中文数据集中均取得了很好的效果。  3.单语字对齐在领域适应中的应用  简单的字标注模型往往不具有良好的领域适应性。识别未登录词是提升领域适应能力的关键。本章认为词虽然有可能是未登录的,但是词的字对齐模式可能在训练语料中出现过。本章利用单语字对齐建立未标注的目标领域语料和带标注的训练领域语料的联系,然后提取与字对齐有关的特征。这些特征涵盖了字对齐结构、对齐互信息、字对齐推导出的词等信息。在新闻和小说语料上的实验表明本章所提出的方法有效提高了字标注分词模型在领域适应中的效果。
其他文献
集群计算技术一直是计算机界研究的一个热点问题.集群系统不但能够充分利用现有的计算资源,而且能够通过较低的软硬件代价实现较高性能的计算机系统.随着微处理器技术和高性
近年来,由于在节点微型化技术、物联网操作系统、低功耗传输组网协议以及应用层技术等方面取得重大进展,物联网作为一种新的网络应用模式,在影响国计民生的各个领域都有了长足的
该文是基于某银行的《公司业务客户经理管理系统》,以下简称该系统.该系统的目标,是整合来自银行会计系统、国际业务系统、信贷管理系统、台帐管理系统等现有系统的资料,为客
该文扩展了UDDI的基本数据模型,加入了人员、验证信息、反馈信息、分类模式等元素,围绕分类信息、接口描述与绑定协议信息和服务质量信息提出了基于UDDI的Web Service发布和
该文介绍了嵌入式LinuX的优势和发展趋势,PDA主流操作系统的比较;iPAQ的日志闪存文件系统,RAM文件系统的特点;IEEE 802.11b、RTP(Real-time TransportProtocol)以及交叉编译
该文首先基于IETF的“Mobility Support in IPv6”草案第16稿对移动IPv6协议进行了仔细地分析,着重对移动IPv6协议中的三大功能实体移动主机、家乡代理、通信节点进行了具体
Internet的出现与快速发展,要求软件企业能够开发电子商务系统.商业建模与实现工具一个电子商务开发平台的一部分,商业建模与实现工具主要的任务是完成处于J2EE的业务逻辑层
定量蛋白质组学主要研究复杂生物体内的蛋白质表达量的变化情况。正常表达的蛋白质可以保证生物的新陈代谢、维系生命,表达量不正常的蛋白质会导致如癌症等严重的疾病。定量蛋
该文研究和探讨了使用XML作为数据交换格式对Web上的数据和Web日志进行数据挖掘,从而发现关联规则.该文完成的主要工作如下:(1)完成了对基于XML的Web数据挖掘的技术研究并设
为了解决当前Internet上信息检索困难、当前模式的Web对于计算的支持很有限的情况,该文提出一种将Jini技术和移动代理等技术有效结合起来,构建统一管理信息、支持把大量设备