面向序列标注问题的异构数据融合

来源 :苏州大学 | 被引量 : 0次 | 上传用户:bbaaccd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有指导的统计机器学习方法大多使用单个人工标注数据训练模型参数。然而单个人工标注数据的规模和领域覆盖面通常很受限,且人工标注新的数据费时费力。本文以中文词性标注任务为例,研究利用多个遵守不同标注规范的人工标注语料(即多源异构数据),提高模型的分析准确率。本文的主要研究内容如下:(1)多资源转化方法多资源转化方法旨在将源端资源的标注进行转化,以符合目标端标注规范,进而将转化后的资源和目标资源合并,增大训练数据规模。我们做了两方面创新尝试:1)在转化过程中额外利用指导特征的置信度信息,2)在转化后资源中用模糊标注表示方法减少错误标注。实验表明第一个策略能够帮助小幅度的提高词性标记的准确率,而第二个的影响不大。(2)耦合序列标注方法我们提出了耦合序列标注模型,直接学习和推断两种异构标记,更有效的利用异构标注的多源数据。其基本思想是将两个词性标记耦合在一起(例如:“[NN,n]”),利用词性映射函数形成耦合词性空间(Bundled tag space)。我们设计并尝试了多组词性映射函数,以模糊标注的方式,在非重叠且只有一端词性标记的两数据集上训练耦合条件随机场模型。实验表明耦合模型能显著提高词性标注和词性标记转化的准确率。(3)基于在线剪枝的快速耦合序列标注方法基于映射函数的耦合模型,能有效利用异构的多源数据,但同时也存在因耦合标记空间太大造成的低效问题。我们提出了一个上下文相关的在线剪枝策略,根据上下文信息更准确率的构建标记之间的映射关系。实验结果表明,这种方法能够解决耦合模型在完全映射下的效率低下问题,在不影响准确率的情况下,达到非耦合模型的效率。总之,本文研究了利用多个遵守不同标注规范的人工标注语料,来提高中文词性标注的准确率。本研究取得了一些初步的成果。我们期待这些研究成果可以进一步推动自然语言处理领域和其他上层应用如机器翻译、信息抽取的发展。
其他文献
车速,是一个比较敏感的问题,在普通百姓的眼中也是个较难搞清的问题。人们常常觉得,明明这条路行驶条件很好,视野较宽广,但限制车速却较低。如复兴路隧道建成开通后限速40公里/小时
<正>目的评价中药灵芝补肺汤治疗支气管哮喘的疗效及安全性。方法选择符合标准的哮喘患者552例,随机分为观察组277例和对照组275例,观察组采用常规治疗+灵芝补肺汤每日1剂,对
会议
3病案分析 3.1临床特点①青年女性,既往有精神失常史;②本次发病有精神刺激史;③起病较急、进展较快、病程短;④临床表现:情感淡漠,反应迟钝,问话不答,针刺手臂及脸部无反应,查体不合作
本文对我院2000年以来50例粉碎性髌骨骨折术后病人实施膝关节规范化康复治疗,缩短了疗程,现总结报告如下.
对钠硼铝硅酸盐玻璃熔体进行拉丝,再经过退火热处理,制备得到光纤直径80~130μm的PbSe量子点玻璃裸光纤.透射电镜分析发现光纤中PbSe量子点的晶粒尺寸为4.2~5.5nm,掺杂体积比
含氯消毒剂属高效消毒剂。我院使用含氯消毒剂为康威达消毒片。因目前对该消毒液更换时间有争议,即陈维英主编的《基础护理学》(第3版)教科书第71页规定,含氯消毒剂每3天更换一次
快速公交系统作为提高公共交通服务水平的一种新型公交方式,在世界许多国家得到应用,并累积了一定的经验。以广州市中山大道BRT试验线为例,对BRT在规划、设计、建设及运营管
在知识经济时代的今天,数码技术在各行各业都得到了极为广泛的应用,在建筑设计领域同样也获得了普及,数码技术让建筑设计师们形成了全新的设计理念与审美观念,数码技术在建筑
内蒙古锡林郭勒盟煤炭资源丰富,分布较广,含煤面积约占全盟面积的4.5%,目前煤炭探明和预测储量达1882.8亿t,可采总储量722亿t。