三位一体字标注的汉语词法分析

来源 :中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标 | 被引量 : 0次 | 上传用户:dlinc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,提出一种三位一体字标注的汉语词法分析方法,该方法将汉语词法分析过程看作字序列的标注过程,将每个字的词位、词性、命名实体三类信息融合到该字的标记中,采用最大熵模型经过一次标注实现汉语词法分析的三项任务.并在Bakeoff2007的PKU语料上进行了封闭测试,通过对该方法和传统分步处理的分词、词性标注、命名实体识别的性能进行大量对比实验,结果表明,三位一体字标注方法的分词、词性标注、命名实体识别的性能都有不同程度的提升,汉语分词的F值达到了96.4%,词性标注的标注精度达到了95.3%,命名实体识别的F值达到了90.3%,这说明三位一体字标注的汉语词法分析性能更优.
其他文献
  本文提出了一种利用百度百科自然标注数据来远距监督网页标题中命名实体挖掘的新方法。首先,通过关联规则挖掘,从百科词条标签数据集中挖掘出层次化的类别结构;然后,以特定类
目的:内皮型一氧化氮合酶(eNOS)抑制剂非对称二甲基精氨酸(ADMA)是心血管疾病发生的重要危险因素,在冠心病病人血浆中浓度显著升高。我们假设一种新的eNOS增强剂AVE3085可以改
本论文采用预聚体法合成了光固化水性聚氨酯(WPUA)乳液,并以此为基础,通过引入化学接枝法改性的纳米Si O2合成了改性纳米Si O2/WPUA复合乳液,对复合乳液及其固化膜的结构与应用性能进行了研究,为纳米材料改性光固化树脂的制备和应用提供理论依据。本研究以异佛尔酮二异氰酸酯(IPDI),聚己二酸己二醇酯二醇(PHA),二羟甲基丙酸(DMPA),季戊四醇三丙烯酸酯(PETA)等为原料,通过预聚体
  针对汉语篇章分析的三个任务:篇章单元切割、篇章结构生成和篇章关系识别,本文提出引入框架语义进行分析研究。首先基于框架构建了汉语篇章连贯性描述体系以及相应语料库,然
  针对由微博短文本特征规模大、自身特征较少等特点导致的数据稀疏性,提出一种基于特征簇的微博情感分类方法。提出的分类方法以大规模语料库为基础,利用word2vec模型学习词
屈指算来,我学习硬笔书法,已经二十年了。这二十年,也是我与《中国钢笔书法》结缘的二十年。《中国钢笔书法》,是我的梦,我的家。因为《中国钢笔书法》,我拜识了恩师王正良先
  公众情感在包括电影评论、消费者信心、政治选举、股票走势预测等众多领域发挥着越来越大的影响力。面向公共媒体内容开展情感分析是分析公众情感的一项基础工作。经典的
会议
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
  该文采用基于连接依存树表示体系的汉语篇章结构语料构建汉语篇章结构分析平台。该语料标注内容包含子句、连接词、篇章关系、篇章单位主次和篇章结构树等。在此语料上,采
  现有的简繁转换技术在处理简繁一对多时效果不是很理想.为了解决这一问题,作者提出了基于转换表和上下文的汉语简繁文本双向翻译方法.作者之前的研究工作成果在教育部语
会议