基于分词性能的汉语语料库比较研究

来源 :中国中文信息学会二十五周年学术会议 | 被引量 : 0次 | 上传用户:visualhoxygen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语料库是计算语言学的基础资源,目前国内外许多单位都在积极地进行语言资源的加工建设,在汉语语料库建设方面也取得了一些重要研究成果.例如,1998年人民日报标注语料库、国家语委5000万标注语料库、宾州大学中文树库等.但各语料库的组织结构不同,加之各家加工过程中所遵循原则的差异,对同一语言现象的处理方式也存在分歧.因此,如何对各种语料库的特点进行比较研究,如何根据工作的实际需要选择适合的语言资源将是一个很现实的问题.本文提出了一种基于分词性能的汉语语料库比较研究的方法,用1998年人民日报语料,国家语委5000万字标注语料和宾州大学中文树库分别训练基于汉字的隐马尔可夫分词模型,继而通过各自的训练系统进行自测和交叉测试,从本文的实验结果来看,人民口报语料以其过硬的质量和庞大的规模对新闻领域的语料有出色的表现,国家语委语料则表现出较强的稳定性和对不同领域语料的适应力.
其他文献
肺真菌感染常发生于器官移植受者、恶性肿瘤患者、恶性血液病患者等免疫功能低下者,其主要由隐球菌、念珠菌、曲霉菌等真菌侵入肺部导致.但随着城市化发展与人群流动的日益频
主谓谓语句是汉语的一种特殊句式.学术界对主谓谓语句的存废、范围、性质、分类、语义分析等问题一直存在争议.本文在标注语科库的基础上,建立了"中小学语文课本主谓谓语句例
会议
etelcalcetide为一新型钙离子敏感受体激动剂,能够降低甲状旁腺激素水平.由安进制药公司开发,于2016年11月获欧盟批准用于慢性肾病透析患者继发性甲状旁腺功能亢进症的治疗.
投连险销售正当时,关键是如何正确的销售  光有好时机还不够,还要考虑产品设计、销售人员选择与培训及目标客户群的筛选  在资本市场大熊当道的时候,任何推出投连险的保险公司都没有逃脱资本市场下滑的厄运,中国人寿就在推出投连险半年之后以停售收场。投连险全称是“投资连结保险”,这是一种与资本市场紧密相连的保险产品,即在保险里设立有独立的投资账号,由投保人操控,受资本市场的变动影响较大。  目前,就停售投连
消费信贷既可以调节消费品供求总量,又可以调节供求结构,促进产业结构的升级和优化,扩大劳动力就业。长期以来,拉动经济增长的“三驾马车”中,出口和投资占有比重过高,消费比
目的 系统评价抗白细胞介素13(IL-13)单抗治疗中至重度未控制哮喘的疗效与安全性.方法 计算机检索PubMed、Embase、Cochrane Library、Web of Science、中国知网、万方和维普
句法分析一直是自然语言处理领域的一个重点和难点问题,准确的动词与动词搭配关系识别可为建立完全的句法分析奠定一定的基础.本文提出了一种基于最大熵模型的汉语动词与动词
会议
基于语料库的统计翻译中语料库的粒度可分为词、句和语块几种,目前词对齐和句子对齐的双语语料库已经颇具规模,相关的对齐算法也比较成熟.比较之下,语块级对齐算法还有待研究
本文介绍了在构建动态邮件语料库时所必须解决的问题-邮件语料的添加.由于待添加的邮件预先都己标好类别,根据其类别是否属于原有的类别体系,分两种情况进行处理:1)属于原有
1974年3月,美国揭露了一桩科学上弄虛作假事件。当事人萨默林(W.Summerlin)曾宣称,黑鼠的皮肤移植片经体外培养后,可移植到白鼠身上而不发生免疫排斥反应,长期存活下来。他