汉语词法分析中上文和下文孰重孰轻

来源 :第十一届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:jessiexsu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语词法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质都是把词法分析过程看作序列数据标注问题.上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础.汉语词法分析时需要从上下文获取相关的语言知识,但上文和下文是否同样重要。为克服仅凭主观经验给出猜测结果的不足,对汉语词法分析的分词、词性标注、命名实体识别这三项子任务进行了深入研究,对比了上文和下文对各个任务性能的影响,在国际汉语语言处理评测Bakeoff多种语料上进行了封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验,结果表明,上文和下文对汉语分词和中文命名实体识别性能的影响差别较大,对汉语词性标注的性能影响差别较小.
其他文献
在全球化程度日渐加深的今天,研究生英语应用能力的培养和提高越来越重要,但是单靠既有的研究生英语教学培养体系难以达到预期的目标。本文针对研究生的英语实际应用能力培养进行了实践,主要通过组织英语角及类似活动进行英语教学。研究发现,如果创造一个定期使用英语的环境,采用以学生为主体的自由轻松的活动模式,学生的听、说、读、写等各项英语应用能力都有可能在较短时间内得到相应提高。本文还从研究生指导教师及专业课教
为提高土木工程专业创新实践课程的教学水平和效果,培养本科学生的基本技能、工程实践能力和工程意识,本文结合北京工业大学土木工程专业"材料与结构的数值模拟实验"创新实践课程的教学实践,对该课程的教学内容、方法和效果进行了分析,提出了创新实践课程的教学模式,并进行了初步探索。
本文结合昆明市实际工程应用中遇到的问题,介绍了居住小区给排水中的节能措施、合理的用水规模、供水系统、供水方式及供水设备的选型。文章指出,用水规模应根据各地的生活水平及小区的住宅性质选择;供水系统设计时需合理利用市政管网压力;小区推荐采用大泵、中泵多台并联并配晚间小泵加气压罐组合供水,推荐采用变压变流量的供水泵组。
科技竞赛是培养大学生创新能力的重要途径和手段,本文通过对交通工程专业参与科技竞赛的学生进行性别、年级、成绩和角色的统计分析,总结了参赛学生的基本特点,探讨了不同类型的学生对于科技竞赛的需求,分析了参赛学生与全体学生的毕业去向,提出科技竞赛对于提高学生的学习兴趣、培养学生的健全人格、提高学生的综合素质,具有积极的影响。
室内空气的相对温度、含湿量是衡量建筑环境的重要指标,是湿空气的主要状态参数,也是建筑环境与设备工程专业本科生应熟练掌握的基本参数.但目前绝大多数学生仅能通过露点温度计、湿球温度计或电子湿度计等测量装置,测量室内空气的相对湿度,而对于其测试原理不够清晰,从而忽视了室内空气的相对湿度、含湿量、湿球温度以及露点温度等参数之间的耦合关系。本文针对此问题,结合冷镜式光电露点测量原理,制作便于学生操作且维护简
城市规划对于一个城市的整体布局以及长期发展具有十分重要的作用,随着现代人们"环保、生态"理念的不断深入,人们对于城市的要求就是朝着环境友好型方向发展,也就是说他们希望能够在实际的城市规划过程中将"生态"、"环保"元素融入其中。本文主要攫取了城市规划之中的环境规划为研究对象,首先对目前我国城市发展过程中所面临的环境问题进行介绍,然后在城市环境日益恶化、生态日益破坏的情况下提出了在当前时期要加强城市环
语义分析是现代语言学和计算语言学领域最具挑战性的研究之一,也是当前制约语言信息技术大规模应用的主要瓶颈。语义分析的首要任务是确定要获取什么样的语义信息。本文引入特征结构的概念,旨在分析汉语复合名词短内部结构及其语义关系,探讨有效的汉语语义分析策略。复合名词短语的特征结构标注是基于特征结构表示的汉语大规模语义资源建设的一个子任务.本文探讨了在标注的过程中建立的最小关联原则、直接关联原则、语言关联原则
词素切分即视词根与附加成分为基本词素,自动识别词根的词性及意义、附加成分类型信息.基于词素的切分能有效处理歧义和未登录词,有效缓解数据稀疏问题,促进语言信息处理深层次发展.目前蒙古文信息处理还尚未进入词素切分层面.论文探讨了实现词素切分的理论和实践基础、面临的难题,认为:实现蒙古语的词素切分需要充分利用定性与定量,规则加统计的方法,先借助语言学的定性研究成果,建立信息处理用词根及附加成分词典,制订
语义相似度计算是自然语言处理领域的关键问题之一,在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用.本文将集成方法应用子基于大规模语料库的汉语语义相似度计算上,提出并实现了不同语域的集成方案.分别使用新闻语料和互联网语料,选取窗口大小为2或3的上下文词语特征、以上下文与目标词之间的互信息作为权值构建特征向量,计算向量之间的cosine夹角作为词语相似度,
为了更好地解决统计机器翻译中的调序问题,本文提出了基于句法信息、词性标注信息和规则相结合的源语言重排序模型作为统计机器翻译的预处理模块.该模型分为两种,一种是基于依存信息、词性标注信息和规则相结合的模型,另一种是基于短语结构信息、词性标注信息和规则相结合的模型.以汉蒙统计机器翻译做实验,结果显示经过该模型进行预处理后的统计机器翻译的BLEU评分比经典的短语翻译有较为明显地提高.实验结果表明这两种源