现代汉语非受限文本的实语块分析

来源 :北京大学 | 被引量 : 0次 | 上传用户:mujun1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对非受限的自然语言文本进行自动句法分析目前仍是自然语言处理所面临的一个巨大挑战,即使对于英语这样得到充分研究的语言至今年内也还没有一个可以处理非受限文本的高性能的句法分析器.解决句法分析难题的途径之一是采取"分而治之"的策略,即将复杂的句法分析任务分解为若干相互独立的子任务.该文提出的实语块分析就是根据这种思想而提出的一种浅层句法分析任务,其目标是从文本中连续的实词串中分析出可能的结构.由于可以在很大程度上避开跟许多虚词相关的远距离依赖问题,因而实语块分析可以得到很高的性能和效率.实语块分析的结果可以使句子的结构得到简化,从而降低完全句法分析的歧义和复杂度.该文的研究表明,实语块分析是一个可以明确定度、相对独立的句法分析子任务,与基本名词短语分析等浅层分析任务相比,它可以得到更多的句子结构信息.该文描述了一个完整的汉语实语块分析系统,该系统接受非受限的自然语言文本作为输入,输出包括分词、词性标注、命名实体识别和实语块分析的结果.
其他文献
Internet电话系统中的业务创建和配置比传统电话系统要复杂,业务种类的定制和增加也更为快捷和灵活。因此,在业务不断增加的过程中,业务冲突与业务发展之间的矛盾日益突出,并
随着网络信息的高速增长,为了解决信息过载和信息迷航所带来的种种问题,个性化服务已经成为信息领域研究的热点之一。个性化服务针对不同的用户采取不同的服务策略,提供不同
  本文论述了课堂教学评价的数学模型。  首先,提出用试卷评价方法进行课堂教学评价指标体系的合理性进行分析,提出指标达标的难度、区分度、效度和信度。指标体系评价结果
脉冲耦合神经网络是新一代人工神经网络,具有较好的鲁棒性和自适应能力。本文应用PCNN模型,将神经元与图像像素一一对应,根据织物疵点区域纹理与正常织物纹理的灰度强度和分布差
数据挖掘面临着许多问题的挑战.其中,数据挖掘的个人隐私与信息安全问题尤其得到关注.如何在不暴露用户敏感信息的前提下进行数据挖掘,一直是人们感兴趣的课题.问题的解决对
粗糙集理论是研究不完整、不确定问题的一种有效的方法,它具有不需要先验知识,忠实于原始数据的优点。在数据挖掘与数据库知识发现领域,粗糙集理论与方法已经得到了大量成功的应
数据库技术已经从原始的数据处理,发展到开发具有查询和事务处理能力的数据库管理系统。进一步的发展导致越来越需要有效的数据分析和数据理解工具。粗糙集理论正是一种处理不
相对于万维网(WWW)上的海量数据而言,个人阅读和理解信息的能力非常有限,人们很难获得他们所期望的知识,此即“信息爆炸”问题。为了解决这个问题,人们提出了很多技术来帮助用户
C/C++源代码静态分析器设计中的一个关键的问题是如何处理源程序中的预处理指令.由于复杂性的关系,C/C++源代码静态分析往往绕过预处理.有些静态分析器采用某种模糊分析等方
网格计算旨在通过分布式环境下异构组织间动态的资源共享和协作来求解复杂的计算问题。网格的动态性为网格实施带来了复杂的安全问题,安全问题同时贯穿于网格体系结构的各个