分词规范亟需补充的三方面内容

来源 :第九届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:luoning5188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文认为,要构建高质量的健分词语料库亟需在现有的分词规范中着重补充以下三方面的内容:(1)命名实体(人名、地名、机构名)标注细则;(2)表义字串(数字、时间、日期、电子邮箱等)标注细则;(3)歧义字串的消解细则。因为命名实体和表义字串已被不少分词规范视为一个分词单位,据统计它们到文本中未登录词总词次数的三分之二左右。此外,在以往的分词规范中歧义字串的消歧问题很少得到说明,以为这是不言自明的。其实不然,人们对歧义字串的语感往往是不同的,尤其是组合歧义。因此,在规范中对典型的歧义字串予以说明实属必要。实践表明,如果把上述三方面的标注细则在规范中进一步交待清楚,就可以在很大程度上避免标注的错误和不一致性。
其他文献
本文采用一种客观赋权方法──熵权法来确定综合评价中各指标的权重,并把熵权法和传统的ISODATA聚类方法相结合,在ISODATA的目标函数中引入权重,给出了含有熵权的ISODATA聚类的迭代公式,提出了基于模糊聚类和熵权的改进的综合评价算法,并将该算法应用于教师绩效评价,通过分析发现其评价结果更加有效。
本文研究的主要目的是针对生物医学命名实体的特点开发使用有效的特征集合,并结合使用不同的信息资源,以提高基于特征的机器学习方法识别生物医学命名实体的性能。本文详细分析了各种特征包括局部特征、全文特征及外部资源特征对基于条件随机域模型的生物医学命名实体识别系统的贡献。系统使用JNLPBA语料作为评测语料,获得了72.0%的F测度值,实验结果证明本文针对生物医学领域命名实体特点而选择的特征对于识别任务是
关键资源页面是网络信息环境中一类重要的页面,是用户进行网络搜索的主要目标。虚拟组织是网格体系结构中的基本单元,本文借鉴网格研究中虚拟组织的结构的研究和分析,基于网络用户搜索行为分析提出虚拟主题的概念,并构架基于虚拟主题的用户关键资源页面定位框架系统,提供有效的关键资源页面定位服务。实验表明,这种框架很好的组织了不同搜索引擎上的用户行为,并利用用户的查询点击行为信息有效的对用户关心的主题进行关键资源
本文介绍了一个面向术语定义识别的术语释义信息标注语料库和针对语料库建设所开发的辅助软件系统。语料库建设工作包括原始语料收集、标记集确定、语料标注和辅助软件开发等几部分。在标注语料库中标出的内容有术语和它的定义或解释性语句。本文还对标注结果进行了介绍。本研究所产生的语料资源可作为术语提取和定义识别的训练语料和测试语料,也可作为专业领域知识本体构建的结构化知识来源。
本文介绍了我们在非流利部分检测以及对非流利句子进行句法分析上的工作。我们的主要贡献是扩大了非流利部分检测的特征集合,最佳特征选择,并且比较了三种不同的分类器(AdaBoost,Maximum Entropy,and Conditional Random Fields)在这个任务上的结果。通过上述的改进,我们系统的结果相对于考虑标点符号的最优结果[2]在 F 值上有了43.98%的相对提高,在不考虑
目前基于"关键词"的搜索引擎还无法"理解"用户的搜索请求。原因是,使用"关键词"进行信息搜索是不符合人类的语言交际行为的。人类在实际语言交流中使用的获得信息的语言组织形式是句子而不是词语或短语,而疑问句是人们在交流时最经常、最自然使用的句子形式。本文对询问式的搜索请求进行了模式上的分析,希望以此为询问式搜索引擎的设计做必要的语义分析上的准备.
与描述组词成句规则系统的传统语法不同,语义语法以文本意思的提取规则为研究内容,其基本范畴乃是由名项及其意义或意思所确定的概念。在俄语文本自动处理过程中,计算机程序能够自动识别文本意思提取的规则,并通过逻辑推导赋予组成文本的语句和语段以意义。语义语法的实用目标是建立智能系统,以满足用户处理俄语文本语义信息的实际需求。揭示语义语法理论的实质,必将有助于研制俄语文本语义处理的程序保障技术。
基本短语,尤其是基本名词短语(BaseNP)一直是句法分析中需要特殊处理的一种结构。准确地识别基本短语不仅有助于降低句法分析的复杂度,提高效率;而且还能起到消歧的作用,从而改善句法分析的结果。本文在Collins概率句法分析模型中引进单独的基本名词短语识别,并对BaseNP的概念进行一系列的扩展,深入研究了基于不同层次概念的BaseNP对句法分析的影响。在此基础上,利用改进的Collins句法分析
本文以学界两次对组合型歧义字串考察的矛盾结果为引子,指出在现代汉语自动分词中"组合型歧义"和"切分变异"的概念界定不清,并以例示的方式给出了各自的定义。通过四次语料考察、统计和分析,总结了汉语自动分词中组合型歧义字串和切分变异字串的常见类型,并探讨了切分变异的消解方法。
有学者提出可以用区别词来鉴别动名兼类词的词性,本文主要验证这一方法的可行性。文章首先在现有区别词研究的基础上,依据语料从严确定了95个区别词;利用程序在语料库中检索的结果显示,不同区别词鉴别兼类词词性的能力存在较大差异。区别词是否有鉴别词性的能力首先取决于一个前提:是否可以接兼类词。统计显示,能接兼类词的区别词有64个,这些词具有鉴别词性的能力。而且其能力的强弱与区别词的使用频率成正比.文章最后进