【摘 要】
:
本文研究了基于基本块信息使用条件随机场模型(CRF)对汉语功能块进行自动标注的问题,针对词和基本块的两种不同的标注策略,将汉语基本块信息分别形式化成相应的特征,通过大量的特征组合优化实验,进行特征选择和模型参数估计。实验结果表明,在CRF模型中,基本块相关特征信息的加入可以大幅度地提高功能块识别性能。开放测试表明,在以基本块为单位的标注策略下,功能块自动标注的F值达到89.12%,这是目前最好的汉
【机 构】
:
山西大学 计算机与信息技术学院,山西 太原 030006 山西大学计算中心,山西 太原 03000
论文部分内容阅读
本文研究了基于基本块信息使用条件随机场模型(CRF)对汉语功能块进行自动标注的问题,针对词和基本块的两种不同的标注策略,将汉语基本块信息分别形式化成相应的特征,通过大量的特征组合优化实验,进行特征选择和模型参数估计。实验结果表明,在CRF模型中,基本块相关特征信息的加入可以大幅度地提高功能块识别性能。开放测试表明,在以基本块为单位的标注策略下,功能块自动标注的F值达到89.12%,这是目前最好的汉语功能块自动标注结果。
其他文献
本文针对互连网上近似镜像网页严重降低搜索引擎效率的现象,提出了一种去重的方法。该方法通过句子在文中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法在提高运算效率的同时,保证了较高的准确率和召回率。
初中学生语言偏误类型多种多样,归结起来主要有汉字、词语、句子、修辞、标点等五个方面的偏误。本文主要从词语方而比较分析了初中三个年级的学生偏误表现的差异,并从语言知识本身、学生自身素质与能力以及外部因素的影响等三个方面探讨了初中各年级学生之所以出现这类偏误差异的原因,继而提出了一些有针对性的对策,以期能为初中阶段的语言教学提供一份可供参考的资料。
本文实现了一个基于机器学习的指代消解平台。在此基础上,通过自动语义角色标注工具得到目标动词和语义角色信息,组合语义角色特征和动词驱动特征,研究发现两者的结合能够显著提高系统的性能。对于无法得到语义类别的名词,本文尝试利用动词的选择限制来给这类名词赋予语义类别。在对ACE2003 NWIRE中所有类型名词短语的测试表明,综合考虑语义角色、动词驱动以及动词的选择限制能显著提高系统的召回率和F值。
本文利用依存关系进行语义角色的标注,在CONLL2008提供的shared task语料库上进行训练和测试,经过相关剪枝算法处理以后,使用最大熵分类器进行学习和分类,在手工句法分析基础上取得的F1值为:84.42%(Labeled)和92.58%(Unlabeled),在基于MaltParser的自动句法分析上取得的F1值为:81.15%(Labeled)和88.73%(Unlabeled),在基
本文统计和分析了有标记联合结构内部和外部的语言学特征,内部特征方面主要考察了联合结构的词性序列分布、短语序列分布。外部特征方面主要从联合结构的句法功能分布和联合结构左右边界特征词两个方面进行考察。这些考察一方面为计算机识别有标记联合结构提供了语言学知识,另一方面为从语言学的角度量化地研究联合结构提供了精确的数据。
汉语隐喻计算是一项难度很大的工作,明喻由于带有明显的比喻标志(比喻词),成为一种较理想的用于计算机自动处理的比喻类型。本文着力于对动词“像”的比喻义自动识别,首先,利用程序提取出语料库中带有动词“像”的句子,人工判断是否为比喻句;然后用CRF模型进行训练和测试,开放测试F值达到了83.3%,为隐喻计算的后续工作的展开奠定了的基础。
在构建领域知识库过程中,领域多词串比词携带了更多的语义信息,对于文本的主题分析和文本的内容分析明显的效果。本文首先利用C-Value方法从大规模无标注的真实语料中获取大量的多词串,然后采用Bootstrapping的机器学习技术,自动获取多词串的领域特征。实验结果表明,该方法有较好的性能,可以大大减轻人工构建的代价。
本文基于山两大学自主开发的中文阅读理解语料库CRCC v1.1版,根据问句和候选答案句的对应关系,构造了词层面以及句法层面共计35个特征,并使用最大熵模型对中文阅读理解问题回答进行了建模。考虑到语料库规模较小,以1:1的比例从CRCC语料库中随机选取了5组训练/测试集。在5组测试集匕的平均HumSent准确率达到75.46%。
在汉语NP自动分析中,名词和量词的搭配问题是难点。本文在HPSG理论框架下,构建了汉语NP的形式化模型,并分析了该模型在LKB系统中的实现情况,总结了用LKB实现HPSG的优势与不足之处。
本文提出了一种基于统计和规则相结合的汉语最长名词短语识别方法。首先使用条件随机场模型进行标注识别,再结合最长名词短语的边界信息和内部结构信息对错误识别结果进行后处理。实验结果表明,本文提出的统计和规则相结合的自动识别方法是有效的,开放测试结果F值达到了90.2%。