应用HPSG理论实现汉语NP的自动分析

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:KurtJohns
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在汉语NP自动分析中,名词和量词的搭配问题是难点。本文在HPSG理论框架下,构建了汉语NP的形式化模型,并分析了该模型在LKB系统中的实现情况,总结了用LKB实现HPSG的优势与不足之处。
其他文献
本文针对面向查询的多文档自动文摘,提出了一种利用关键词提取技术的文摘句选择策略。通过计算多文档集中词语的查询相关性特征和语料相关性特征,并将词语的两个特征值进行特征融合得到每个词语的重要度,随后通过词语的重要度来给候选句打分,进一步利用改进的MMR技术来调整候选句的得分,最后生成文摘。本文将特征融合引入到词语层面,存DUC2005的语料中测试效果很好。
本文将古文对联规则区分为硬规则与软规则,用软规则指导建立对联应对的有向概率图模型,使用EM算法估计模型参数,在解的搜索过程中加入硬规则而完全实现对联的自动应对。实验结果表明,参数学习后的候选字列表由于去除了部分上下文的影响,比仅用频次统计的候选字列表更为合理,系统能够对训练语料库中工整与不工整的对联区分学习。
本文针对互连网上近似镜像网页严重降低搜索引擎效率的现象,提出了一种去重的方法。该方法通过句子在文中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法在提高运算效率的同时,保证了较高的准确率和召回率。
初中学生语言偏误类型多种多样,归结起来主要有汉字、词语、句子、修辞、标点等五个方面的偏误。本文主要从词语方而比较分析了初中三个年级的学生偏误表现的差异,并从语言知识本身、学生自身素质与能力以及外部因素的影响等三个方面探讨了初中各年级学生之所以出现这类偏误差异的原因,继而提出了一些有针对性的对策,以期能为初中阶段的语言教学提供一份可供参考的资料。
本文实现了一个基于机器学习的指代消解平台。在此基础上,通过自动语义角色标注工具得到目标动词和语义角色信息,组合语义角色特征和动词驱动特征,研究发现两者的结合能够显著提高系统的性能。对于无法得到语义类别的名词,本文尝试利用动词的选择限制来给这类名词赋予语义类别。在对ACE2003 NWIRE中所有类型名词短语的测试表明,综合考虑语义角色、动词驱动以及动词的选择限制能显著提高系统的召回率和F值。
本文利用依存关系进行语义角色的标注,在CONLL2008提供的shared task语料库上进行训练和测试,经过相关剪枝算法处理以后,使用最大熵分类器进行学习和分类,在手工句法分析基础上取得的F1值为:84.42%(Labeled)和92.58%(Unlabeled),在基于MaltParser的自动句法分析上取得的F1值为:81.15%(Labeled)和88.73%(Unlabeled),在基
本文统计和分析了有标记联合结构内部和外部的语言学特征,内部特征方面主要考察了联合结构的词性序列分布、短语序列分布。外部特征方面主要从联合结构的句法功能分布和联合结构左右边界特征词两个方面进行考察。这些考察一方面为计算机识别有标记联合结构提供了语言学知识,另一方面为从语言学的角度量化地研究联合结构提供了精确的数据。
汉语隐喻计算是一项难度很大的工作,明喻由于带有明显的比喻标志(比喻词),成为一种较理想的用于计算机自动处理的比喻类型。本文着力于对动词“像”的比喻义自动识别,首先,利用程序提取出语料库中带有动词“像”的句子,人工判断是否为比喻句;然后用CRF模型进行训练和测试,开放测试F值达到了83.3%,为隐喻计算的后续工作的展开奠定了的基础。
在构建领域知识库过程中,领域多词串比词携带了更多的语义信息,对于文本的主题分析和文本的内容分析明显的效果。本文首先利用C-Value方法从大规模无标注的真实语料中获取大量的多词串,然后采用Bootstrapping的机器学习技术,自动获取多词串的领域特征。实验结果表明,该方法有较好的性能,可以大大减轻人工构建的代价。
本文基于山两大学自主开发的中文阅读理解语料库CRCC v1.1版,根据问句和候选答案句的对应关系,构造了词层面以及句法层面共计35个特征,并使用最大熵模型对中文阅读理解问题回答进行了建模。考虑到语料库规模较小,以1:1的比例从CRCC语料库中随机选取了5组训练/测试集。在5组测试集匕的平均HumSent准确率达到75.46%。