基于依存关系的语义角色标注

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户：erywwb

【摘要】

：

本文利用依存关系进行语义角色的标注,在CONLL2008提供的shared task语料库上进行训练和测试，经过相关剪枝算法处理以后,使用最大熵分类器进行学习和分类,在手工句法分析基础上取得的F1值为：84.42％(Labeled)和92.58％(Unlabeled),在基于MaltParser的自动句法分析上取得的F1值为：81.15％(Labeled)和88.73％(Unlabeled),在基

【作者】

：

汪红林丁金涛王红玲周国栋

【机构】

：

苏州大学计算机科学与技术学院,江苏,苏州,215006 江苏省计算机信息处理技术重点实验室,江苏,

【出处】

：

中国中文信息学会

【发表日期】

：

2008年4期

【关键词】

：

文字处理语义标注最大熵分类数理语言学

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

基于最大匹配和马尔科夫模型的对联系统

对联,雅称“楹联”,俗称对子,它言简意深,对仗工整,平仄协调,是一字一音的汉语语言独特的艺术形式，可以说对联艺术是中华民族的文化瑰宝，如何利用计算机自动生成对联是一个值得研究的方向。本文开发了一种基于前向最大匹配和一阶马尔科夫模型的对联系统。首先对用户输入的上联进行前向最大匹配的切分,进而发现匹配结果的若干候选，利用一阶马尔科夫模型假设和动态规划算法找到和上联最为匹配的下联,初步的实验结果表明我们

会议

汉字处理对联生成语言匹配数理语言学最大匹配马尔科夫模型

基于用户日志分析的查询扩展研究

查询扩展是信息检索中关键问题之一,查询扩展的有效性决定其检索性能。用户查询日志是大量用户长期查询行为的记录,通过挖掘用户查询与用户日志之间的联系,构建相关词表,从而实现查询扩展。本文提出了一种结合局部上下文分析与用户行为分析的查询扩展方法,该方法在选择相关用户日志时加入用户查询行为信息,获取相关词表时采用局部上下文分析方法。在54000篇语料上的测试表明,该方法相对于未扩展时准确率提高50％以上。

会议

文字处理信息检索语言分析数理语言学用户日志分析

文本倾向性分析用于金融市场波动率与金融信息相互关系的研究

互联刚金融信息对于金融市场的影响在当代已经越来越不可忽视.面对海量的信息,其中大部分为非结构化的文本数据。本文结合目前已有的文本倾向性算法,把信息的褒贬值作为外部变量加入到针对股价波动率建立的时间序列模型中去,对金融市场的股价波动率进行预测。实验揭示了金融市场波动率与互联网上金融新闻的相关性,并且提出了一种有效的股市预测方法。

会议

文字处理金融信息相互关系文本分析数理语言学

基于K-最近距离方法的哈萨克语报纸分类初探

本文利用K-最近距离的方法对哈萨克语报纸进行分类,初步实现了利用统计词频信息和语言信息相结合的方法选择特征词,且计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度,经过训练和统计对哈萨克文文本形成特征的权重向量,之后根据K-最近距离判断测试文本的所属类别,从而实现了本文提出的哈萨克语报纸分类的目标。

会议

文字处理哈萨克语文本分类数理语言学

基于内容特征的垃圾博客过滤

本文根据垃圾博客和正常博客在内容特征上的差异,对多种针对博客分类有效的统计特征进行了分析,提出了基于博客内容统计特征的过滤方法。在Blog06数据集上的实验表明,该方法的过滤准确性达到97％,比基于词频特征的过滤方法提高了约7％,在不同规模训练集上的准确性保持在95％左右,具有更好的泛化能力。

会议

文字处理垃圾博客过滤语言分析数理语言学内容特征

一种利用关键词提取的面向查询多文档文摘技术

本文针对面向查询的多文档自动文摘,提出了一种利用关键词提取技术的文摘句选择策略。通过计算多文档集中词语的查询相关性特征和语料相关性特征,并将词语的两个特征值进行特征融合得到每个词语的重要度,随后通过词语的重要度来给候选句打分,进一步利用改进的MMR技术来调整候选句的得分,最后生成文摘。本文将特征融合引入到词语层面,存DUC2005的语料中测试效果很好。

会议

文字处理关键词提取语句选择数理语言学多文档自动文摘

统计与规则结合的古文对联应对模型

本文将古文对联规则区分为硬规则与软规则,用软规则指导建立对联应对的有向概率图模型,使用EM算法估计模型参数,在解的搜索过程中加入硬规则而完全实现对联的自动应对。实验结果表明，参数学习后的候选字列表由于去除了部分上下文的影响,比仅用频次统计的候选字列表更为合理，系统能够对训练语料库中工整与不工整的对联区分学习。

会议

汉字处理古文对联应对模型最大熵模型数理语言学

网页去重系统的设计与实现

本文针对互连网上近似镜像网页严重降低搜索引擎效率的现象,提出了一种去重的方法。该方法通过句子在文中的位置和组块的重要度,提取出网页正文的主题句向量，然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明，该方法在提高运算效率的同时,保证了较高的准确率和召回率。

会议

文字处理镜像网页网页去重系统数理语言学

基于语料库的初中学生词语偏误现象考察

初中学生语言偏误类型多种多样,归结起来主要有汉字、词语、句子、修辞、标点等五个方面的偏误。本文主要从词语方而比较分析了初中三个年级的学生偏误表现的差异，并从语言知识本身、学生自身素质与能力以及外部因素的影响等三个方面探讨了初中各年级学生之所以出现这类偏误差异的原因,继而提出了一些有针对性的对策,以期能为初中阶段的语言教学提供一份可供参考的资料。

会议

初中教学语文课程词语偏误语言统计学

语义角色在指代消解中的研究

本文实现了一个基于机器学习的指代消解平台。在此基础上,通过自动语义角色标注工具得到目标动词和语义角色信息,组合语义角色特征和动词驱动特征,研究发现两者的结合能够显著提高系统的性能。对于无法得到语义类别的名词,本文尝试利用动词的选择限制来给这类名词赋予语义类别。在对ACE2003 NWIRE中所有类型名词短语的测试表明,综合考虑语义角色、动词驱动以及动词的选择限制能显著提高系统的召回率和F值。

会议

汉字处理语义标注指代消解数理语言学

基于依存关系的语义角色标注

与本文相关的学术论文