【摘 要】
:
本文利用依存关系进行语义角色的标注,在CONLL2008提供的shared task语料库上进行训练和测试,经过相关剪枝算法处理以后,使用最大熵分类器进行学习和分类,在手工句法分析基础上取得的F1值为:84.42%(Labeled)和92.58%(Unlabeled),在基于MaltParser的自动句法分析上取得的F1值为:81.15%(Labeled)和88.73%(Unlabeled),在基
【机 构】
:
苏州大学计算机科学与技术学院,江苏,苏州,215006 江苏省计算机信息处理技术重点实验室,江苏,
论文部分内容阅读
本文利用依存关系进行语义角色的标注,在CONLL2008提供的shared task语料库上进行训练和测试,经过相关剪枝算法处理以后,使用最大熵分类器进行学习和分类,在手工句法分析基础上取得的F1值为:84.42%(Labeled)和92.58%(Unlabeled),在基于MaltParser的自动句法分析上取得的F1值为:81.15%(Labeled)和88.73%(Unlabeled),在基于MSTParser的自动句法分析上取得的F1值为:80.81%(Labeled)和88.47%(Unlabeled)。
其他文献
对联,雅称“楹联”,俗称对子,它言简意深,对仗工整,平仄协调,是一字一音的汉语语言独特的艺术形式,可以说对联艺术是中华民族的文化瑰宝,如何利用计算机自动生成对联是一个值得研究的方向。本文开发了一种基于前向最大匹配和一阶马尔科夫模型的对联系统。首先对用户输入的上联进行前向最大匹配的切分,进而发现匹配结果的若干候选,利用一阶马尔科夫模型假设和动态规划算法找到和上联最为匹配的下联,初步的实验结果表明我们
查询扩展是信息检索中关键问题之一,查询扩展的有效性决定其检索性能。用户查询日志是大量用户长期查询行为的记录,通过挖掘用户查询与用户日志之间的联系,构建相关词表,从而实现查询扩展。本文提出了一种结合局部上下文分析与用户行为分析的查询扩展方法,该方法在选择相关用户日志时加入用户查询行为信息,获取相关词表时采用局部上下文分析方法。在54000篇语料上的测试表明,该方法相对于未扩展时准确率提高50%以上。
互联刚金融信息对于金融市场的影响在当代已经越来越不可忽视.面对海量的信息,其中大部分为非结构化的文本数据。本文结合目前已有的文本倾向性算法,把信息的褒贬值作为外部变量加入到针对股价波动率建立的时间序列模型中去,对金融市场的股价波动率进行预测。实验揭示了金融市场波动率与互联网上金融新闻的相关性,并且提出了一种有效的股市预测方法。
本文利用K-最近距离的方法对哈萨克语报纸进行分类,初步实现了利用统计词频信息和语言信息相结合的方法选择特征词,且计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度,经过训练和统计对哈萨克文文本形成特征的权重向量,之后根据K-最近距离判断测试文本的所属类别,从而实现了本文提出的哈萨克语报纸分类的目标。
本文根据垃圾博客和正常博客在内容特征上的差异,对多种针对博客分类有效的统计特征进行了分析,提出了基于博客内容统计特征的过滤方法。在Blog06数据集上的实验表明,该方法的过滤准确性达到97%,比基于词频特征的过滤方法提高了约7%,在不同规模训练集上的准确性保持在95%左右,具有更好的泛化能力。
本文针对面向查询的多文档自动文摘,提出了一种利用关键词提取技术的文摘句选择策略。通过计算多文档集中词语的查询相关性特征和语料相关性特征,并将词语的两个特征值进行特征融合得到每个词语的重要度,随后通过词语的重要度来给候选句打分,进一步利用改进的MMR技术来调整候选句的得分,最后生成文摘。本文将特征融合引入到词语层面,存DUC2005的语料中测试效果很好。
本文将古文对联规则区分为硬规则与软规则,用软规则指导建立对联应对的有向概率图模型,使用EM算法估计模型参数,在解的搜索过程中加入硬规则而完全实现对联的自动应对。实验结果表明,参数学习后的候选字列表由于去除了部分上下文的影响,比仅用频次统计的候选字列表更为合理,系统能够对训练语料库中工整与不工整的对联区分学习。
本文针对互连网上近似镜像网页严重降低搜索引擎效率的现象,提出了一种去重的方法。该方法通过句子在文中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法在提高运算效率的同时,保证了较高的准确率和召回率。
初中学生语言偏误类型多种多样,归结起来主要有汉字、词语、句子、修辞、标点等五个方面的偏误。本文主要从词语方而比较分析了初中三个年级的学生偏误表现的差异,并从语言知识本身、学生自身素质与能力以及外部因素的影响等三个方面探讨了初中各年级学生之所以出现这类偏误差异的原因,继而提出了一些有针对性的对策,以期能为初中阶段的语言教学提供一份可供参考的资料。
本文实现了一个基于机器学习的指代消解平台。在此基础上,通过自动语义角色标注工具得到目标动词和语义角色信息,组合语义角色特征和动词驱动特征,研究发现两者的结合能够显著提高系统的性能。对于无法得到语义类别的名词,本文尝试利用动词的选择限制来给这类名词赋予语义类别。在对ACE2003 NWIRE中所有类型名词短语的测试表明,综合考虑语义角色、动词驱动以及动词的选择限制能显著提高系统的召回率和F值。