论文部分内容阅读
文献质量的评价需要依赖多种指标,本文致力于探索一套有效的方法,能够利用自然语言处理技术和语义资源,对英文科技语篇中话题组织方式和立场表达模式进行分析,识别出引用对象在整个语篇中的传递路线以及围绕引用对象所发表的评价信息,然后在此基础上挖掘出论文作者对参考文献所持有的褒贬倾向,将传统的引文分析提升到引文一被引文献一观点倾向三维层面,为引文的质量判断提供有效地定性指标。
文章首先对引文分析和情感挖掘两个领域所存在的问题进行总结,然后通过对实际语料的分析,发现英文科技语篇中的引用内容与观点评价之间存在的三个特点:1)作者对引文内容的客观叙述和主观评价混合在一起;2)著文中的主观评述很多,但评价对象未必与引文内容有关;3)一篇著文中多次引用同一篇引文。针对上述特征,本文将语言学领域的主位推进理论和修辞结构理论运用到引用内容的识别和评价倾向的判断中,围绕下列三项工作展开探索:
(1)分析不同形式的引用标签,识别出引用句中的引用对象
作者在创作论文的过程中通过特定的标记形式将参考内容引入到著文中米,使引文和著文产生引证关系。引用对象是引用句中出现的来自于引文的最大字符串,它是产生引证关系的交叉点。作者对引用对象的评价信息从侧面反映了引文内容的利用价值,本文对科技语篇中的各种引用形式以及依存句法关系进行了总结整理,并提出引用对象相似度的计算方法,为引用句的识别和引用对象的判断提供了思路。
(2)构建引用对象的语篇链路,确保评价信息与引用对象紧密相关
引用内容的出现是语篇性的,与之发生联系的句子可能有一个,但更多情况下会涉及前后的多个句子,必须对上下文环境做出分析和处理,才能对引用对象的评价信息做出判断。本文总结归纳了英文科技语篇中的话题传递模式,在此基础上构建引用对象的语篇链路,确保评价信息与引用对象紧密相关。
(3)设计情态链路的探测方法,识别评论人的意图走向和态度变化
科技语体以书面的形式向读者提供有效信息,作者态度倾向的表达除了受转述动词和情感形容词制约外,还受其他因素的影响。否定结构、转折结构以及虚拟语气等情态系统控制着话题的转换。本文对影响作者观点表达的各种因素进行了分析总结,将情态转换控制系统与话题传递模式融合起来,实现了情感走向的全面探测。
本文采用了理论与实践相结合的研究思路,通过分析语料资源总结出引用对象的语篇传递模式和观点表达模式,然后编写程序模块完成观点倾向的自动分析,并利用实验语料对挖掘效果进行测试,取得了较好的挖掘效果。文章最后详细的分析了各种错误记录产生的原因,为后期改进提供了思路。