英语学术论文摘要语步结构自动识别模型的构建

来源 :北京外国语大学 | 被引量 : 3次 | 上传用户:hubai123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,如何科学、全面的反映一个学科的知识结构和发展状况至关重要,摘要是学科知识挖掘的一个便捷且重要的数据来源,但现有的知识挖掘很难定位摘要中的关键信息语步,更无法实现语步内部的知识挖掘,这就需要构建摘要语步的自动识别模型。基于文本自动分类的研究成果,自然语言处理领域出现了三类摘要语步自动识别模型,但这三类模型各有利弊。纯粹以统计词频构建的词袋模型,虽然能够穷尽词项特征,但对特征不做筛选和归类,导致特征稀疏。基于规则提取语言学特征构建的模型,虽然避免了特征稀疏的问题,但未能全面系统地提取所有特征。第三类结合词袋和语境特征构建的模型,虽然识别效果很好,但只能针对结构化摘要,对大量非结构化摘要的识别效果仍然差强人意。针对这种情况,本研究旨在以现有的摘要语步结构自动识别模型为出发点,针对现有模型语言特征提取不足的问题,结合语言学理论和方法,提取新的特征,同时借助语料库语言学、自然语言处理、信息检索技术以及统计学等学科中的研究方法,试图构建运行效果更好的能够自动识别常见类型英文摘要语步结构的模型。本研究模型的构建大体分四个阶段:(1)语料的准备和预处理阶段。我们下载了Web of Science数据库收录的《应用语言学》期刊自1993年到2014年出版的所有论文摘要,剔除书评、会议论文、编者语,共计440篇。然后对文本进行清理,以及进行自动词性赋码和句法分析。(2)人工标注阶段。由三位相关专业研究人员对语料进行人工标注,标注过程前后持续一年,经历了基于已有研究提出的标注方案自上而下地标注,以及不带有任何已有的方案自下而上地标注,最后采用了两种方法相结合的方式,并确定了以完整的语句为标注单位的六语步标注方案。经检验,两位标注人员独立标注的一致性较好(Kappa =.785),然后对独立标注中二者不一致的地方进行多次讨论、修改,达成完全一致。(3)提取特征构建模型阶段。人工标注完语步结构之后,利用一系列研究工具和方法,提取有效的语步预测特征,再利用这些特征和数据训练学习分类器(条件随机场),获得模型。(4)模型的验证阶段。利用构建的模型预测验证集的语步类别,将模型预测的验证集的语步类别与人工标注类别对比,得到模型的识别效果,再与现有的同类模型作对比,探索本模型的优势与不足。本研究的主要发现可以概括为摘要的语步分析、语步结构的有效预测特征和模型的识别效果三方面。第一,本研究突破了传统语步分析的方法,基于对大量数据的实际分析印证并完善了已有的语类研究理论。第二二,本研究验证了已有模型提取的4个特征的有效性,证实了新加入的3个特征的有效预测力,通过对比发现以语料库的方法提取的新特征比传统方法提取的特征效果更好。从特征的三个维度来看,意义特征对语步的识别度最高(F=0.609),其次是语境特征(F=0.428),识别度最低的是形式特征(F=0.317)。第三,本研究构建了摘要语步结构的自动识别模型,模型的识别效果(F=0.7819)是现有自动识别模型中效果最好的,对信息型摘要的识别效果比现有识别效果最好的模型提高了4.5%。为了保证可比性,我们利用同一批语料训练词袋模型AntMover,结果本研究的模型比AntMover的识别效果提高了约23%。摘要语步结构自动识别模型的构建,为下一步学科知识挖掘中定位摘要的语步以及语步内部的关键知识奠定了基础。另一方面,语步的自动识别突破了ESP领域长久以来的人工识别法,为语步分析理论和实证研究走向更多的学科和研究领域,发展成为一个更全面、多视角、多维度的语步分析领域提供了可能。
其他文献
近年来,随着城市化进程的加快,使房地业得以蓬勃发展,但随着城市用地的紧张,城市建筑开始向地下发展。地下层数的增加,使地下室防水成为了非常重要的事情,这也是当前设计师们面临的
英语反身代词(如himself,herself)和汉语光杆反身代词“自己”都没有独立指称能力,语义解读依靠其先行语。两种语言反身代词的消解有相同之处,也有相异之所。相同之处在于其
作为一种被广泛使用的语法组合手段,并列也是句法测试中的常用工具。然而自身却与现有语法理论"格格不入"。由于构造简单也未得到应有的重视,学界对其进行的专门的、系统的研
意象批评,是一种以意象为喻的文学批评方式。文章以丰富翔实的诗话文献资料,从审美语言学的学术文化视点上,全面论述了意象批评的学术渊源、批评特征、批评方法及其文化思考,不啻
自1988年被广东省中学思想政治教材编写委员会聘任为粤版《政治常识》审读专家,介入中学政治教材的审编工作开始,吴少荣老师先后承担了教育部普通高中思想政治1992年版《政治
采用压缩试验,在排除了金属通电时热效应的影响之后,对Al-Cu合金的电塑性效应进行研究。结果表明:电塑性效应主要发生在金属塑性变形阶段,电塑性效应随塑性变形量的增加而提
本文主要研究俄语"CBeTaeT"类无人称句。所谓‘’CBeTaeT"类无人称句,是一种无主语结构,谓语采用现在时(将来时)单数第三人称或过去时的中性形式,句子表示的是存在一个由未知
当前,房地产企业正在做改革企业制度、转换经营机制的工作。此项工作,就目前而言,还存在着政策不到位、法制不健全、政府职能转变滞后和宏观调控不够有效等深层次的矛盾和问
湿地生态系统与陆地、海洋并称为地球三大主要生态系统,且湿地内部旺盛的生命活动与物质交流为其带来了高于其它生态系统的活力,而城市的高速发展极易造成湿地规模及生态功能的破坏,进而引发一系列的环境问题。生态系统服务功能价值是自然环境为人类生存所做贡献的经济体现,对湿地进行生态系统服务功能价值评估有助于管理者深入认识湿地资源的价值,从而制定更全面、更合理的保护政策。广州市位于中国广东省南部,总面积达743
1 绪言炭黑作为橡胶的补强材料,在轮胎中的应用已有近百年的历史。大量的物理、化学性能方面的研究表明,炭黑所特有的基本性质决定其对轮胎的补强作用,如炭黑粒子越细,结构越