【摘 要】
:
C语言试题库是学校C语言考试系统的基础。由于常年的使用以及原系统缺乏重复试题检查功能,在试题库的不断扩充下题库里难免存在大量重复试题,这样就导致了试卷质量和考试效果
论文部分内容阅读
C语言试题库是学校C语言考试系统的基础。由于常年的使用以及原系统缺乏重复试题检查功能,在试题库的不断扩充下题库里难免存在大量重复试题,这样就导致了试卷质量和考试效果的下降。所以,如何快速准确地找到题库中存在的重复试题是本课题要解决的问题。在国内,就C语言试题库查重而言相关方面的研究并不是很多,可参考的论文有限,但是重复试题的识别可以归类于相似语句的计算,属于自然语言处理的研究范畴。本文在借鉴了国内外自然语言处理方面大量研究成果的基础上,从分词处理、词语相似度计算以及语句相似度计算等三个方面入手对查重问题进行研究。在分词处理方面,本文选择了实用性和可靠性都很高的ICTCLAS分词工具。因为有Java版本而且源码公开,所以易于通过分析源码而得知词典结构,从而对原词典和词性进行扩充。在词语相似度计算方面,本文在研究了同义词词林、知网和领域本体等知识体系的基础上,构建了C语言领域本体知识库,并选择它和知网作分别为专业词汇和普通词汇的相似度计算依据。在国内,就句子相似度计算而言,根据词义、词序和句法结构的特点已有很多不同的计算方法。本课题根据C语言相似试题本身词汇变动少、词序固定的特点选择了基于编辑距离的句子相似度算法。总之,本文利用ICTCLAS进行分词和词性的有效标注;利用构建的C语言领域本体计算领域词汇相似度;利用编辑距离算法计算句子相似度。并且在编辑距离算法中根据词语词性的不同操作代价相应不同。实验表明本课题的方法对重复试题的识别有较高的准确度,初步达到了题库查重的目标。
其他文献
面对突如其来的疫情、自然灾害或事故灾难,如何高效利用有限资源,提高政府对紧急事件快速反应和抗风险的能力,为企业和人民提供更及时有效的预警和紧急救助服务,日益成为提高
随着广泛应用的多媒体业务对网络带宽的需求越来越大,网络带宽瓶颈显得越来越突出。服务质量(QoS,Quality of service)是解决这一问题的一个可选方案。本文在分析用户需求的
Web服务组合框架及相应平台开发的研究是目前面向服务计算的重要研究内容。现行Internet平台下的Web服务组合技术面临着多方面的挑战,如Web服务的被动性、协同方式单一、集中
生物认证技术是利用人体固有的生理特征,如人脸、虹膜、指纹、以及行为特征,如步态等对个体进行识别的身份认证技术。近几年来,由于对安全问题的重视,生物认证技术得到了长足
智能规划已经成为人工智能的一个研究热点,特别是规划图方法(GraphPlan)的提出更是使智能规划的研究取得了革命性的进展。随后的许多规划器都是在此基础上的,如1999年提出的P
近年来,随着现代通信技术的飞速发展和计算机互联网技术的迅速普及,信息的共享、传播变得尤为重要。它给人们带来种种便利的同时也带来了一系列的信息安全问题,比如信息窃取
随着计算机技术、通信技术和半导体技术的快速发展,物联网成为新一代信息技术的重要组成部分。作为物联网中的一个重要组成部分,无线传感器网络应用也越来越广泛,与此同时,对
当今世界,高新科技的迅猛发展深刻地改变着整个世界的面貌,推动着整个世界的经济、社会、文化持续快速向前发展。整个世界已凸显全球化、信息化和知识化的特征。世界正变得越
制造网格的出现,实现了地理上分散的各类制造资源的全面连通和共享,形成了一个庞大的资源库。用户想要像使用本地资源一样方便地使用资源库中的资源,必须有效的发现所需的资
当今对图像、视频、药物分子、文本、空间数据、基因等数据的高阶高维信息规律进行分析是目前机器学习、数据挖掘等领域迫切需要解决的问题之一。相对传统的向量化的数据分析