论文部分内容阅读
对如何遏制中文学位论文抄袭严重现象提出一种基于词频的相似度检测技术,并研究设计出相应的计算机检测算法。首先分析了中文学位论文的标准格式和中文语句、结构的语言特点,总结出中文学位论文抄袭的判断方法;对中文学位论文的统一表达形式提出一种基于树结构的数据结构模式;在论文内容相似度检测机制中引入向量空间模型的相似度检测方法,通过信息熵理论改善和规范了向量空间的特征项权重值计算问题。最后给出了中文学位论文基于树形结构存储计算的向量空间模型相似度检测算法。