基于语言模型和特征分类的抄袭判定

来源 :计算机工程 | 被引量 : 0次 | 上传用户:aulanb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代作者版权的保护问题已受到越来越多的关注。针对部分小说存在的文本大面积相似问题,提出基于语言模型和特征分类的方法。统计文本二元~六元的语言模型并且绘制拓扑图,通过计算重合概率和词性比来分析词语的重合程度和语法信息,在此基础上利用主成分分析和随机森林的方法,进行分类判别。机器学习的结果表明,该方法能够有效地鉴别小说是否存在抄袭现象。
其他文献
分析了北京农村居民点用地存在的主要问题,提出了北京农村居民点用地调整的因地制宜原则、可持续性原则、便利性原则、集约性与适度规模性原则;提出了用地调整的措施:规划先
本文以苯乙烯做为单体,二乙烯基苯充当交联剂,以线性聚苯乙烯为致孔剂,采用悬浮聚合过程制备了含有少层石墨烯的多孔聚苯乙烯微球。通过扫描电镜、X射线衍射、热重分析等手段
介孔氧化硅是一类具有广阔发展前景的新型纳米材料,它具有介观结构有序,孔径分布窄且在2-50nm范围内连续可调,超大比表面以及表面富含不饱和羟基等特点。这使其在分离纯化、
目的 :探讨分析用小剂量的螺内酯治疗冠心病慢性心力衰竭的临床效果。方法 :选取2013年9月~2014年9月间我院收治的冠心病慢性心力衰竭患者60例作为研究对象,将其随机分为A组(
翻转课堂的实践应用需要充分结合不同高校的学生实际情况。以"算法与数据结构"课程为例,总结了转型发展类院校的课堂教学状态,设计了翻转课堂具体实施方案和流程,并通过问卷
采用自行设计的立式千分表架,研究了不同水胶比(0.16、0.20和0.24)、不同砂率(0.4、0.5和0.6)和不同钢纤维体积掺量(0%、1%、2%和3%)对超高性能水泥基复合材料(Ultra-High Performan
培养学生自能阅读能力是提高学生语文素养的重要途径。通过研读新课程理念和语文教材,认真分析小学中高年级学生的基础知识、阅读习惯等,发现依托学案来培养学生的自能阅读能
<正>1949-2019,70年风雨兼程,70年春华秋实,70年砥砺奋进。10月1日上午,庆祝中华人民共和国成立70周年大会在北京天安门广场隆重举行。举国同庆,全民同心。自豪、自信、自强,
模拟法庭作为一种实践教学方法,与传统教学方法相比,更有助于培养符合未来社会发展需求的法学人才。然而模拟法庭应用存在走过场,功能虚置的现象,导致模拟法庭没有发挥应有的
高校青年女教师作为一个特殊的知识女性群体,其心理问题不容忽视。通过对高校青年女教师的调查发现,半数以上女教师处于亚健康状态,不同程度地存在心理问题。所以高校应有针对地