论文部分内容阅读
风格裂缝指的是多作者共同完成的文章中作者身份发生转变的位置。提出基于多特征风格的文档分割的剽窃检测方法。使用7种文本风格特征用于风格裂缝识别。通过特征提取的结果,利用无监督的机器学习算法,基于提取的特征进行分类。利用聚类算法对风格特征进行聚类,从而找到文章风格裂缝的位置。采用参数权重技术进行特征权重调节和多特征融合,对不同文章出现的特征冗余问题进行合理解决。分别使用滑动窗口与段落划分对不同类型的文本进行实验,得出基于段落的实验结果比基于滑动窗口的实验评估值高出10%左右的结论。