基于斜率密度聚类的相似文本标定

来源 :通信学报 | 被引量 : 2次 | 上传用户:underdog1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似文本标定是抄袭检测的一个重要环节,现有标定方法大多采用直接对文本或指纹进行合并的方式,标定精度受干扰信息影响较大。针对这种局限性,分析了匹配指纹对的语义特征,提出基于斜率密度的相似文本聚类方法,将文本匹配合并问题转化成稠密样本点聚类问题,并在PAN公用语料库上对该方法进行了测试,得到的主要指标优于PAN10前3名。目前已将该方法用于华南理工大学特色专业教学平台的作业查抄,取得了较好的效果。
其他文献
脊髓既是中枢神经系统的一部分,又是外周神经系统与高级中枢联系的桥梁,其结构和功能损害导致的疾病在临床上甚为常见,而且病因多种多样,表现千变万化,尤其是各种原因导致的
院细胞电生理研究室经过数月准备,建成进行成年大鼠海马脑切片和新生大鼠脊髓切片及其神经细胞内电位记录的实验台,并于11月2日成功地将微电极插入海马切片CA_1区神经细胞内
系统描述卷曲型乌龙茶的制作工艺对成茶品质的影响,以期为卷曲型乌龙茶的初制工艺提供参考。
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的研究端粒酶在甲状腺良恶性病变中活性状态,探讨端粒酶检测在甲状腺病变定性诊断中的价值。方法采用TRAP-PCR-ELISA对110份甲状腺组织进行端粒酶活性分析。结果24例甲状腺
利用周期伪随机(PN)序列频域能量集中在某些点上的特点,提出一种基于数据拟合的时变信道估计算法。该方法利用周期性PN序列的自相关特性,降低噪声和未知数据对导频的干扰;同时利用其周期性,实现对信道变化趋势的多点拟合;并在此基础上利用信道时间平均值对估计参数进行修正,以进一步提高估计精确性。仿真结果表明:与传统方法相比,该方法具有较优的误码率(BER)和均方误差(MSE)性能,尤其在低信噪比环境下性能
提出了一种基于图像内容和颜色分布的感知图像散列。先将图像尺寸规格化并分成小块,根据各块亮度矩阵的奇异值判断其是否属于复杂区域,由此得到复杂区分布索引表。计算各图像块Y分量的均值和R、G、B均值两两之差的最小值,构成表征亮度和颜色分布的特征向量,将它与复杂区索引组合并加密得到图像散列。实验结果表明,由此提取的图像散列对保持图像内容不变的JPEG压缩、平滑滤波、缩放等处理具有良好的稳健性,而对内容篡改
《房产测量规范》中对能否计算房屋建筑面积的,在层高上要求必须达到2.2米或超过2.2米以上。层高系指房屋的上下两层楼面,或楼面至地面,或楼面至屋顶面的垂直距离。这样就引出来两
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
会议