文本相似性度量中参数相关性与优化配置研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:yh124712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络及应用技术的飞速发展,Internet成为信息存储和交流的主要渠道,但同时也引发了信息爆炸式增长的灾难,因此数据挖掘、信息检索和文本分类等信息处理技术应运而生,作为这些信息处理技术的基础,文本相似性度量技术有着深刻的研究意义和广泛的应用前景。本文针对文本相似性度量中的相似度阈值、准确率、召回率、shingle滑动窗口大小、shingle权重门限、shingle抽取率和文本属性等参数相互影响、关系复杂的问题,首先以文本相似性度量的实现过程为线索,对文本数学表示、特征生成、特征选择和相似度计算等关键技术进行了详细的分析;在此分析基础上实现并比较了两种最具典型性的文本相似性度量算法:基于特征向量的算法和基于shingle的算法;然后结合shingling算法的实验,研究了这些参数之间的相关性,最后提出了shingle滑动窗口大小、shingle权重门限和相似度阈值等参数可优化配置的建议,分析与设计了相似度阈值等参数可适应的相似性度量算法。通过某基金2009年的7378个项目申请书的比对分析,结果表明:这种相似度阈值等参数可适应的算法不但适用于大规模的文本集合,而且在短小的文本集合中进行相似性度量也具有很高的实际利用价值,其准确率和召回率均可高达95%以上。
其他文献
射频识别(Radio Frequency Identification, RFID)是一种利用射频信号自动识别目标对象并获取相关信息的技术,识别工作可自动完成无须人工干预,相关设备可工作于各种恶劣环境
60年,弹指一挥间。但正是在这60年间,中国经历一场波澜壮阔的巨大变迁,写就了光辉的历史篇章,造就了令世界瞩目的“东方奇迹”。60年跨越,60年辉煌。旧中国遗留下来的破旧汽
浅层地震折射波法自上世纪30年代提出以来,被广泛应用于工程地质调查中,无论在仪器野外采集、资料处理与解释还是在理论方法的基础研究方面都取得了巨大的进步。同其他地球物理
随着互联网技术的迅猛发展,网络流量的爆发式增长和网络协议的灵活使用导致网络威胁越来越多。这些威胁都可以通过网络流量识别得到很好的解决。面对日趋复杂的网络环境,能够
图像彩色化属于图像恢复领域的研究内容,长久以来都是图像处理领域的研究热点。彩色化技术是一种给年代久远的旧电影或影像上色的计算机处理技术。一方面,由于设备条件限制,
TCP(Transmisson Control Protocol)协议是目前网络通信中广泛采用的传输层控制协议,它为用户提供了可靠、健壮的端到端数据通信服务,在保障网络通信质量方面起着非常重要的作
网络业务流呈现自相似特性给网络流量的建模和分析提出了挑战,传统的短相关模型偏差较大,寻找和研究更合适的模型具有重要意义。从性能、复杂度、使用场合等方面对比了几种常
无线传感器网络作为无线通信网络的一个新的研究领域,具有十分广阔的应用前景。本文主要的研究内容是无线传感器网络路由协议的设计,与传统Ad hoc网络相比,无线传感器网络具
合成孔径雷达(SAR)具有全天候、全天时的特点,可方便地获得同一地区不同时段的图像。SAR图像变化检测技术通过对不同时段SAR图像的综合分析,检测同一场景是否有变化发生。SAR
随着TD-LTE无线移动通信技术的正式商用,人们生活发生了巨大的变化,对无线网络也有了更多的遐想。在GSM时代,用户只能体验单一的窄带标清语音通话和速率极低的数据业务,漫长