短文本指纹的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:kenmaxabc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪信息技术的飞速发展,带动了全球信息网络化革命的迅猛发展。全球信息网络的普及与共享给人们的日常生活带来了不小的便捷。除此以外,以因特网为主体的信息高速公路已经渗透到社会生活的各个领域,为人类提供了信息共享和交流的现代化通道。移动通信网络发出的手机短消息、即时通信软件发出的即时消息、在线聊天室的聊天记录、博客评论、新闻评论、BBS标题等都产生了数以万计的文本,这些文本长度较短,具有广泛的外延,我们称其为短文本。短文本指纹作为验证短文本的唯一标识,在短文本研究领域中起到举足轻重的作用。只有内容相同的短文本才具有完全相同的指纹值,同理,具有相同指纹值的短文本,我们可以认为这两个短文本的内容是相同的。一旦建立起指纹值和短文本之间的一一对应关系以后,我们就可以利用短文本指纹进行一系列的数据挖掘工作,例如聚类,去重,去冗余等。本课题首先受到Hownet和Wordnet的启发,着重分析概念之间联系关系。通过比较JSON格式和XML格式的优劣,提出用JSON格式构建概念词典的可行性,并给出了构建概念词典的算法。为使该词典具有高效的检索效率,我们设计了概念编码和索引结构达到一致对应的索引表,使概念得到高效的归结。其次,采用了ICTCLAS分词技术,使短文本逐步化简为一个个有效的分词。其中比较重要的一点是,我们对一些特殊的情况做了一定的处理,例如对数字、时间、日期、叠词进行拆分和合并,使调整优化后的分词结果具有比较高的准确率。再次,众所周知,特征值是指定领域中最为核心和本质的概念。受此启发,我们给出了特征值的定义和具体的抽取特征值的办法。在特征值提取的基础上,我们提出了短文本指纹的概念和具体的短文本指纹编码过程,即STF(Short Text Fingerprint)方法。最后,通过介绍实验环境以及主要功能模块之间的关系来分析STF方法对研究短文本相似度的可行性,并且和现有的4种短文本相似度计算方法进行比较,验证了STF能够有效的分析出短文本的唯一性,提高后期短文本挖掘工作的准确性和有效性。
其他文献
嵌入式分布式软件具有实时性、计算单元分布等特点,传统的串行调试方法和技术难以直接应用于该类软件的调试,如何针对该类软件特点设计和实现有效调试是软件调试中的重要问题。
1988年蔡少棠教授提出了细胞神经网络(Cellular neutral network,简称CNN),这种网络结合了人工神经网络和细胞自动机的优点。CNN是一种局部互联的神经网络变体,整个网络由大规
因为没有强大的数据挖掘工具协助人们去理解数据,挖掘潜在的有效信息。海量未被挖掘数据中所潜藏的有效信息催促着数据挖掘技术的诞生。聚类分析是最为有力的数据挖掘工具,它
移动Ad Hoc网络是一组带有无线收发装置的具有路由功能的节点组成的无中心、自组织的多跳无线网络,在军事、偏远野外、救灾抢险等领域有极为广泛的用途。由于移动终端本身由电
数字阅读已然成为全民阅读的主流方式之一。海量电子图书的有序整理、存储及提供更为友好的搜索、阅读体验成为一个重大的挑战。元数据是解决该难题的关键。完备的电子图书元
数据挖掘应用广泛,关联规则挖掘已成为数据挖掘领域的一个重要研究方向。然而,大部分关联规则的表示方法都需要用户在数据挖掘领域具备一定的专业知识才能理解,不利于普通用
数字网络与多媒体技术的高速发展,使得数字图像和视频在信息传递的媒介中占的比重越来越大。图像增强和图像处理的方法层出不穷,图像色彩传递是常见的图像处理技术,它将一幅图像
伴随着经济快速发展,城市化规模不断扩大、交通运输量需求增大。作为绿色环保的城市轨道交通,因其准时、快捷,正受到大、中型城市的青睐。轨交客流预测是城市轨道交通建设的
某科技集团公司随着企业的发展,产业链的扩张,面对全球化的布局,提出了“两地研发,三区设计制造,全球组装交货”的全球化布局策略,使企业从20世纪末开始,进入了高速发展的轨
图像匹配就是寻找不同时间、不同传感器或不同条件下(天候、照度、摄像位置和角度等)获取的两幅或多幅图像之间相同部分对应关系的过程,它已经被广泛地应用于遥感数据分析、计