论文部分内容阅读
21世纪信息技术的飞速发展,带动了全球信息网络化革命的迅猛发展。全球信息网络的普及与共享给人们的日常生活带来了不小的便捷。除此以外,以因特网为主体的信息高速公路已经渗透到社会生活的各个领域,为人类提供了信息共享和交流的现代化通道。移动通信网络发出的手机短消息、即时通信软件发出的即时消息、在线聊天室的聊天记录、博客评论、新闻评论、BBS标题等都产生了数以万计的文本,这些文本长度较短,具有广泛的外延,我们称其为短文本。短文本指纹作为验证短文本的唯一标识,在短文本研究领域中起到举足轻重的作用。只有内容相同的短文本才具有完全相同的指纹值,同理,具有相同指纹值的短文本,我们可以认为这两个短文本的内容是相同的。一旦建立起指纹值和短文本之间的一一对应关系以后,我们就可以利用短文本指纹进行一系列的数据挖掘工作,例如聚类,去重,去冗余等。本课题首先受到Hownet和Wordnet的启发,着重分析概念之间联系关系。通过比较JSON格式和XML格式的优劣,提出用JSON格式构建概念词典的可行性,并给出了构建概念词典的算法。为使该词典具有高效的检索效率,我们设计了概念编码和索引结构达到一致对应的索引表,使概念得到高效的归结。其次,采用了ICTCLAS分词技术,使短文本逐步化简为一个个有效的分词。其中比较重要的一点是,我们对一些特殊的情况做了一定的处理,例如对数字、时间、日期、叠词进行拆分和合并,使调整优化后的分词结果具有比较高的准确率。再次,众所周知,特征值是指定领域中最为核心和本质的概念。受此启发,我们给出了特征值的定义和具体的抽取特征值的办法。在特征值提取的基础上,我们提出了短文本指纹的概念和具体的短文本指纹编码过程,即STF(Short Text Fingerprint)方法。最后,通过介绍实验环境以及主要功能模块之间的关系来分析STF方法对研究短文本相似度的可行性,并且和现有的4种短文本相似度计算方法进行比较,验证了STF能够有效的分析出短文本的唯一性,提高后期短文本挖掘工作的准确性和有效性。