论文部分内容阅读
数据检索与挖掘是一门不断发展的综合性交叉学科,涉及数据的存储、索引、检索、查询以及分析等多个方面。本文主要针对其中的三个重要问题进行了研究,主要内容和结论可以归纳如下:第一,研究针对概率空间数据的文本检索技术。不间断地跟踪、分析了Twitter数据在地理位置上和时间上的分布特征,发现存在大量空间文本检索的请求。从2011年11月至2012年5月,连续地收集带有地理位置标签的Twitter数据,分析发现存在大量位置不确定性,严重影响了空间文本检索结果的准确度和NDCG度量。研究旨在获得文本语义相关性强、空间可信度高的信息。首先,基于可能世界语义模型,定义top-(c,k)检索模式,以结合文本语义相关度和空间可信度两方面的语义。其次,分析现有的空间文本数据索引结构,利用IRTree混合索引结构索引概率空间文本数据,提出了文本相似度得分和空间可信度得分的增量式计算算法(ISA),按文本相似度得分递减的顺序逐个遍历空间文本对象。然后,设计了参数化的概率排序算法PRankc,与ISA算法相互配合,在线性时间内计算所有空间文本对象的top-c可信度;给出了优化策略,避免PRankc算法遍历全部空间文本对象;设计了统计模型估计PRankc算法中参数c的合理取值。最后,在真实的Twitter数据集上进行实验,实验结果表明,与其他检索方式相比,top-(c,k)检索模式能够获得更好的检索质量,并且采用优化策略的PRankc算法能够快速的完成检索任务。第二,研究针对概率事务数据的频繁项集挖掘技术。分析概率事务数据上频繁项集的语义,发现了基于期望值定义的期望频繁项集带来的语义缺失问题,提出了基于可能世界语义模型的概率频繁项集的概念,并考察了概率频繁项集的Apriori性质。设计了多项式时间的候选频繁项集的判定算法。分析确定环境下挖掘频繁项集的经典的Apriori算法,给出了概率频繁项集挖掘算法P-Apriori,按可信度递减地顺序、增量式地返回概率频繁项集。在概率事务数据上,对P-Apriori算法的项目概率分布敏感性进行测试,并测试了各种参数下挖掘算法的性能。实验表明,在各种挖掘参数下,P-Apriori算法均能在理想的时间和空间内获得挖掘结果,算法执行时间大体上与数据集规模呈线性关系。第三,开展了多层文本分类技术的研究,分析多层文本分类技术面临的两个关键问题:数据偏斜问题和错误传播问题。提出了基于路径的语义向量的概念,用于理解概念树结构中类别的准确语义。基于类别的路径语义向量表示和文本相似性度量,设计训练样本增强策略,为训练样本稀疏的类别收集潜在的、可靠的训练样本。考察了概念树和训练样本集中的先验信息,提出了利用类别出现先验信息减少错误传播,并引入类别同现先验信息,纠正发生在高层的分类错误。收集、整理真实的开放目录项目(ODP)数据,并在其上进行实验,验证方法的可行性和有效性。实验结果表明,在采用稀疏类别增强策略和错误传播纠正策略时,在Mi-F1度量下,贝叶斯分类器和支持向量机的性能均有很大的提高。