概率数据检索、挖掘及多层文本分类问题的研究

被引量 : 2次 | 上传用户:pengpengice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据检索与挖掘是一门不断发展的综合性交叉学科,涉及数据的存储、索引、检索、查询以及分析等多个方面。本文主要针对其中的三个重要问题进行了研究,主要内容和结论可以归纳如下:第一,研究针对概率空间数据的文本检索技术。不间断地跟踪、分析了Twitter数据在地理位置上和时间上的分布特征,发现存在大量空间文本检索的请求。从2011年11月至2012年5月,连续地收集带有地理位置标签的Twitter数据,分析发现存在大量位置不确定性,严重影响了空间文本检索结果的准确度和NDCG度量。研究旨在获得文本语义相关性强、空间可信度高的信息。首先,基于可能世界语义模型,定义top-(c,k)检索模式,以结合文本语义相关度和空间可信度两方面的语义。其次,分析现有的空间文本数据索引结构,利用IRTree混合索引结构索引概率空间文本数据,提出了文本相似度得分和空间可信度得分的增量式计算算法(ISA),按文本相似度得分递减的顺序逐个遍历空间文本对象。然后,设计了参数化的概率排序算法PRankc,与ISA算法相互配合,在线性时间内计算所有空间文本对象的top-c可信度;给出了优化策略,避免PRankc算法遍历全部空间文本对象;设计了统计模型估计PRankc算法中参数c的合理取值。最后,在真实的Twitter数据集上进行实验,实验结果表明,与其他检索方式相比,top-(c,k)检索模式能够获得更好的检索质量,并且采用优化策略的PRankc算法能够快速的完成检索任务。第二,研究针对概率事务数据的频繁项集挖掘技术。分析概率事务数据上频繁项集的语义,发现了基于期望值定义的期望频繁项集带来的语义缺失问题,提出了基于可能世界语义模型的概率频繁项集的概念,并考察了概率频繁项集的Apriori性质。设计了多项式时间的候选频繁项集的判定算法。分析确定环境下挖掘频繁项集的经典的Apriori算法,给出了概率频繁项集挖掘算法P-Apriori,按可信度递减地顺序、增量式地返回概率频繁项集。在概率事务数据上,对P-Apriori算法的项目概率分布敏感性进行测试,并测试了各种参数下挖掘算法的性能。实验表明,在各种挖掘参数下,P-Apriori算法均能在理想的时间和空间内获得挖掘结果,算法执行时间大体上与数据集规模呈线性关系。第三,开展了多层文本分类技术的研究,分析多层文本分类技术面临的两个关键问题:数据偏斜问题和错误传播问题。提出了基于路径的语义向量的概念,用于理解概念树结构中类别的准确语义。基于类别的路径语义向量表示和文本相似性度量,设计训练样本增强策略,为训练样本稀疏的类别收集潜在的、可靠的训练样本。考察了概念树和训练样本集中的先验信息,提出了利用类别出现先验信息减少错误传播,并引入类别同现先验信息,纠正发生在高层的分类错误。收集、整理真实的开放目录项目(ODP)数据,并在其上进行实验,验证方法的可行性和有效性。实验结果表明,在采用稀疏类别增强策略和错误传播纠正策略时,在Mi-F1度量下,贝叶斯分类器和支持向量机的性能均有很大的提高。
其他文献
在当今经济全球化时代的背景下,高技术俨然成为最热门的代名词,高技术产业的发展得到了世界各国的关注。高技术产业不仅是一个国家科技实力的象征,更能推动一个国家经济的快速发
节能坡设计是高速铁路节省牵引能耗和降低运营成本的有效途径之一。根据高速铁路特点,提出高速铁路出站节能坡的设计方法和计算算法。采用计算机仿真计算和数据分析方法,对最
通过田间小区试验,对比研究了种植豆科牧草红豆草Onobrychis viciaefolia和紫花苜蓿Medicago sativa的产草量和对土壤肥力影响的差异,结果表明:种植当年红豆草产草量大于紫花
目的探讨颅内静脉窦血栓形成的影像学诊断。方法回顾性分析15例经临床和影像检查确诊的静脉窦血栓患者中,行CT检查11例,MRI+MRV检查15例,DSA检查8例。结果 CVST直接征象12例,
一直以来,上市公司都将盈余管理作为调节盈余达到自身利益最大化的有利手段,而报表上反映的利润等项目又是各个企业的利益相关者获知企业信息的重要窗口,所以盈余管理长久以
目的:探讨双侧肾上腺淋巴瘤CT、MRI动态增强影像特征。方法:回顾性分析经手术病理证实的双侧肾上腺非霍杰金淋巴瘤6例。其中继发性非霍杰金淋巴瘤5例,原发性非霍杰金淋巴瘤1
<正> 世界上任何一个体育竞赛项目,都没有像职业拳击拳王争霸赛那样,彻头彻尾的“商业化”。也没有任何一个体育竞赛项目,像举办职业拳击拳王争霸赛那样,由体育经纪人或体育
清末,在内忧外患的国情下,改良派和革命派对如何救国提出了两条不同的政治道路,而以何种态度对待满汉矛盾则成为两派政论的焦点。在这种政治文化背景下,两派作家们的小说创作也不
随着市场和生产活动的持续全球化,近几年的一个研究热点是要探讨产业集群(Industrial Clusters),尤其是发展中国家的产业集群,作为一个地方性生产系统如何在国际分工中提高竞
随着数字集成电路设计复杂度和集成度的不断上升,单位面积晶体管数目急速增长,测试向量的数目也急剧增加。伴随而来的是更高的测试频率以及更长的测试时间,使得测试功耗过高的问