面向互联网文本的大规模层次分类技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:jin_sarah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,互联网数据以及电子数据急剧增长。为了有效地组织和管理互联网上的海量文本信息,通常按照树型或者有向无环图结构的主题类别层次对互联网文本进行分类,将其组织为一个包含数千、甚至数万个类别的分类目录。通过建立全面、精确的互联网分类目录,可以实现快速、精细的网络访问控制。在这个过程中,大规模层次分类问题研究如何将互联网文本准确地分到类别层次中的各个类别。面向互联网文本的大规模层次分类技术是构建互联网分类目录的基础,是构建健康、和谐的互联网环境的重要技术手段,同时也是信息检索、绿色上网、网络信誉管理、安全过滤等网络应用的基础。与传统文本分类不同,大规模层次分类的分类体系规模巨大,缺少足够有效的训练语料,其分类对象以web文本为主,同时正向社会化文本演进。这些特征使其与传统的文本分类问题有很大差别,在技术上也带来了更大的挑战。本文在分析了相关工作的基础上,主要针对大规模层次分类的分类体系规模巨大、稀有类别普遍、分类学习缺少标注样本、分类对象向社会化文本演进等四个特性进行了研究,主要研究内容和成果包括:1)对大规模层次分类问题进行了综述。给出了大规模层次分类问题的定义,分析了大规模层次分类问题的求解策略;对大规模层次分类问题的求解方法加以分类,在分类的基础上,介绍了各种典型的求解方法并进行对比;最后总结了大规模层次分类问题求解方法并指出了各种分类方法的适用性。2)针对类别层次规模巨大的特性,研究了基于候选类别搜索的两阶段分类方法,通过搜索类别层次中与待分类文档相关的候选类别,将大规模分类问题降低为一个规模较小的分类问题,然后根据候选类别的样本训练分类器,对文档进行分类。首先对候选搜索相关概念进行定义并提出了候选搜索的量化评价指标;然后分析了候选搜索问题的计算复杂度,通过将集合覆盖问题规约到候选搜索问题,证明了候选搜索问题是NP难的;进一步提出了一个基于贪心策略的启发式候选搜索算法,证明了该算法采用的贪心策略是一个局部最优选择,并且该算法是多项式时间复杂度;在分类阶段,根据候选类别在类别树中的上下文信息,利用祖先类别区分不同候选类别。最后,结合该候选搜索方法和祖先辅助策略实现了一个两阶段分类方法,综合判断文档类别。我们采用ODP简体中文目录中的网页数据进行了实验论证,实验结果显示,相比已有算法,本文提出的候选类别搜索算法在候选类别搜索的准确率上提高了大约7.5%,在此基础上,结合类别层次的两阶段分类方法取得了更好的分类效果。3)针对稀有类别实例稀少的特性,利用LDA主题模型挖掘文档的主题特征,研究基于LDA特征抽取的层次式分类方法。在主题类别层次中,一个主题类别通常包含一系列的子话题类别,文档中的主题特征能够很好地反映其所属的类别,对此我们采用LDA模型进行主题特征抽取,将文档从词特征空间转化到主题特征空间,通过特征降维以减小文本数据的高维稀疏问题。另外,结合类别层次进行样本数据分组,以增加稀有类别的训练样本。由于LDA主题抽取的时间开销比较大,我们采用了层次式分类模型,以降低分类学习和预测的时间开销。最后,结合网页数据的特点,采用适合处理小样本、高维模式问题的支持向量机模型训练两类分类器,提出了一个top-down分类框架进行分类的训练和预测。我们在ODP简体中文目录上进行实验测试,同基于特征词的top-down分类方法相比,本文提出的方法能够有效提高web主题目录中稀有类别的分类性能。4)针对专家编制的分类体系缺少语料的问题,研究了无标记数据分类方法。传统的文本分类方法需要标注好的语料来训练分类器,但是人工标记语料代价昂贵。对此,本文结合类别知识和主题层次信息来构造web查询,从多种web数据中搜索相关文档并抽取学习样本,为监督学习找到分类依据,并结合层次式支持向量机进行分类器的学习。针对web搜索结果中含有噪声数据的问题,采用以下三个手段来提高分类学习效果:1)利用类别知识和类别层次信息构造web查询,采用节点的标签路径生成查询关键词;2)利用多数据源产生样本,同时从谷歌搜索引擎、维基百科这两个数据源搜索相关页面和文档,获取全面的样本数据;3)结合类别层次对样本数据分组,为每个类别获得更加完整的特征源,利用主题类别层次学习分类模型。最后实现了一种基于无标记web数据的层次式文本分类方法。我们在ODP简体中文目录数据集上进行实验测试,本文提出的方法在分类精度上接近于有标注训练样本的监督分类方法,但是避免了人工标注样本的工作。5)针对社会化文本分类对象,提出了一个用户主题模型UTM,根据微博的不同生成方式,将用户兴趣分为原创兴趣和转发兴趣进行分析;采用吉布斯抽样法对模型进行推导,分别发现用户的原创主题偏好和转发主题偏好,然后以此计算用户兴趣词。根据UTM模型发现的用户兴趣词,可以实现微博用户的关键词标记和标签推荐。我们在新浪微博数据集上验证了UTM模型的性能表现,实验结果表明在微博用户兴趣词标记上,其准确率高于已有方法。针对用户兴趣词粒度太细,不能有效实现用户分类的不足,随后提出了一个有监督的产生式模型u LTM,该模型将用户偏好表示为标签和主题,对用户标签进行主题建模。u LTM将用户标签类别作为一个观察变量,将其引入产生式模型,利用主题模型的无监督学习机制发现微博中的隐含主题模式,利用有监督学习发现用户标签的主题特征分布,然后推导微博用户的主题类别,最终实现微博用户的准确分类。我们在Twitter数据集上验证了u LTM模型在微博用户分类上的性能表现,实验结果表明该模型适合对主题含义明确的类别标签进行建模与分类。综上所述,本文针对大规模层次分类的分类体系规模巨大、稀有类别普遍、分类学习缺少标注样本、分类对象向社会化文本演进等四个特征,研究了大规模层次分类的候选类别搜索、稀有类别分类、无标记数据学习、社会化文本建模等关键技术,对于互联网文本信息的分类和主题挖掘工作具有重要的理论意义和应用价值。
其他文献
在传统育苗嫁接方法的基础上,提出一种新的嫁接改良方法,希望能够进一步提高嫁接成活率,获得更高质量的苹果品种。
中药制剂生产正面临最好的机遇与最严峻的挑战,必须抓紧国际GMP的实施,带动中药现代化、国际化。从中药制剂生产过程可分为中药前处理、中药提取和剂型制造三个阶段的观点出发,
2005年春,在林业有害生物普查中发现,油松枝梢大部分变黄,翌年新梢被害严重,经专家鉴定为松纵坑切梢小蠹。在延庆属于首次发现,对其在延庆县的生活规律并不清楚,该虫虫体大部
解读企业家创新动力与企业家精神,对探索企业家激励理论并创新激励机制和弘扬企业家精神有重要作用。本文述评了熊彼特和韦伯关于企业家创新动力的观点;从需要的维度论述了需
探讨不同浓度维生素C和培养时间对小鼠体细胞核移植胚胎发育潜能的影响。不同浓度维生素C(0、50、100mg/L)分别处理小鼠核移植重构胚,50 mg/L维生素C浓度组处理重构胚18 h,获
<正>一、重提"观演关系"老话题"观演关系"是戏曲界经常讨论的一个老话题,很多有经验的剧作者在创作过程中都会考虑到观众的审美习惯和接受心理,所以在戏曲史上留下了很多久演
在心力衰竭患者中,单纯性舒张性心力衰竭(DHF)约占30%~50%,高龄和女性患者则更高。DHF主要是由于左室舒张功能不全(DD)引起左室充盈压的增高最终导致心力衰竭,故正确认识DD并定量评价左
新媒体时代,高校思政工作由于受到多元网络文化的冲击,中心地位有所减弱,难以有效发挥思想引领作用,大学生的世界观、人生观、价值观受到其他意识形态的不良影响,出现了一系
针对某动力总成测试过程中振动、装夹不稳等问题进行了分析,重点从设计原则、夹具体、工装支架、连接法兰等方面论述测试工装夹具的设计,较好地解决了某动力总成稳定装夹问题。
罪犯个别教育谈话是监管改造工作的重要内容,监狱警察要充分认识到其重要性,是获取信息、解决个案问题、情感交流的重要途径。警察在对罪犯进行个别谈话教育前,要树立自身形