基于维基的深度多标签多类别文本分类系统

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ytlytl1009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量信息的存在使得人们对搜索引擎提出了更加智能化和语义化的需求,如概念搜索、语义搜索引擎等。实现它们的前提是需要对文本进行更精确更深层的多类别标注和主题理解,这是传统的分类方法很难满足的。目前常用的文本分类方法主要有支持向量机(Support Vector Machine,SVM)、k值近邻(k-Nearest Neighbor,kNN)及Na?ve Bayes模型等,实验表明在传统文本分类应用中,将文本分到小规模目标类别的任务中这些算法的表现是优秀的,但在面对大规模多层次类别体系时,它们的能力是相当有限的。特别是,在面对组织关系复杂的图结构类别体系时,传统方法的可操作性,时间复杂性,分类效果都是不能让人满意的。基于维基的深度多标签多类别文本分类WDMLC(Wiki-Based Multi-Lable Deep Text Classification)方法是基于维基丰富的语义数据而提出的。WDMLC主要由三部分构成。首先,在文本中匹配维基百科的领域专业概念和类别标签作为文本的特征,并利用维基中概念间的相关性对特征集合进行整理。其次,利用概念和类别间的关系快速生成一个候选类别集合。然后,最重要的是分析候选类的子图连通聚集性,利用过滤策略、基于图的权值贡献模型,深层类别概率推算模型,确定能表达文本主题的最合适的深层类别,即更下层类别不能用于表达文本主题。另外,模型产生所有与文本主题相关类别间的关联关系的视图,能给用户提供更直观的文本相关领域知识。最后通过维基数据集对提出的方法进行了测试。试验表明基于维基图结构的分类体系在针对深层多标签文本分类应用上,该方法的平均准确率、召回率和F-measure值分别达为76%,85%,80%,较目前基于层次的top-down深度分类方法的效果有较大的提高。并且基于维基的深度多标签分类模型有传统方法很难达到的易操作、快速等优势。
其他文献
树结构数据以其表达事物清晰、完整等优势,在计算机网络、Web挖掘、生物信息分析、XML文档挖掘等领域有着日趋重要的应用。本文针对有序标号树,以最右路径扩展技术为基础,从
概率密度的估计既是传统的概率论与数理统计的重点,也是统计学习理论的重要研究内容。概率密度的估计具有广泛的应用,它不仅是信息熵理论的基础,还可以应用到音频及视频信号的无
随着我国经济水平的不断提高,汽车保有量迅速增长,随之而来车辆的安全问题日益凸现,车辆遭受人为破坏的情况时有发生。目前已有的车载监控系统大多数是针对行驶车辆安全问题或车
随着Internet的迅速发展、网络带宽的提高以及音频视频编码技术的发展,VoIP(voice over internet protocol)在中国的业务也在迅速地增长。与传统PSTN电话相比,VoIP拥有方便快
越来越多的应用软件和应用系统走进了人们的生活并改变着人们的生活习惯,他们各自具有独立的优点和作用。但是人们的需求也是不断改变的,人们日益需要能实现各应用软件与系统之
煤炭业作为国民经济的支柱产业,安全生产和保障矿工的生命安全是一个永恒的主题,井下员工的具体位置与分布情况等重要数据不能及时传到井上监控中心,是矿难事故频发而营救效
秘密共享是信息安全和密码学领域中的重要研究方向,能够有效地保障信息在保存、传输和使用过程中的安全性,克服了传统密码体制中权利过于集中而被滥用的缺点,提高了系统的安
协进化算法是近年来兴起的一种算法,它的发展时间虽然不长,但已经成功地应用到一些优化问题中,包括许多NP问题。它从传统的进化算法发展而来,而又有自己的特点:在协进化算法
信息在计算机系统中存在的形式——数据,越来越成为企业、单位和个人最重要的财富,它是决策的依据,是无形的资产,而且具有准确性高和传递性快等特点,大大的提高了工作效率和
概念格是一种有效的数据挖掘与知识发现工具,分类是数据挖掘中的重要研究内容之一。本文针对分类任务,从提高概念格的构造效率以及分类规则的分类效率角度出发,研究了面向分