面向新闻网页的主题识别及自动分类系统的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cx313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展与普及,网络资源正在呈现爆炸式增长,其主要表现形式则是以网页这一载体而存在的。虽然互联网丰富的信息资源带来了一定的便利性,但是用户无法在海量的信息资源中快速定位到自己所需的信息,因此网页分类这个问题就应运而生。随着分类技术的发展,网页分类对准确率和效率提出了更高的要求;此外新闻网页作为日常获取信息的媒介,大多数新闻网站的分类标准并不统一,采用分类技术可以有效地对不同新闻网站的网页进行统一标准化分类与管理。首先,本文为明确系统的需求,对系统的整体任务概述、功能需求和业务整体过程进行了分析,阐明了设计新闻网页主题识别及自动分类系统的必要性。其次,针对新闻网页特性表示问题,对网页分类特征进行分析,完成网页内容特征选择工作;研究分析了LDA主题模型,完成新闻网页文本的主题识别,获取主题词,将得到的内容特征和主题词共同作为文本特征;提出一种特征项、特征向量和标签结构位置三元组的方式对网页特征集进行表示。通过对每一个文本特征引入对应的结构特征,并将其转化为结构向量,完成联合特征向量构建。再次,针对网页分类模型问题,分析与研究了机器学习分类模型和卷积神经网络分类模型。基于改进的文本和结构联合特征向量,提出一种网页文本和结构联合特征的卷积神经网络分类模型,使用该模型对新闻网页语料库进行分类。同时,将从语义空间上进行改进的关键词提取算法用于网页文本关键词的获取,完成网页文本概要展示。基于上述的研究与分析,本文明确了分类系统的整体架构和逻辑功能模块,其中包括数据获取、新闻网页分类特征分析和构建分类模型三个核心功能模块。针对系统的工作要求,重点设计基于联合特征的卷积神经网络分类模型,对数据集网页进行分类测试,同时与机器学习分类模型进行对比验证分析,准确度提高3%~4%左右,进一步验证了模型的性能。最后,利用本文的设计方案,设计并完成了面向新闻网页的主题识别及自动分类系统。系统可以应用于面向新闻网页的统一标准化分类管理,具有广泛的应用价值。
其他文献
侵蚀过程导致了泥沙颗粒在坡面的重分布及伴随颗粒迁移的有机碳的空间异质性。泥沙颗粒的空间分布由其迁移距离决定,而颗粒的迁移距离不仅与其自身的沉降速度有关,同时也受坡
随着经济的发展和城市规模的扩大,我国地下排水管道建设发展迅速,在交通荷载和地震荷载作用下地下排水管道灾害事故日益频发,造成其渗漏、脱空和断裂等情况,严重影响环境与群
近年来,光致变色材料由于其特有的性质已经被广泛应用于感光材料,电子信息储存等多个领域。由于可见光对各类光学装置和生物细胞的破坏性及危害性都比较小,所以在可见光照射
随着大数据时代和人工智能领域的发展,数据的存储和挖掘处理凸显的愈加重要,同时出现了数据质量降低的问题。数据清洗能够有效处理数据质量问题。以国内某电商网站开展促销活动前一个月的用户点击日志数据作为清洗对象,针对其存在的重复数据问题,采取合适的清洗方法进行处理,目的是提高日志数据的清洗效率。对于日志重复数据的清洗,按照重复数据的类型分为两大块内容,一块是清洗完全重复数据,一块是清洗相似重复数据。首先,
Orlicz-Bochner空间为微分方程、向量测度等问题的研究提供了更为合理的理论框架,I-凸性、Q-凸性、非-ln(1)旧性质在不动点理论等领域有重要价值.本文主要研究了这些几何性质
近年来,环境污染、能源危机等问题的日益严峻促使分布式发电技术得到了受到了广泛的关注。作为分布式发电单元接入大电网的有效途径,微电网可以根据情况工作在不同的模式下,
家蚕(Bombyx mori.)在中国已有8500余年的驯养历史,是一种重要的经济昆虫。经过长期人工选择后,家蚕对各类化学农药的抗性较弱,由于桑叶受到农药污染造成家蚕中毒,引起吐丝障
楠木为我国二级渐危保护树种,具有较高的医学价值、经济价值及观赏价值,由于人类不合理的采伐及不完善的经营保护措施,野生楠木资源锐减。分析楠木结构特征及生长规律,制定林
目的:开展双歧杆菌三联活菌片联合加味黄芪汤治疗气虚型老年功能性便秘的随机对照试验,对比其联合用药与双歧杆菌三联活菌片联合聚乙二醇4000散在老年功能性便秘中的临床疗效
随着装配式建筑在我国的发展以及节能环保观念的增强,越来越多的装配式墙板构件中加入了保温隔热材料。目前在我国装配式建筑中,保温材料多是附着在承重构件上,而装配式保温