基于URL+文本的网页主题分类模型研究

被引量 : 3次 | 上传用户:l7610237
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,网页的数量呈现爆炸式的增长,作为信息的载体,互联网上每时每刻都在产生大量主题各异的文本,且数据量巨大。如何从海量的、动态的信息资源中获取所需的信息,已日益成为互联网信息应用的关键问题。目前,通常利用数据挖掘中的分类技术对这些网页进行组织归档,从而围绕用户有效地改善网页服务。网页分类研究主要以文本分类为基础,以单个网页为处理对象,整个过程存在大量的计算,对于大规模的流数据不具备适用性。而且考虑从用户行为角度出发,部分特定人群会有较为鲜明的HTTP访问偏好,因此,固定单一的分类流程不能体现用户的行为特点,且分类效率很低。针对传统的基于内容的网页分类方法存在的问题,本文提出了一种基于URL+文本的网页主题分类方法,结合不同场景的需求,设计并实现了两种分类模型。(1)基于词向量的网页分类模型:针对主题平稳的网页,预先定义军事、财经、娱乐、体育等八个主题,不同于传统分类算法中对于文本的向量表征,词向量模型考虑词与词之间语义上的相似性,同时在网页正文抽取上结合网页结构特点进行改善,并且采用基于密度的聚类算法进一步优化。(2)基于URL+关键词的网页分类模型:针对主题鲜明的网页,利用URL本身包含价值信息以及网页正文中存在大量特定关键词重复出现的特点,提出了URL切分算法,同时改进TextRank算法进行关键词抽取,最终通过基于朴素贝叶斯的算法模型完成对未知网页的分类。(3)实验验证了两种分类模型在面向不同场景下分类的可行性和有效性,分别给出该分类模型对互联网不同主题类别网页的分类效果。
其他文献
随着经济全球化发展趋势的日渐增强以及人们生活水平的不断提高,许多国家已逐渐把地理教育纳入到国民教育体系之中,充分肯定了其在幼儿全面发展中的作用。但我国对地理教育的
【目的】研究复合菌发酵饲料对生长育肥猪结肠发酵、结肠黏膜与结肠内容物菌群组成的影响。【方法】采用气相色谱法检测育肥猪结肠内容物中挥发性脂肪酸浓度;采用Mi Seq高通
本研究旨在探讨幼儿教师人生抱负、时间管理和活力之间的关系。首先,本研究主要采用文献法和问卷调研法,采用了“人生抱负指数量表”、“时间管理行为量表”、“主观活力量表
近来年,人们对教师发展有了新的理解与主张,尤其教师自主发展及其促进问题已成为当前国内外教育改革研究与实践密切关注的热点议题。对教师自主发展的研究,一方面能从内在机
猪伪狂犬病是由伪狂犬病毒(Pseudorabies virus,PRV)引起的不同阶段猪表现出不同症状的一种传染病,目前在我国广泛流行。本研究针对GenBank中PRV的gE基因序列进行比较分析,在
激励能够高效地调动幼儿教师的主动性、创造性,它能满足幼儿园管理者不同需求,培养教师的积极心理和坚强意志。尽管幼儿教师专业发展的途径、方式方法丰富多样,但如果不采取
近年来国家对学前教育越来越重视,相继出台了一系列重要的文件和指示。2010年7月28日中共中央、国务院印发了《国家中长期教育改革和发展纲要(2010——2020)》,正式将学前教
改革开放以来,与中国建立和完善社会主义市场经济体制的大进程一致,中国医疗行业供方中公立医疗机构的比例下降,民营医院数目已经超过公立医院,公立医疗机构享有的经营自主权
<正>为把党的十八大和十八届三中全会关于立德树人的要求落到实处,2014年3月教育部印发了《关于全面深化课程改革落实立德树人根本任务的意见》(以下简称《意见》),为我国新
目的:研究中药复方制剂活血通脉颗粒对兔颈动脉粥样硬化(Carotid Arteriosclerosis,CAS)的病理组织结构、血脂TC、TG、HDL-C、LDL-C测定、白介素-6(IL-6)、细胞间黏附分子-1(