面向Web文本挖掘的主题网络爬虫研究

来源 :电子科技大学 | 被引量 : 8次 | 上传用户：lyk_csdn

【摘要】

：

随着Web3.0时代的到来,互联网中Web页面的数量和复杂性呈现出爆炸性增长趋势,伴随的是包含在Web页面中的信息也呈几何数量级增长。Web页面信息通常是由Web页面中的文本体现出

【作者】

：

陈晨

【出处】

：

电子科技大学

【发表日期】

：

2017年01期

【关键词】

：

Web文本挖掘主题网络爬虫 Node.js 文本表示模型 BIRCH算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Web3.0时代的到来,互联网中Web页面的数量和复杂性呈现出爆炸性增长趋势,伴随的是包含在Web页面中的信息也呈几何数量级增长。Web页面信息通常是由Web页面中的文本体现出来的,因此Web文本数据中隐藏着丰富的,对用户有价值的知识和规则。但是由于Web文本数据半结构化、实时性和离散性等特点,用户很难直接从如此复杂的数据集中获取到自己需要的知识。因此如何有效的从海量的Web本文数据中挖掘出用户真正关心的信息和知识,并以用户能够理解的方式呈现出来,是当下非常热门的研究课题。本文主要从获取Web文本数据和对Web文本数据的分析两方面着手,对如何准确且高效的获取用户所需要的Web文本信息,并挖掘其中有价值的知识展开研究。本文具体的研究工作如下:主题网络爬虫:首先综合分析了现有的主题网络爬虫实现的原理及结构,然后对主题网络爬虫的分类进行介绍,选择功能型主题网络爬虫为本文研究的重点。最后分析了网络爬虫实现语言,选择Node.js这门新兴语言来实现针对主题网络社区的主题网络爬虫。Web文本表示模型:首先综合分析了现有的文本表示模型,然后从本文所面对的Web文本数据以短文本为主的实际情况出发,结合自然语言处理中关键词提取和词向量表示的相关技术,提出一种基于关键词向量的文本表示模型。Web文本聚类算法:首先介绍了Web文本挖掘技术的定义。其次详细介绍了Web文本挖掘中的聚类挖掘技术。在分析了Web文本聚类算法分类的基础上,选取BIRCH算法为本文的Web文本聚类算法,然后在分析了BIRCH算法缺点和不足,并提出一种新的Web文本聚类算法。在以上研究内容的基础上,将Web文本挖掘技术和主题网络爬虫技术的研究成果相结合,设计并实现了面向主题网络社区的信息获取与分析系统。

其他文献

苯磺酸左旋氨氯地平辅助治疗高龄高同型半胱氨酸血症合并原发性高血压的临床效果分析

目的分析苯磺酸左旋氨氯地平辅助治疗高龄高同型半胱氨酸血症合并原发性高血压的临床效果。方法 50例高龄高同型半胱氨酸血症合并原发性高血压患者作为研究对象,随机分为对照

期刊

苯磺酸左旋氨氯地平高同型半胱氨酸血症原发性高血压生活质量脑血管事件高龄

论地方本科高校高素质应用型人才培养定位

国际教育标准分类法(2011)为我国地方本科高校的人才培养定位提供了参考。借鉴该分类法,地方本科高校应以实施"专业教育"、培养高素质应用型人才为目标。地方本科高校应改变

期刊

地方高校高素质应用型人才培养

癔病16例临床分析

期刊

癔症诊断治疗