论文部分内容阅读
随着Web3.0时代的到来,互联网中Web页面的数量和复杂性呈现出爆炸性增长趋势,伴随的是包含在Web页面中的信息也呈几何数量级增长。Web页面信息通常是由Web页面中的文本体现出来的,因此Web文本数据中隐藏着丰富的,对用户有价值的知识和规则。但是由于Web文本数据半结构化、实时性和离散性等特点,用户很难直接从如此复杂的数据集中获取到自己需要的知识。因此如何有效的从海量的Web本文数据中挖掘出用户真正关心的信息和知识,并以用户能够理解的方式呈现出来,是当下非常热门的研究课题。本文主要从获取Web文本数据和对Web文本数据的分析两方面着手,对如何准确且高效的获取用户所需要的Web文本信息,并挖掘其中有价值的知识展开研究。本文具体的研究工作如下:主题网络爬虫:首先综合分析了现有的主题网络爬虫实现的原理及结构,然后对主题网络爬虫的分类进行介绍,选择功能型主题网络爬虫为本文研究的重点。最后分析了网络爬虫实现语言,选择Node.js这门新兴语言来实现针对主题网络社区的主题网络爬虫。Web文本表示模型:首先综合分析了现有的文本表示模型,然后从本文所面对的Web文本数据以短文本为主的实际情况出发,结合自然语言处理中关键词提取和词向量表示的相关技术,提出一种基于关键词向量的文本表示模型。Web文本聚类算法:首先介绍了Web文本挖掘技术的定义。其次详细介绍了Web文本挖掘中的聚类挖掘技术。在分析了Web文本聚类算法分类的基础上,选取BIRCH算法为本文的Web文本聚类算法,然后在分析了BIRCH算法缺点和不足,并提出一种新的Web文本聚类算法。在以上研究内容的基础上,将Web文本挖掘技术和主题网络爬虫技术的研究成果相结合,设计并实现了面向主题网络社区的信息获取与分析系统。