面向Web文本挖掘的主题网络爬虫研究

来源 :电子科技大学 | 被引量 : 8次 | 上传用户:lyk_csdn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web3.0时代的到来,互联网中Web页面的数量和复杂性呈现出爆炸性增长趋势,伴随的是包含在Web页面中的信息也呈几何数量级增长。Web页面信息通常是由Web页面中的文本体现出来的,因此Web文本数据中隐藏着丰富的,对用户有价值的知识和规则。但是由于Web文本数据半结构化、实时性和离散性等特点,用户很难直接从如此复杂的数据集中获取到自己需要的知识。因此如何有效的从海量的Web本文数据中挖掘出用户真正关心的信息和知识,并以用户能够理解的方式呈现出来,是当下非常热门的研究课题。本文主要从获取Web文本数据和对Web文本数据的分析两方面着手,对如何准确且高效的获取用户所需要的Web文本信息,并挖掘其中有价值的知识展开研究。本文具体的研究工作如下:主题网络爬虫:首先综合分析了现有的主题网络爬虫实现的原理及结构,然后对主题网络爬虫的分类进行介绍,选择功能型主题网络爬虫为本文研究的重点。最后分析了网络爬虫实现语言,选择Node.js这门新兴语言来实现针对主题网络社区的主题网络爬虫。Web文本表示模型:首先综合分析了现有的文本表示模型,然后从本文所面对的Web文本数据以短文本为主的实际情况出发,结合自然语言处理中关键词提取和词向量表示的相关技术,提出一种基于关键词向量的文本表示模型。Web文本聚类算法:首先介绍了Web文本挖掘技术的定义。其次详细介绍了Web文本挖掘中的聚类挖掘技术。在分析了Web文本聚类算法分类的基础上,选取BIRCH算法为本文的Web文本聚类算法,然后在分析了BIRCH算法缺点和不足,并提出一种新的Web文本聚类算法。在以上研究内容的基础上,将Web文本挖掘技术和主题网络爬虫技术的研究成果相结合,设计并实现了面向主题网络社区的信息获取与分析系统。
其他文献
目的分析苯磺酸左旋氨氯地平辅助治疗高龄高同型半胱氨酸血症合并原发性高血压的临床效果。方法 50例高龄高同型半胱氨酸血症合并原发性高血压患者作为研究对象,随机分为对照
国际教育标准分类法(2011)为我国地方本科高校的人才培养定位提供了参考。借鉴该分类法,地方本科高校应以实施"专业教育"、培养高素质应用型人才为目标。地方本科高校应改变
目的 探讨磁共振尿路成像(MRU)对泌尿系统先天畸形疾病的诊断价值.方法 对比分析58例经手术及病理证实的泌尿系统先天畸形患者的MRU及IVU影像学资料.结果 18例肾盂输尿管连接部
今年4月,农村农业部下发了《关于实施2020年水产绿色健康养殖"五大行动"的通知》,明确了生态健康养殖模式推广行动、养殖尾水治理模式推广行动、水产养殖用药减量行动、配合
思想政治理论课是立德树人的根本课程,以湘南学院为例,探讨了如何在思想政治理论课中加强本土红色文化的教育,引导学生增强中国特色社会主义道路自信、理论自信、制度自信、
为了深入了解劳工部对尘肺病福利项目的管理,美国审计署在2009年通过收集、分析数据和实地调查等方法,对该项目进行绩效评价,提出整改意见,发布了绩效审计报告,并于2012年对