论文部分内容阅读
随着Internet的快速发展,互联网上的信息呈爆炸式增长。这大大丰富了用户获取信息的渠道,但也使得Web信息呈现出驳杂和冗余的特点,给用户快速精确定位自己感兴趣的信息带来了一定困难。Web2.0时代的到来,使标签成为一种互联网信息组织方式。目前,一些研究者通过文木分类、文摘自动生成等技术来对Web网页进行标引,从而提高用户检索的效率和准确率。但是这种粗粒度的Web网页关键信息提取和标引仍然无法满足用户对信息查找的需求,它忽略了网页自身的特点。另外,不同类型的网页采用统一的处理方式,使得输出结果准确度不高,缺乏具体应用场景具体分析的功能。因此,利用合理的技术和网页信息组织方式帮助用户获取有价值的信息,成为Web网页主题标签提取亟需解决的问题。本文采用自然语言标引方式对Web网页进行分析和研究,提出了构建Web网页主题标签的解决方案,并完成相应的网页主题标签系统。其中,主要研究内容和成果包括:1)实现了网页主题标签的提取。本文利用Web文本挖掘技术,同时结合网页自身特点,设计了网页主题标签提取的流程,并实现了数据准备、网页信息抽取、文本预处理、网页主题标签构建等功能模块;2)研究了三种应用场景下的网页标签构建技术。分别对关键词提取方法和命名实体识别技术进行了研究,并在此基础上,针对有正文信息的网页、需要识别特殊信息的网页和无正文信息的网页分别实现了多特征融合关键词提取、命名实体识别和基于TF的关键词提取方法,并将其应用到不同类型网页的主题标签构建中;3)不同分类网页的主题标签提取方案研究。通过对新闻类、视频类和电商类网页特点进行分析及对比,提出了其各自合适的网页主题标签提取方案。首先需要抽取能够代表网页中心思想的文本内容,然后根据其特点采取合适的网页标签构建技术生成网页主题标签,最后进行可视化展示。4)提出了系统的应用方案。本文利用网页主题标签提取为用户提供数据分析能力,实现批量URL的分析。对批量URL进行分析后,用户可直观地看到数据分析结果,这样可以帮助用户发掘数据背后隐含的价值和意义,并客观地认识和理解数据。基于上述研究内容和成果,本文构建并实现了基于Web文本挖掘的网页主题标签系统,该系统能够对Web网页进行挖掘分析,从而为网页生成具有一定准确性的主题标签,实现网页信息的有效组织和管理,以便用户有效获取所需的知识。