基于WEB挖掘的网页主题标签系统的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户：wenlingqiang6268047

【摘要】

：

随着Internet的快速发展,互联网上的信息呈爆炸式增长。这大大丰富了用户获取信息的渠道,但也使得Web信息呈现出驳杂和冗余的特点,给用户快速精确定位自己感兴趣的信息带来了

【作者】

：

任烁鑫

【出处】

：

北京邮电大学

【发表日期】

：

2017年01期

【关键词】

：

Web网页主题标签 Web文本挖掘关键词提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的快速发展,互联网上的信息呈爆炸式增长。这大大丰富了用户获取信息的渠道,但也使得Web信息呈现出驳杂和冗余的特点,给用户快速精确定位自己感兴趣的信息带来了一定困难。Web2.0时代的到来,使标签成为一种互联网信息组织方式。目前,一些研究者通过文木分类、文摘自动生成等技术来对Web网页进行标引,从而提高用户检索的效率和准确率。但是这种粗粒度的Web网页关键信息提取和标引仍然无法满足用户对信息查找的需求,它忽略了网页自身的特点。另外,不同类型的网页采用统一的处理方式,使得输出结果准确度不高,缺乏具体应用场景具体分析的功能。因此,利用合理的技术和网页信息组织方式帮助用户获取有价值的信息,成为Web网页主题标签提取亟需解决的问题。本文采用自然语言标引方式对Web网页进行分析和研究,提出了构建Web网页主题标签的解决方案,并完成相应的网页主题标签系统。其中,主要研究内容和成果包括:1)实现了网页主题标签的提取。本文利用Web文本挖掘技术,同时结合网页自身特点,设计了网页主题标签提取的流程,并实现了数据准备、网页信息抽取、文本预处理、网页主题标签构建等功能模块;2)研究了三种应用场景下的网页标签构建技术。分别对关键词提取方法和命名实体识别技术进行了研究,并在此基础上,针对有正文信息的网页、需要识别特殊信息的网页和无正文信息的网页分别实现了多特征融合关键词提取、命名实体识别和基于TF的关键词提取方法,并将其应用到不同类型网页的主题标签构建中;3)不同分类网页的主题标签提取方案研究。通过对新闻类、视频类和电商类网页特点进行分析及对比,提出了其各自合适的网页主题标签提取方案。首先需要抽取能够代表网页中心思想的文本内容,然后根据其特点采取合适的网页标签构建技术生成网页主题标签,最后进行可视化展示。4)提出了系统的应用方案。本文利用网页主题标签提取为用户提供数据分析能力,实现批量URL的分析。对批量URL进行分析后,用户可直观地看到数据分析结果,这样可以帮助用户发掘数据背后隐含的价值和意义,并客观地认识和理解数据。基于上述研究内容和成果,本文构建并实现了基于Web文本挖掘的网页主题标签系统,该系统能够对Web网页进行挖掘分析,从而为网页生成具有一定准确性的主题标签,实现网页信息的有效组织和管理,以便用户有效获取所需的知识。

其他文献

以阅读培养小学生语文核心素养的策略

语文核心素养是一种以语文能力为核心的综合素养,包括语文知识、词汇积累、语言能力、语文学习习惯、思维能力和人文素养等。随着教育改革的深入,教学应注重将"一课一得"作为

期刊

阅读教学小学语文核心素养

相分离Gd5Ge4合金的低温磁化行为及温度依赖性研究

系统研究了Gd5Ge4合金的晶体结构和低温磁化行为。结果表明，Gd5Ge4具有相分离特征，低温下出现反铁磁（AFM）和铁磁（FM）共存现象。由于相分离的存在导致127K时发生奈尔反铁磁转变。在

期刊

Gd5Ge4合金低温磁性相分离台阶式磁化跳跃Gd5Ge4 alloy low-temperature magnetic properties phase

Mg^2+离子对Sr_2Al_2SiO_7∶Eu^2+荧光体微结构及发光性能的影响

采用复合胶体喷雾工艺制备了Sr2Al2SiO7：Eu^2＋荧光体及掺入Mg离子后Sr2-xMgxAl2SiO7：Eu^2＋（x=0．1，0．2，0．4，0．6，0．8，1．0）荧光体。XRD分析及晶格常数计算结果表明，Eu^2＋离子部分取代Sr^2＋格位进入Sr

期刊

荧光体Sr2A12SiO7:Eu^2+Mg^2+离子微结构与光谱phosphor Sr2Al2SiO7 ： Eu^2＋ Mg^2＋ ions micr

中小企业资金短缺的原因及应对措施

中小型企业在当代各国的经济发展中占据着无法代替的作用。对整个国家的社会稳定发挥着重要作用,而GDP值的很大一部分也是由中小型企业所贡献的。但是目前在经济全球化的背景

期刊

中小型企业资金短缺解决措施

从境外获取角度看我国锡资源供应安全

我国锡资源自给不足,而消费量需求预测在2022年左右会达到顶峰。我国30%以上锡原料依赖进口,且高度依赖缅甸,但缅甸的储量和品位快速下降,只够开采3年;与此同时,全球主要锡资

期刊

锡资源境外获取资源安全

Control of Nonlinear Systems with Output Tracking Error Constraints

A constructive method is presented to design controllers that force the output of nonlinear systems in a strict feedback form to track a bounded and sufficient

期刊

跟踪误差控制输出非线性系统限制范围控制器参考轨迹济南大学输出跟踪nonlinear system output constraint backs

浅议我国人力资源会计

现阶段，随着现代化建设的发展，我国的人力资源管理的速度也越来越快。人力资源会计是指对企业或其他经济组织的人力资源成本与价值进行计量和报告的一种会计程序和方法，它是会计

期刊

我国人力资源会计

落叶植物在长沙地区园林造景中的应用

长沙地区落叶植物的造景特点是植物景观季相变化明显;景观群落层次丰富;以常绿植物为主,落叶植物为辅;大型落叶乔木景观众多;色彩搭配丰富。指出长沙地区落叶植物在园林造景

期刊

长沙落叶植物园林造景不足建议

人本思想在教育管理中的运用

在中小学教育工作中,教育管理对学校教育质量起到主要作用。学校的教育管理内容具备多样性,其中包含学生、学校领导层、教师等,在学校的教育管理中融入人本思想管理很重要。

期刊

人本思想小学教育管理方法

盐溶液辅助的溶胶-凝胶法制备粒径可控TiO2微球

采用盐溶液辅助的溶胶-凝胶法制备了粒径可控的球形TiO2微粒。基于SEM、XRD、IR、TG-DSC等分析手段,系统研究了盐溶液的种类和浓度对微球粒径及粒径分布的影响,并对其生长机

期刊

溶胶-凝胶TiO2微球成球机理sol-gel titania microspheric mechanism of microspheric formati

基于WEB挖掘的网页主题标签系统的设计与实现

与本文相关的学术论文