关于互联网文本数据挖掘的一些关键技术研究

被引量 : 0次 | 上传用户:yangbin0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及与发展,互联网文本成为信息的主要载体及人们生活中获取信息的主要来源,如何从这些信息中获取有价值的信息和知识成为亟待解决的问题。由于互联网文本数据的非结构化、分布式、多样性、含个人感情色彩等特点,使得传统的数据挖掘技术无法应用于互联网文本的挖掘,人们充分利用互联网文本也变得越来越困难。文本表示模型的改进,自然语言处理技术和挖掘分析算法的发展,为解决这些问题带来希望,互联网文本挖掘也应运而生,成为互联网挖掘中的一个重要研究方向。互联网文本挖掘是互联网内容挖掘的一个重要分支,主要包括数据预处理、数据挖掘分析技术和可视化研究。本文以互联网上的新闻文本数据作为载体,研究互联网文本挖掘。主要工作有以下几个方面:1.系统地探讨了文本挖掘和互联网文本挖掘的基本理论,详细地阐述了文本挖掘的内容和流程,提出了文本挖掘的问题和互联网文本的结构特征。2.系统地探讨了网页数据的抽取技术,实现了一种基于HtmlParser的网页数据自动抽取方法,能够快速准确地抽取出网页中的文本数据。3.将聚类引入新闻检索中,对检索结果进行聚类,方便用户快速查找到自己所需的信息。本文系统研究了能应用于文本聚类的分析算法,实现一种改进的基于频繁项集的文本聚类分析方法,重点介绍了聚类的相关模块,主要包括关键短语抽取、索引建立、聚类方法和类标签提取等。4.设计并搭建了一个互联网新闻数据在线挖掘服务系统。该系统主要分为数据准备,离线挖掘和在线挖掘三个模块,实现新闻数据的分类、摘要、聚类等挖掘分析。
其他文献
目的观察川崎病患儿使用TanⅡA治疗前后各项临床指标、炎性细胞因子、GMP-140、AnnexinV和血常规、CRP、ESR的变化,并与常规治疗进行对比,分析TanⅡA对各指标的影响,探讨Tan
农村普法工作对在农村实施依法治国方略、构建社会主义和谐社会和实现农业现代化意义重大。在我国这一特殊国情里,农民仍是国民主体,广大农村地区是建设我国和谐社会和建设全
赛珍珠是美国著名女作家,1938年诺贝尔文学奖获得者。1892年出生于美国,襁褓之中被父母带至中国,在中国生活了将近40多年时间。赛珍珠非常熟悉中国文化,尤其喜欢中国小说。她
化石燃料在燃烧过程中产生的CO:气体导致全球日益变暖,给地球的生态环境和人类的生存条件带来严重的威胁。CO:捕获与封存是在短期内能够稳定或降低大气中温室气体含量的一种有
人们对道路交通气象信息的需求日益增长,而道路结冰是道路交通气象要素中最为重要的要素之一,与人们的日常生活、生产密不可分。因此,道路结冰的测量有着重要的意义。本文在
独立的金融消费者保护机构产生于英国,美国在金融领域欺诈、交易不公平的背景下,援引英国的金融消费者保护机构模式建立了金融消费者保护署,隶属于美联储之下专门负责金融消
智能光网络作为下一代光传送网发展的主要方向,其业务提供与网络管控过程的智能性、动态性不仅满足了电信业务迅猛增长的带宽需求,而且契合了数据业务的突发特征。同时,随着
在某厂30m高的烟囱侧做深基坑围护,在设计上不但要考虑烟囱荷载对围挡结构的影响,同时还要兼顾支挡结构及其后土体变对烟囱安全的影响。
会员制营销如今被各类零售业态所广泛使用.各种各样的会员卡、贵宾卡、VIP卡、金卡等差不多插满了消费者的钱包!据麦肯锡得出的调查数据显示,在商业企业中,保持一个消费者的营销
作为英国维多利亚时期作家萨克雷的扛鼎之作,《名利场》历来被人们奉为批判现实主义文学中的经典代表。小说着力刻画了两个性格迥异的女性形象,以她们的活动为线索,勾勒出一