Web文本挖掘研究

来源 :中国信息化·学术版 | 被引量 : 0次 | 上传用户:tianwang800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  1.引言
  如今,随着Internet的飞速发展,数以万计Web应用走进人们的日常生活,网络中信息类型日渐庞杂。为了从海量Web信息中获取知识模式,就亟需将Web技术与文本挖掘技术相结合,对Internet进行Web挖掘。
  2.Web挖掘分类
  Web信息的多样性决定了Web 挖掘任务的多样性。Web挖掘的信息可分为以下几类:(1)网页本身的内容; (2)网页内部结构,包括HTML或XML;(3)网页之间的链接结构; (4)描述网页被如何访问的使用数据;(5)用户简档,包括人数统计、用户注册信息、cookie中的信息。根据以上信息类别,将Web挖掘任务分为三类:Web内容挖掘(Web content mining),Web结构挖掘(Web structure mining)和Web使用记录挖掘(Web usage mining)。
  3. Web文本挖掘流程
  Web中的信息多样化,其中最主要的信息资源是文本, 因此Web文本挖掘成为Web挖掘的一个重要研究领域。由于Web文本挖掘涉及的领域广泛, 挖掘的内容丰富、复杂,目前对Web文本挖掘国内外还没有统一、准确的定义。
  Web文本挖掘的流程一般包括:Web文本收集与预处理、特征的表示和提取、Web 文本挖掘、挖掘结果评价、信息表示与信息导航。
  4.Web文本挖掘关键技术
  Web文本挖掘过程中, 文本特征值的提取是挖掘工作的基础,而文本分类、聚类是挖掘工作最重要的部分。
  4.1 文本信息预处理
  文本预处理主要包括WEB文本文档的分词处理。在中文文档的词频统计前, 需先对中文文档进行分词处理,即在词条间加入分隔符, 使之转换为分散的词流形式。分词的基本算法有: (1)标志法。如切分标志法、统计标引法。 (2)基于词典与规则匹配法。(3)语义语用法。如后缀分词法。(4)词频统计法。
  4.2 文本特征表示
  文本特征值的提取是对从WEB 文档中抽取出来的代表其主题内容的元数据( 特征项) 形成特征矢量来表示WEB文本。描述性特征包括文本的名称、日期、大小、类型等, 而语义性特征包括文本的作者、标题、内容、关键词等。特征值的提取现在已有多种方法, 如: 文档频次阈值方法、信息增益方法(IG)、x2统计方法(CHI) 、互信息熵方法和基于奇异值分解的潜在语义索引方法等。
  WEB文档特征表示的模型有多种, 其中矢量空间模型(VSM) 是应用较多且效果较好的特征表示方法之一, 即将WEB文本文档看成是一组词条( t1,t2,…tn)构成,对于每一词条ti,都根据其在文档中重要程度赋予一定的权值Wi,可以将其看成是一个n 维坐标系,W1,W2,…,Wn为对应的坐标值, 因此每一篇文档都可以映射为由一组词条矢量构成的向量空间中的一点, 对于所有WEB文档都用词条特征矢量:
  V(doc)=(t1,w1(doc);t2,w2(doc);…tn,wn(doc))
  来表示文档doc。可以将文档doc中出现的所有单词作为ti,也可以要求ti是doc中出现的所有短语, 从而提高内容特征表示的准确性。wi(doc)是第i词条在文档doc中的权值。wi(doc)的计算方法有很多种, 在VSM中的TF-IDF是一种常见的权值确定方法,即: ??
  log/
其他文献
【摘 要】随着计算机技术、电子电力技术和传感器技术的发展, 各先进国家的机电一体化产品层出不穷。机床、汽车、仪表、家用电器、轻工机械、纺织机械、包装机械、印刷机械、冶金机械、化工机械以及工业机器人、智能机器人等许多门类产品每年都有新的进展。机电一体化技术已越来越受到各方面的关注,它在改善人民生活、提高工作效率、节约能源、降低材料消耗、增强企业竞争力等方面起着极大的作用。在机电一体化技术迅速发展的同
档案作为重要信息资源,其管理开发和利用也必然呈现出适应时代发展的新特点。传统的管理模式已经不能更好地满足网络信息时代的要求,档案信息化建设成为档案工作的首要任务。
【摘 要】文章时环保、节能、自动补压型给水设备作了介绍。从消防科研的实践出发,阐述了变频调速技术在消防给水设备中,以单片机电路控制方式为例,介绍了其工作原理。  【关键词】变频调速技术 消防给水设备  【中图分类号】F426【文献标识码】A【文章编号】1672-5158(2013)02-0064-01  l 传统水泵控制技术的劣势  在传统的水泵控制方式中,靠调节出口或人口闸阀方式来进行,人为增加
【摘 要】网络系统在单位发挥着日渐重要的积极作用,但我国许多单位的网络系统也存在着管理的复杂以及维护的繁琐等诸多可能。因而,在目前可预见的情况下,我们急需使用计算机的系统化管理来提升网络管理的整体水平,从而更好地保障整个信息系统的安全稳定运行,以及各种信息切实可行的传播与维护。在本文中,我们就重点研究单位的计算机核心服务器在搭建的过程中可能遇见的各种相关问题,旨在深化各个单位的网络化建设,继而为单
【摘 要】研究区位于青海省都兰县境内,柴达木盆地以南、洪水川以北。本次研究结合以往地质工作,对找矿潜力的有利地段进行了地表追索控制,同时对该区成矿地质特征进行了综合研究,基本查明了研究区成矿地质背景、成矿条件、控矿因素及成矿类型,总结了矿点的成矿特征及找矿标志,为区域找矿起到了指导作用。  【关键词】矿床特征;成矿条件;找矿标志  【中图分类号】P61【文献标识码】A【文章编号】1672-5158
计算机网络系统的集成需要根据使用者的需求,将计算机网络软件、网络设备、硬件设备、网络服务系统、网络基础设施以及网络应用软件进行组合,最终形成具有高性价比的、符合设计要求的计算机网络系统集成结构。计算机网络系统的集成需解决系统协议、接口、应用软件、应用平台以及系统设备与计算机的运行环境、计算机子系统的组织管理等相关的须加强集成的问题。而集成的关键之处在于构建一个具有多协议、多厂商,面向多种应用的集成
【摘 要】针对传统船舶型线设计方法中存在的问题,如型值不够准确,型线不够光顺等,提出利用计算机数学型线设计法对母型船进行改造。本文采用的是数学线型设计法中的纵向函数法,选定用多项式表达横剖线方程后,选择适当的纵向函数,进行编程,与影响函数一起制成表格,从而得到半宽值,绘制出型线图。  【关键词】数学型线;纵向函数法;型线图  【中图分类号】U662【文献标识码】A【文章编号】1672-5158(2
0.引言  随着企业信息化建设的不断加强和计算机技术的快速发展,以及互联网的应用,加强了企业内部和企业之间的信息交流,由于目前我国很多大中型企业部署的业务系统是由不同的企业生产的,这些产品在开发时采用不同的编程语言和开发平台,采用的数据交换格式和通信协议存在差异,因而使得企业在不同系统间实现信息互相传递与共享非常困难,对原有业务系统与实施的新业务系统不能进行有效集成,在企业中形成了一个个“信息孤岛
关注民生、服务民生、发展民生是科学发展观的重要内容,是新时期党和国家执政治国的又一着力点。档案部门加强民生档案资源建设与管理,既是服务于党政中心工作的直接体现,更
0前言:  在日常的网络工作事务时,我们不希望由于外界因素的影响导致所下载的文件中断,而必须得重新下载。但在实际中,由于种种原因,有些不支持断点下载的下载工具,困扰着我们。FTP是Internet上的一项基本协议,丰富的FTP站点服务促进了网络资源的共享,FTP文件传输允许以间接或隐匿的方式使用远程计算机,并向用户屏蔽了不同主机中各种文件存储系统的细节,可以操作任何类型的文件而不需要进一步处理,达