Web文本数据抽取中文本预处理研究

来源 :跨世纪 | 被引量 : 0次 | 上传用户:lubin_1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】在Web文本数据挖掘中,Web文本数据抽取过程有着至关重要的作用,得到的文本挖掘结果的精度以及文本挖掘的效率都与该过程的结果密切相关,所以要减少需要处理的数据量以及提高挖掘对象对文本的表达能力。Web文本数据抽取是从网络中获得客户需要的文本信息的过程。本文对利用XML技术的文本数据抽取中Web文本预处理过程进行研究。
  【关键词】数据挖掘;Web文本;预处理
  【中图号】TP316【文献标示码】A【文章编号】1005-1074(2008)11-0224-01
  
  实现文本数据抽取的基本思想是根据用户的需求,从Internet搜索到权威页面,抽取权威的HTML页面上的信息,并将得到的HTML文档利用工具Tidy转换成XHTML文档。然后查找数据内的引用点,通过XSL将数据映射成XML文档,将这些XML数据存入数据库,得到一个关系型的文本数据库。
  
  1权威页面的确定
  
  要收集Web文本数据,首先需要根据用户需求进行搜索,搜索到具有重要性和权威性的页面,土要体现在以下两点,第一,网页本身的内容对于搜索的主题来说是重要的,第二,这个网页是被其他网页承认为权威的,与搜索的主题相关的很多网页都链接向这个网页,这个网页的地位在互连网中是重要的。页面的权威性可由Web页面链接来反映,页面之间的超链接反映了页面间的引用关系,一个页面的权威性取决于它被引用次数以及链接它的页面的权威性。HITS算法正是利用这种思想并加以改进,采用特征向量的办法来确定权威Web页面的。
  HITS算法是利用Hub/Authority方法的搜索算法,该算法认为网页可以分为两类,Authorities和Hubs,Authorities为具有较高价值的网页,Hubs为指向较多Authorities的网页,其内容如下:将查询请求提交给普通的基于相似度的搜索引擎,搜索将返回很多个Web页面,从中选出接近目标的m个页面作为根集,用s表示。HITS算法就是通过向s中加入它前向和后向链接的页面将s扩展成一个更大的集合T。集合T具有规模小、关联页面多、包含Authority网页尽量多的特点。但是他们之间的链接还需要进行筛选:同一网站上的页面存在很多内部互相链接,这些链接绝大多数应当在最后结果中予以删除。按Authority和Hub的权重降序排列Authority页和Hub页,根据需求输出具有较人权重的Authority页和Hub页。从权威页面上获得信息比从Intermit上通过搜索所得相关的页面未处理前相比较,减小了需要处理的数据量。
  
  2抽取XML文档
  
  针对半结构化的数据结构,需要引入一种半结构化的数据模型来描述Web上半结构化的数据。可扩展标记语言XML本身所具有的特点使W七b页面更有弹性,容易删减功能并且保证统一的标准,适合Web上的数据交换。
  在Web文本预处理中,根据权威页面收集到web数据集以后,利用HTML Tidy工具将这些HTML文档转化为XHTML格式的文档,XHTML文档改正了HTML文档中的常见错误,
  并且有良好的编排格式。XHTML是一种增强了的HTML,它的可扩展性和灵活性能够适应网络应用的更多需求。使用XHTML,可以设计出既适合XML系统,又适合当前大部分HTML浏览器的页面,并且XHTML文档十分严密,所以XHTML可以将混乱的HTML文档转换为结构良好的XML文档。通过XSL可以最终转换为XML文档。
  HTML文档通过Tidy等工具解析后,可以转化为DOM树,树的每个结点是一个对象,DOM模型不仅描述了文档的结构,还定义了结点对象的行为,利用对象的方法和属性,可以方便地访问、修改、添加和删除DOM树的结点和内容。在转换过程中,分两步处理:
  第一步,整理HTML,使它符合HTML标准。第二步,实行转化。这样经过转化后的代码是符合XML格式完整的代码。在XHTML文档中找出一个特定的区域,从中抽取需要的数据,叫做区域定位。事实上,区域定位要求粗略地观察一下XTMM文档,大致确定所查找的数据可能包含在哪个区域,绝大多数情况下,都会包含在元素下。然后还要记下可能包含要查找的那个关键字。这样就得到了所要查找数据的引用点。可以用XSL文件形式实现,其目的是标识区域,最终构造一个XML输出文件。
  
  3合并结果并处理数据
  
  在Web文本数据抽取实际应用中,很多时候只保存单个时间的数据是没有意义的(如股票),我们需要的数据是实时的数据,这就要求反复地抽取数据,把不同的数据记录合并到一个XML文件。在合并数据时需注意:抽取到的数据可能包含一些无关的数据,这就需要在新数据合并之前,利用文档对象模型对这些数据进行相应的处理,然后再将抽取的新数据追加到XML文件中。
  所有的数据都在Web上获取,如果页面的数据没有及时刷新,抽取的数据就会大量重复。为了解决这个问题,我们需要对新旧数据的时间进行对比,如果时间相同,证明数据还没有刷新,则不抽取数据,直到时间变化,再继续进行数据抽取工作。基于XML的Web数据抽取方法可以实时抽取Web数据,通过XSL可以随意设计显示和保存格式。XML提供了对Web文档资源进行描述的语言和框架,能够从半结构化的Web文档中抽取语义特征作为文档的中间表示形式,用结构化的形式保存,与关系数据库中的属性一一对应起来,从而将数据库技术应用于XML数据处理领域,实施精确的查询与模型抽取。
  
  4参考文献
  
  1王一蕾,林世平.Web文本挖掘三种技术的比较[J].福建电脑,2003,(12)
  2张蓉.一种快速有效的Web文档聚类方法[J].计算机应用研究,2004,(04)
其他文献
【摘要】昭明太子萧统(501~530),南北朝时期梁武帝的长子,历史上有名的文学家。纳兰性德(1655~1685),满洲正黄旗人,大学士纳兰明珠长子,被后人誉为“满清第一词人”。两人虽相隔千余年,性情才气却有很多相似之处,可怜造化弄人,都在三十岁盛年早逝,引无数人扼腕叹息。  【关键词】萧统;纳兰性德;文学史  【中图号】I206.2 【文献标示码】A【文章编号】1005-1074(2008)11
期刊
【摘要】陈应松是当代底层写作的代表作家,他采用独特的采访调查的方式深入到神农架山区的密林深处,为他的小说创作储备了丰富的底层经验。他的神农架系列小说以沉入底层的姿态,切近底层的话语表述,执著地书写着底层人的苦难与不幸,表现出强烈的人道主义精神和对底层民众的悲悯情怀;在小说的叙事技巧上,有意识地使用了陌生化的手法,最突出体现为语言的陌生化和叙事视角的陌生化。   【关键词】陈应松;底层;叙事  【中
期刊
【摘要】随着医院信息化进程的不断推进,人力资源管理将更加依赖于数据信息。本文针对一个真实的医院人力资源数据集,通过关联规则分析了在医院人力资源管理中适用的数据挖掘技术与过程,研究分析的结果具有较好的解释性,以期帮助医院对这一系统能够有更全面地认识,促进医院人力货源管理水平实现跨越式提升。  【关键词】数据挖掘;医院人力资源;关联规则  【中图号】C931.9【文献标示码】A【文章编号】1005-1
期刊
【摘要】数码监控系统中视频远程监控是一个研究热点,利用IP组播技术可以方便高效地实现视频数据的远程传输,很好地解决了监控系统中多监控点、多机监控的问题。本文提出并研究设计一种基于IP组播技术的数字化网络视频监控系统方案,整个系统的总体设计分为硬件和软件系统两部分。  【关键词】IP;视频监控;设计  【中图号】TP311【文献标示码】A【文章编号】1005-1074(2008)11-0220-02
期刊
【摘要】张爱玲的《色·戒》虽然借了一个爱国锄奸的题材,但她所写的仍然是一群有着普遍人性的普通人,展示的仍然是普通人挣扎无果的悲剧命运,吟唱的仍然是一曲普通人的悲歌,表达的仍然是她对人类生存的悲观失望。  【关键词】张爱玲;色·戒  【中图号】I207【文献标示码】A【文章编号】1005-1074(2008)11-0209-02    张爱玲40年代的小说多以世俗生活中的男女婚恋为题材,很少涉及国家
期刊
【摘要】语言浅显易懂、内容深入浅出、循序渐进是Delphi的最大特点。Delphi是可视化应用编程开发环境、可重用性面象对象编程语言、快速编译和数据库的完美结合。本文主介绍Delphi和数据库的结合。   【关键词】Delphi;数据库应用程序;BDE;ADO;ODBC;SQL  【中图号】TP31【文献标示码】A【文章编号】1005-1074(2008)11-0222-01    Delphi具
期刊
【摘要】本文从偏远农村发展电话的角度描述了无线接入网的基本概念及系统的结构,说明了郊区、山区安装无线接入网的必要性,介绍了无线接入网的发展目标及网络结构、频点及号段规划,建设无线接入网应注意的问题,并对华为RASYS无线接入网开通时遇到的障碍进行了总结。  【关键词】无线接入网;结构;网络;频点;建设;维护管理  【中图号】F623【文献标示码】A【文章编号】1005-1074(2008)11-0
期刊
【摘要】Linux系统的输入法存在多种框架和实现,以往的标准化努力没有给出令人满意的结果,输入法引擎(IME)接口标准化采用了新的路线,有助于开发可适用于不同框架的IME。在总结归纳现有输入法框架基础上,分析了对IME接口进行标准化的基本原理,详细说明了IME接口标准的重要特性和设计原则;相关的实体被划分到4个部分,使用时序图对不同部分的交互进行了细致的分析,其设计和实践可供开发符合标准的IME时
期刊
【摘要】通过使用P3技术对深溪沟水电站机电安装项目投标工程计划编制和进度控制,对工程的关键施工线路、要求投入的人力资源、工程的施工关键时段和强度等过程的认识清晰明了。同时说明了使用P3软件的基本方法和一点小窍门,以供参考。  【关键词】P3技术;进度计划;作业编码;数据组织  【中图号】TM622【文献标示码】A【文章编号】1005-1074(2008)11-0235-02    1引言    P
期刊
【摘要】本文评论刘索拉长篇小说《女贞汤》,认为这部小说:一,进行了深刻的文化反思;二,是一部具有性别批判意识的读本;三,进行了关于女性的反省。  【关键词】性别批判;文化反思;女性反省  【中图号】I207【文献标示码】A【文章编号】1005-1074(2008)11-0205-02    五年后再次阅读了刘索拉的《女贞汤》,依然给了我很大的触动,并且在重新阅读的过程中,它使我有了更深的反思。当年
期刊
期刊论文Web文本数据抽取中文本预处理研究发表于2008年11期跨世纪作者邓 箴,本篇论文的所有权归原作者邓 箴所有,如果您对本文有版权争议,可与客服联系进行内容授权或下架。