论文部分内容阅读
【摘要】在Web文本数据挖掘中,Web文本数据抽取过程有着至关重要的作用,得到的文本挖掘结果的精度以及文本挖掘的效率都与该过程的结果密切相关,所以要减少需要处理的数据量以及提高挖掘对象对文本的表达能力。Web文本数据抽取是从网络中获得客户需要的文本信息的过程。本文对利用XML技术的文本数据抽取中Web文本预处理过程进行研究。
【关键词】数据挖掘;Web文本;预处理
【中图号】TP316【文献标示码】A【文章编号】1005-1074(2008)11-0224-01
实现文本数据抽取的基本思想是根据用户的需求,从Internet搜索到权威页面,抽取权威的HTML页面上的信息,并将得到的HTML文档利用工具Tidy转换成XHTML文档。然后查找数据内的引用点,通过XSL将数据映射成XML文档,将这些XML数据存入数据库,得到一个关系型的文本数据库。
1权威页面的确定
要收集Web文本数据,首先需要根据用户需求进行搜索,搜索到具有重要性和权威性的页面,土要体现在以下两点,第一,网页本身的内容对于搜索的主题来说是重要的,第二,这个网页是被其他网页承认为权威的,与搜索的主题相关的很多网页都链接向这个网页,这个网页的地位在互连网中是重要的。页面的权威性可由Web页面链接来反映,页面之间的超链接反映了页面间的引用关系,一个页面的权威性取决于它被引用次数以及链接它的页面的权威性。HITS算法正是利用这种思想并加以改进,采用特征向量的办法来确定权威Web页面的。
HITS算法是利用Hub/Authority方法的搜索算法,该算法认为网页可以分为两类,Authorities和Hubs,Authorities为具有较高价值的网页,Hubs为指向较多Authorities的网页,其内容如下:将查询请求提交给普通的基于相似度的搜索引擎,搜索将返回很多个Web页面,从中选出接近目标的m个页面作为根集,用s表示。HITS算法就是通过向s中加入它前向和后向链接的页面将s扩展成一个更大的集合T。集合T具有规模小、关联页面多、包含Authority网页尽量多的特点。但是他们之间的链接还需要进行筛选:同一网站上的页面存在很多内部互相链接,这些链接绝大多数应当在最后结果中予以删除。按Authority和Hub的权重降序排列Authority页和Hub页,根据需求输出具有较人权重的Authority页和Hub页。从权威页面上获得信息比从Intermit上通过搜索所得相关的页面未处理前相比较,减小了需要处理的数据量。
2抽取XML文档
针对半结构化的数据结构,需要引入一种半结构化的数据模型来描述Web上半结构化的数据。可扩展标记语言XML本身所具有的特点使W七b页面更有弹性,容易删减功能并且保证统一的标准,适合Web上的数据交换。
在Web文本预处理中,根据权威页面收集到web数据集以后,利用HTML Tidy工具将这些HTML文档转化为XHTML格式的文档,XHTML文档改正了HTML文档中的常见错误,
并且有良好的编排格式。XHTML是一种增强了的HTML,它的可扩展性和灵活性能够适应网络应用的更多需求。使用XHTML,可以设计出既适合XML系统,又适合当前大部分HTML浏览器的页面,并且XHTML文档十分严密,所以XHTML可以将混乱的HTML文档转换为结构良好的XML文档。通过XSL可以最终转换为XML文档。
HTML文档通过Tidy等工具解析后,可以转化为DOM树,树的每个结点是一个对象,DOM模型不仅描述了文档的结构,还定义了结点对象的行为,利用对象的方法和属性,可以方便地访问、修改、添加和删除DOM树的结点和内容。在转换过程中,分两步处理:
第一步,整理HTML,使它符合HTML标准。第二步,实行转化。这样经过转化后的代码是符合XML格式完整的代码。在XHTML文档中找出一个特定的区域,从中抽取需要的数据,叫做区域定位。事实上,区域定位要求粗略地观察一下XTMM文档,大致确定所查找的数据可能包含在哪个区域,绝大多数情况下,都会包含在元素下。然后还要记下可能包含要查找的那个关键字。这样就得到了所要查找数据的引用点。可以用XSL文件形式实现,其目的是标识区域,最终构造一个XML输出文件。
【关键词】数据挖掘;Web文本;预处理
【中图号】TP316【文献标示码】A【文章编号】1005-1074(2008)11-0224-01
实现文本数据抽取的基本思想是根据用户的需求,从Internet搜索到权威页面,抽取权威的HTML页面上的信息,并将得到的HTML文档利用工具Tidy转换成XHTML文档。然后查找数据内的引用点,通过XSL将数据映射成XML文档,将这些XML数据存入数据库,得到一个关系型的文本数据库。
1权威页面的确定
要收集Web文本数据,首先需要根据用户需求进行搜索,搜索到具有重要性和权威性的页面,土要体现在以下两点,第一,网页本身的内容对于搜索的主题来说是重要的,第二,这个网页是被其他网页承认为权威的,与搜索的主题相关的很多网页都链接向这个网页,这个网页的地位在互连网中是重要的。页面的权威性可由Web页面链接来反映,页面之间的超链接反映了页面间的引用关系,一个页面的权威性取决于它被引用次数以及链接它的页面的权威性。HITS算法正是利用这种思想并加以改进,采用特征向量的办法来确定权威Web页面的。
HITS算法是利用Hub/Authority方法的搜索算法,该算法认为网页可以分为两类,Authorities和Hubs,Authorities为具有较高价值的网页,Hubs为指向较多Authorities的网页,其内容如下:将查询请求提交给普通的基于相似度的搜索引擎,搜索将返回很多个Web页面,从中选出接近目标的m个页面作为根集,用s表示。HITS算法就是通过向s中加入它前向和后向链接的页面将s扩展成一个更大的集合T。集合T具有规模小、关联页面多、包含Authority网页尽量多的特点。但是他们之间的链接还需要进行筛选:同一网站上的页面存在很多内部互相链接,这些链接绝大多数应当在最后结果中予以删除。按Authority和Hub的权重降序排列Authority页和Hub页,根据需求输出具有较人权重的Authority页和Hub页。从权威页面上获得信息比从Intermit上通过搜索所得相关的页面未处理前相比较,减小了需要处理的数据量。
2抽取XML文档
针对半结构化的数据结构,需要引入一种半结构化的数据模型来描述Web上半结构化的数据。可扩展标记语言XML本身所具有的特点使W七b页面更有弹性,容易删减功能并且保证统一的标准,适合Web上的数据交换。
在Web文本预处理中,根据权威页面收集到web数据集以后,利用HTML Tidy工具将这些HTML文档转化为XHTML格式的文档,XHTML文档改正了HTML文档中的常见错误,
并且有良好的编排格式。XHTML是一种增强了的HTML,它的可扩展性和灵活性能够适应网络应用的更多需求。使用XHTML,可以设计出既适合XML系统,又适合当前大部分HTML浏览器的页面,并且XHTML文档十分严密,所以XHTML可以将混乱的HTML文档转换为结构良好的XML文档。通过XSL可以最终转换为XML文档。
HTML文档通过Tidy等工具解析后,可以转化为DOM树,树的每个结点是一个对象,DOM模型不仅描述了文档的结构,还定义了结点对象的行为,利用对象的方法和属性,可以方便地访问、修改、添加和删除DOM树的结点和内容。在转换过程中,分两步处理:
第一步,整理HTML,使它符合HTML标准。第二步,实行转化。这样经过转化后的代码是符合XML格式完整的代码。在XHTML文档中找出一个特定的区域,从中抽取需要的数据,叫做区域定位。事实上,区域定位要求粗略地观察一下XTMM文档,大致确定所查找的数据可能包含在哪个区域,绝大多数情况下,都会包含在