基于XML的Web文本挖掘方法与模型研究

来源 :微计算机信息 | 被引量 : 0次 | 上传用户:jxj860205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的快速发展和大量非结构化数据的出现,给传统的数据挖掘工具带来了极大的挑战。XML(可扩展标记语言)技术一方面继承了HTML的灵活性和简单性,另一方面又具有强制结构的完整性和标签的自定义性.已经成为Web挖掘的一个重要方向。本文在介绍XML语言基本特点的基础上,针对Web上大量异构数据的特点.探讨了基于多又树的HTML到XML的转换方法,实现Web上文本的规范化,并将其用于提出的基于XML的Web文本挖掘模型,提高Web文本挖掘的有效性。
其他文献
通用航空和运输类航空是航空业的两翼,是产业链条长、服务领域广和带动作用强的战略性新兴产业,加强通用航空安全管理是保证通用航空产业健康发展的关键。讨论了通用航空安全
以无义性、类化性、单向高搭配性为标准来考察近代汉语三音副词的后缀"里",我们发现其来源于方位词"里",其后缀化经历了由类词缀→准词缀→词缀的渐进的过程。单向高搭配性是
肉牛产业作为畜牧业发展的重要组成部分,是农业农村经济发展的支柱产业[1]。辽宁省肉牛养殖优势区域主要集中在辽西和辽北地区,阜蒙县作为肉牛主要生产区之一,一直发挥着重要
在宁夏银川市兴庆区月牙湖乡干旱沙地,对灵武长枣和同心圆枣进行快繁育苗,并对不同品种红枣苗木的生长性状和叶绿素含量等指标的测定做比较研究。结果表明:灵武长枣在沙地扦插育
针对现行军用特种车辆维修保障管理模式效率低,信息化程度不高的问题,论文设计了基于CBM的特种车辆维修保障管理系统结构,对特种车辆的CBM进行功能需求分析,并对特种车辆维修
于辣椒6叶1心期,用日本国式营养液中加入0、50、100、150、200mmol/L NaCl溶液进行盐胁迫处理,处理后第5、10、15天测定光合速率、荧光参数、叶绿素含量。结果表明:随着NaCl浓度
选取《愤怒的小鸟》系列电影中蕴含物理知识的影视片段,探讨其在初中物理教学中的应用。为此,文章挖掘该系列电影中涉及初中物理知识点的画面,设计相应知识点开展教学,并给出
在分析直流无刷电机工作原理的基础上,本文依据电机学理论和采用坐标变换的方法,通过检测定子电压和电流并经过坐标变换处理,依据无刷直流电机的电压回路方程给出了一种进行转子
创造性思维是指提出创新思想的思维活动,它是科学思维的重要组成部分,也是培养学生创新能力必备的要素。初中生的数学创造性思维主要包括直觉与想象、归纳与演绎、比较与分类
母牛饲养管理工作的效果,会影响肉牛养殖场经营的经济效益。养殖人员需要做好各个阶段的母牛饲养工作和管理工作,保证母牛具有较高的繁殖性,在哺乳阶段具有良好的泌乳能力和