基于结构与文本关键词相关度的XML网页分类研究

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:chenyikg21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法.算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核,计算测试样本中的文档与每个聚类核的相似度,判断该文档的所属类.实验证明该分类算法具有比较高的分类查全率和查准率,能够较好地解决XML文档同时属于多个类的问题.
其他文献
组件式GIS技术是一种实用的地理信息系统开发技术。文章首先简要介绍了组件式GIS技术和特点,之后重点讨论了利用组件式GIS技术进行应用系统开发时的关键技术问题,同时给出一个该技术在家电行业中的应用实例。
分析了电流互感器、电压互感器极性,介绍了其极性的判定与测试方法,使读者对电流、电压互感器极性有一个清晰的认识,其测试与判定方法简洁、明了,便于掌握,尤其对继电保护人员的现