基于概念的Web文本分类方法及实现

来源 :北京信息科技大学学报:自然科学版 | 被引量 : 0次 | 上传用户:hgs26
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过研究html网页结构,实现对Web网页中纯文本内容的提取。通过对传统的特征提取方法和文本分类方法进行研究,提出基于概念词典的概念特征提取方法,通过特征提取使用简单向量模糊距离匹配算法对文本进行分类,设计并实现了一个基于中文概念的Web文本分类系统。通过对实验数据的对比分析,引入概念特征之前分类的准确率最高达到89%,引入概念特征后分类平均效率达到95%以上,较之前有较大提高。
其他文献
目的:探讨冠心病中药治疗有效方剂。方法:采用自拟通痹散临床治疗48例冠心病患者,观察其主要临床表现和血脂改善情况。结果:通痹散的有效率(91.6%)明显高于对照组(70.8%)(P〈0.01),血
中国北京:2009年11月9日,DNV(挪威船级社)在软件部大中国区年会上为其一款海洋工程软件Sesam庆祝40周岁生日,并同时推介一款最新的石油石化行业生产性能预测软件Maros&Taro。一老带
目的:为政府制定麻风病防治策略与技术措施提供科学依据。方法:采用现况调查对黔南州历年来所有登记在册的麻风病人,按照《麻风病人现况调查表》和《麻风患者畸残记录表》逐一进
在对多模态遗传算法(MGA)的研究历史和经典算法进行综述的基础上,展望了MGA的研究进展,重点对笔者提出的几种适于多峰值求解的遗传算子及其构成的算法特性进行了分析和比较,指出了
工作流系统中活动节点间业务信息共享的需求使得流程前后节点间存在紧密的业务逻辑关联,因此这些活动节点挂接的业务表单在页面的显示存在着相似性。针对传统业务流程为不同
结核性脑膜炎是结核杆菌引起的脑膜非化脓性炎症,可继发于粟粒性肺结核及其他器官的结核病灶[1]。一般起病缓慢,早期可见结核病的一般中毒症状,如:发热、盗汗、食欲减退、消瘦
针对人脸识别中的鲁棒性问题,提出一种基于局部Gabor三值模式的人脸描述与识别方法。首先,对归一化的人脸图像进行多方向、多分辨率的Gabor滤波,提取对应的Gabor幅值域图谱(GMMs),然后在每个幅值域图谱上采用局部三值模式(LTP)抽取局部邻域关系模式,并由这些模式的区域直方图形成序列来描述人脸。最后通过加权的卡方距离对训练图像和测试图像的直方图进行匹配。Gabor变换、LTP、空间区域直方
根据小波变换原理,采用db1小波基函数,对人脸图像进行3级小波分解。将3层小波近似分量进行重组,得到新的样本向量集。由于非参数鉴别分析对非高斯分布样本集具有良好的适应性,提出了基于小波近似分量和非参数鉴别分析的人脸识别算法。在样本向量集上应用非参数鉴别分析,形成类内和类间矩阵,然后利用Fisher线性鉴别进行人脸识别。实验结果表明,在ORL和CAS-PEAL-R1人脸库上使用上述算法的识别率分别为
网络编码能够达到网络的最大理论容量,由于中间节点的可编码性,使得恶意节点有更多的机会对网络进行污染攻击,扩大了污染信息在网络中蔓延的程度,最终导致网络瘫痪。简要介绍了网
基于模式信息系统总体设计方法,开发了与其相对应的应用系统,并对该系统的功能结构、数据库设计、基于SOM网络的模式生成和基于BP网络的模式实例化设计及实现过程进行了详细介