基于概念的Web文本分类方法及实现

来源 :北京信息科技大学学报：自然科学版 | 被引量 : 0次 | 上传用户：hgs26

【摘要】

：

通过研究html网页结构,实现对Web网页中纯文本内容的提取。通过对传统的特征提取方法和文本分类方法进行研究,提出基于概念词典的概念特征提取方法,通过特征提取使用简单向量

【作者】

：

郑瑞娟张仰森

【机构】

：

北京信息科技大学智能信息处理研究所

【出处】

：

北京信息科技大学学报：自然科学版

【发表日期】

：

2013年2期

【关键词】

：

WEB文本分类概念特征概念词典模糊距离匹配算法 Web text classification concept characteristic conc

【基金项目】

：

国家自然科学基金资助项目（61070119）, 北京大学计算语言学教育部重点实验室开放课题基金资助项目（KLCL-1005）, 北京市属市管高等学校人才强教计划基金资助项目（PHR201007131）, 北京市教委专项基金（PXM2012-014224-000020）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

通过研究html网页结构,实现对Web网页中纯文本内容的提取。通过对传统的特征提取方法和文本分类方法进行研究,提出基于概念词典的概念特征提取方法,通过特征提取使用简单向量模糊距离匹配算法对文本进行分类,设计并实现了一个基于中文概念的Web文本分类系统。通过对实验数据的对比分析,引入概念特征之前分类的准确率最高达到89%,引入概念特征后分类平均效率达到95%以上,较之前有较大提高。

其他文献

自拟通痹散治疗冠心病48例疗效观察

目的：探讨冠心病中药治疗有效方剂。方法：采用自拟通痹散临床治疗48例冠心病患者,观察其主要临床表现和血脂改善情况。结果：通痹散的有效率（91.6%）明显高于对照组（70.8%）（P〈0.01）,血

期刊

冠心病患者中药治疗疗效观察通痹散自拟有效方剂临床治疗临床表现

DNV布局亚太，以创新软件服务业界伙伴

中国北京：2009年11月9日，DNV（挪威船级社）在软件部大中国区年会上为其一款海洋工程软件Sesam庆祝40周岁生日，并同时推介一款最新的石油石化行业生产性能预测软件Maros＆Taro。一老带

期刊

工程软件DNV服务业伙伴创新石油石化行业软件解决方案SESAM

黔南州麻风病流行病学调查及对策研究

目的：为政府制定麻风病防治策略与技术措施提供科学依据。方法：采用现况调查对黔南州历年来所有登记在册的麻风病人，按照《麻风病人现况调查表》和《麻风患者畸残记录表》逐一进

期刊

麻风病流行病学防治对策Leprosy Epidemiology Control Measures

多模态遗传算法研究及其进展

在对多模态遗传算法（MGA）的研究历史和经典算法进行综述的基础上，展望了MGA的研究进展，重点对笔者提出的几种适于多峰值求解的遗传算子及其构成的算法特性进行了分析和比较，指出了

期刊

多模态遗传算法小生境简单子群平衡空间局部分享优育子群multi-modal genetic algorithm niche simple s

基于组件的工作流表单权限的柔性建模

工作流系统中活动节点间业务信息共享的需求使得流程前后节点间存在紧密的业务逻辑关联,因此这些活动节点挂接的业务表单在页面的显示存在着相似性。针对传统业务流程为不同

期刊

工作流表单组件权限复用柔性workflow form component permission reusability flexible

20例结核性脑膜炎鞘内给药的护理体会

结核性脑膜炎是结核杆菌引起的脑膜非化脓性炎症,可继发于粟粒性肺结核及其他器官的结核病灶[1]。一般起病缓慢,早期可见结核病的一般中毒症状,如：发热、盗汗、食欲减退、消瘦

期刊

结核性脑膜炎腰穿鞘内给药

基于局部Gabor三值模式的人脸识别

针对人脸识别中的鲁棒性问题,提出一种基于局部Gabor三值模式的人脸描述与识别方法。首先,对归一化的人脸图像进行多方向、多分辨率的Gabor滤波,提取对应的Gabor幅值域图谱(GMMs),然后在每个幅值域图谱上采用局部三值模式(LTP)抽取局部邻域关系模式,并由这些模式的区域直方图形成序列来描述人脸。最后通过加权的卡方距离对训练图像和测试图像的直方图进行匹配。Gabor变换、LTP、空间区域直方

期刊

人脸识别GABOR滤波器局部三值模式face recognition gabor filter local ternary patterns

基于小波近似分量非参数鉴别分析人脸识别算法

根据小波变换原理,采用db1小波基函数,对人脸图像进行3级小波分解。将3层小波近似分量进行重组,得到新的样本向量集。由于非参数鉴别分析对非高斯分布样本集具有良好的适应性,提出了基于小波近似分量和非参数鉴别分析的人脸识别算法。在样本向量集上应用非参数鉴别分析,形成类内和类间矩阵,然后利用Fisher线性鉴别进行人脸识别。实验结果表明,在ORL和CAS-PEAL-R1人脸库上使用上述算法的识别率分别为

期刊

人脸识别小波近似分量非参数鉴别分析face recognitionwavelet approximation coefficientsnon-para

网络编码中抗污染攻击研究

网络编码能够达到网络的最大理论容量，由于中间节点的可编码性，使得恶意节点有更多的机会对网络进行污染攻击，扩大了污染信息在网络中蔓延的程度，最终导致网络瘫痪。简要介绍了网

期刊

网络编码抗污染攻击攻击者身份network coding anti-pollution attack attacker＇ s identity

基于模式总体设计应用系统的开发及实现

基于模式信息系统总体设计方法，开发了与其相对应的应用系统，并对该系统的功能结构、数据库设计、基于SOM网络的模式生成和基于BP网络的模式实例化设计及实现过程进行了详细介

期刊

模式总体设计SOMBPpattern architecture design SOM BP

基于概念的Web文本分类方法及实现

与本文相关的学术论文