基于体裁的中文网页分类的特征选取

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户：shicyh

【摘要】

：

探讨基于体裁的中文网页分类的特征项选取问题。词汇特征方面，结合自动抽取和人工归纳的方式来获得。通过改进PAT树存储结构，进行序列挖掘来获得频繁字符串特征，使得文本分类系

【作者】

：

黄臻臻吴扬扬

【机构】

：

华侨大学计算机科学系

【出处】

：

计算机工程与设计

【发表日期】

：

2007年11期

【关键词】

：

网页分类体裁特征选取序列挖掘模糊字符串模式 web page categorization genre feature selection sequen

【基金项目】

：

福建省科技计划基金项目（20041014）,福建省自然科学基金项目（A0510020）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

探讨基于体裁的中文网页分类的特征项选取问题。词汇特征方面，结合自动抽取和人工归纳的方式来获得。通过改进PAT树存储结构，进行序列挖掘来获得频繁字符串特征，使得文本分类系统摆脱对切词处理和词典的依赖，并提出了模糊字符串模式的特征表达方式。此外，特征集中融入了文本的形式特征，并根据网页的特点，引入链接信息特征。实现了基于体裁的中文网页分类系统，结果表明分类效果得到了有效的改善。

其他文献

风寒湿性关节痛应用中药蜡疗技术治疗的临床分析

目的:分析风寒湿性关节痛应用中药蜡疗技术治疗的临床效果。方法:选取我院2016年3月~2017年1月期间收治的100例风寒湿性关节痛患者的临床资料,将其随机分为对照组和观察组,每

期刊

风寒湿性关节痛临床效果中药蜡疗技术疼痛

基于时间Petri网的Web服务建模技术研究

Web服务是微软和IBM公司为能够解决当前的信息的整合而提出的,是一种部署在Web上、面向Intemet的、基于XML的对象/组件技术;其目标是能够自动和统一地封装服务信息、服务行为

期刊

时间PETRI网WEB服务Web服务流语言商务流程模型工作流可扩展标记语言time Petri nets web services web serv

基于分割视窗技术的故障信息挖掘研究

介绍开发基于分割视窗技术的故障信息挖掘软件的必要性。在研究三角插值数学模型及算法之后，讨论了采用面向对象编程语言、组件、指针偏移挖掘策略、窗口分割技术进行软件开发

期刊

数学模型算法分割视窗信息挖掘通信故障math model arithmetic window split information mining co

OBE模式下课程教学设计——以《电力系统分析》为例

介绍了OBE的教学理念下培养方案的制定方法,分析了《电力系统分析》的教学现状,提出了"构建式"教学方法和项目驱动式教学设计,提出利用课程目标达成度来评价教学的方法。以《

期刊

OBE电力系统分析教学设计教学评价

网络仿真器在模拟大型网络中的优化方法

随着网络规模的不断扩大，需要更加有效的方法来模拟现实的网络情况。NS2作为一种开放源代码的网络仿真软件而广泛使用。首先比较3种不同的仿真器，然后介绍NS2的原理与实现，详细

期刊

网络仿真器事件驱动路由算法NS2network simulator event-driven routing algorithm NS2

京西山地古村落水适应性环境营造生态智慧研究

水适应性是生态适应性的一个重要组成部分。通过研究京西山地古村落水适应性生态智慧,分析其村落选址、路网排水系统、调蓄池塘、复合农业生产模式等经验做法,以及朴素的水环

期刊

生态智慧水适应性古山村京西生态环境

RBF核SVM及其应用研究

因其核函数的良好性态,RBF核SVM（RBF-SVM）在实际应用中表现出良好的学习性能,但是RBF核函数中的参数对SVM的性能起决定性作用.阐述了RBF-SVM的性能随着变化而变化的规律,并将RB

期刊

支持向量机径向基核函数学习性能羽绒识别变化曲线识别率support vector machine （SVM） RBF kernel function

特高压建设给山西带来什么

长治市长子县，这里因为1000千伏特高压工程起始站的坐落而备受世人关注。$$ 2009年1月6日是世界电力历史值得大书特书的一天，也是中国电力工业最为扬眉吐气的一天。这一天，代

报纸

专题搜索引擎中信息过滤的研究与实现

在对经典信息过滤算法进行研究分析的基础上,结合网页重要性和主题相关性,给出了专题搜索引擎中信息过滤模块的设计思路和实施策略,并在专业词汇、查询扩展和用户反馈等方面

期刊

搜索引擎信息过滤网页级别向量空间模型search engine information filtering PageRank vector space

国产电厂水处理用离子交换树脂现状综述

从国内生产能力、品种、规格、质量、包装、标准、性能检测、报废原则等多个方面介绍国产水处理用离子交换树脂的发展现状,提出存在的问题和与国外的差距,指出今后离子交换树

期刊

离子交换树脂水处理火力发电厂

基于体裁的中文网页分类的特征选取

与本文相关的学术论文