基于体裁的中文网页分类的特征选取

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:shicyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
探讨基于体裁的中文网页分类的特征项选取问题。词汇特征方面,结合自动抽取和人工归纳的方式来获得。通过改进PAT树存储结构,进行序列挖掘来获得频繁字符串特征,使得文本分类系统摆脱对切词处理和词典的依赖,并提出了模糊字符串模式的特征表达方式。此外,特征集中融入了文本的形式特征,并根据网页的特点,引入链接信息特征。实现了基于体裁的中文网页分类系统,结果表明分类效果得到了有效的改善。
其他文献
目的:分析风寒湿性关节痛应用中药蜡疗技术治疗的临床效果。方法:选取我院2016年3月~2017年1月期间收治的100例风寒湿性关节痛患者的临床资料,将其随机分为对照组和观察组,每
Web服务是微软和IBM公司为能够解决当前的信息的整合而提出的,是一种部署在Web上、面向Intemet的、基于XML的对象/组件技术;其目标是能够自动和统一地封装服务信息、服务行为
介绍开发基于分割视窗技术的故障信息挖掘软件的必要性。在研究三角插值数学模型及算法之后,讨论了采用面向对象编程语言、组件、指针偏移挖掘策略、窗口分割技术进行软件开发
介绍了OBE的教学理念下培养方案的制定方法,分析了《电力系统分析》的教学现状,提出了"构建式"教学方法和项目驱动式教学设计,提出利用课程目标达成度来评价教学的方法。以《
随着网络规模的不断扩大,需要更加有效的方法来模拟现实的网络情况。NS2作为一种开放源代码的网络仿真软件而广泛使用。首先比较3种不同的仿真器,然后介绍NS2的原理与实现,详细
水适应性是生态适应性的一个重要组成部分。通过研究京西山地古村落水适应性生态智慧,分析其村落选址、路网排水系统、调蓄池塘、复合农业生产模式等经验做法,以及朴素的水环
因其核函数的良好性态,RBF核SVM(RBF-SVM)在实际应用中表现出良好的学习性能,但是RBF核函数中的参数对SVM的性能起决定性作用.阐述了RBF-SVM的性能随着变化而变化的规律,并将RB
长治市长子县,这里因为1000千伏特高压工程起始站的坐落而备受世人关注。$$ 2009年1月6日是世界电力历史值得大书特书的一天,也是中国电力工业最为扬眉吐气的一天。这一天,代
报纸
在对经典信息过滤算法进行研究分析的基础上,结合网页重要性和主题相关性,给出了专题搜索引擎中信息过滤模块的设计思路和实施策略,并在专业词汇、查询扩展和用户反馈等方面
从国内生产能力、品种、规格、质量、包装、标准、性能检测、报废原则等多个方面介绍国产水处理用离子交换树脂的发展现状,提出存在的问题和与国外的差距,指出今后离子交换树