海量中文文本的特征提取

来源 :2005第一届中国分类技术与应用研讨会(CSCA) | 被引量 : 0次 | 上传用户：forbook121

【摘要】

：

针对海量中文文本提出了专门的特征提取模型.目标在于提取出某个类别的共同特征,并且评价各个特征权重.模型包含4部分:文档DIDF、类别CIDF、特征的类别集中度FC、长度分布因子LD.模型能够很好平衡各个指标之间彼此相互影响.给出了关键参数:类别最小文档发生数量Pmin、最小相对可信度Cmin、最大类别发生数量Pmax、最小加权集中度FCmin四项最优值.在召回率95﹪下,其分类准确度达到87.34

【作者】

：

吴春尧张海军杨炳儒

【机构】

：

北京科技大学信息工程学院,北京,100083

【出处】

：

2005第一届中国分类技术与应用研讨会(CSCA)

【发表日期】

：

2005年1期

【关键词】

：

海量中文文本文本分类特征提取海量数据数据平衡最小加权集中度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

一种简化的进化神经网络方法及其对复杂气层的识别

在复杂气识别中,单纯使用神经网络存在因输入信息空间维数较大而使网络结构复杂、训练时间长,以及因冗余属性使网络拟合精度不高等缺点,为此提出一种简化的进化神经网络方法,主要包括基于粒度相似度的连续属性离散化算法;基于粗糙集的属性约简算法;基于粒子群进化计算的网络学习训练算法;以及基于黄金分割的隐含层节点数的优选等步骤.通过长庆复杂气层的实际应用表明,这种简化的进化神经网络方法不仅满足识别系统的精度要求

会议

进化神经网络属性约简粒度相似度粒子群算法黄金分割法复杂气层识别

基于最小最大模块化支持向量机的多标号文本分类

提出了一种新的解决多标号文本分类问题的方法.对于一个K类多标号问题,首先采用"一对其他"的问题分解方法将原问题分解为K个两类问题;然后按照最小最大模块化支持向量机(M3-SVM)的"部分对部分"问题分解方法,再对这些两类问题进一步分解.这种方法的特点是能将大规模、训练样本极不平衡的两类问题分解成用户希望的任意大小的相对平衡的两类问题,并能容易地实现并列学习.对读卖新闻日文数据集和路透社英文数据集进

会议

多标号文本分类最小最大模块化支持向量机并列学习

一种约束关联规则挖掘算法的实现

约束关联规则挖掘是数据挖掘的重要课题之一,由于能够利用约束条件削减搜索空间,提高挖掘效率,因而受到广泛关注.为更灵活地表达用户的兴趣所在,提出规则格式约束的概念,并以Direct算法为基础,实现了一种基于规则格式约束的关联规则挖掘算法MRCAR.算法首先利用Direct算法挖掘满足规则格式约束条件的频繁项集,然后利用规则格式约束条件限制无关规则的产生.减少了侯选项集和关联规则的产生数目,提高了算法

会议

数据挖掘关联规则规则格式约束侯选项集

基于决策树的强化学习算法

在将强化学习应用于实际问题时,遇到的困难之一是如何根据连续的传感器输入信号来构造合适的状态表达.提出了一种自动构造状态空间的方法,采用基于决策树的强化学习模型,将传感输入空间离散化处理来构造一棵状态分类树,以便变分辨率地划分输入状态空间,并利用决策树来逼近值函数.提出的方法结合了基于短期记忆学习和统计推断方法的优点,仿真结果表明,该方法能够生成有效的状态表达和更快地进行学习。

会议

强化学习Q-学习决策树变分辨率划分离散化处理状态分类树

基于可分性度量的捆绑模型分析及其在手语识别中的应用

针对具体应用设计效果更优的分类器一直是模式识别领域重要的研究内容.对于不同分类器效果的评价,目前的主要途径是建立在识别率的比较上.识别率具有简洁直观的优点,但其受测试集的影响较大,且用其指导更优分类器的设计的能力较弱.基于信息论中有关互传信息量的理论,提出了分类器的可分性度量方法,并提出了模式空间多分辨率分析的概念以及其与分类器可分性度量之间的关系,进而提出了以提高分类器分类能力为目标的模型捆绑方

会议

互传信息量可分性度量模型捆绑手语识别模式识别分类器

XCC:一种基于聚类的XML文档压缩存储方法

XML文档压缩处理是XML数据管理研究领域的一个热点问题,已有的研究工作均以XML文档为基本处理单元,而没有考虑因文档间存在相似性所造成的数据冗余.聚类方法是XML文档分类的有效手段,提出了一种XML文档紧凑结构构造算法和相似度计算方法,通过局部迭代调优的k-means聚类算法(XCC)对XML文档集进行聚类,并在此基础上给出了XML文档压缩存储策略.实验结果表明,这一方法具有很好的性能,能够满足

会议

XML数据管理数据压缩聚类文档相似度文档压缩存储

聚类在内容适配中的研究

当前内容适配不够准确、智能,为解决此问题,把语义网的一些思路用于内容适配中,提出根据公共Ontology跟本地Ontology连接来指导适配,从而提供更个性化、更智能的服务,而Ontology实例的相似度计算可以成为适配的依据.针对应用采用不同的权值,计算出来的相似度不同,得到的聚集也不同,这样可以针对不同的需求来进行聚集,从而指导适配,使适配更贴近人们的主观质量要求,也具有更好的语义解释.据此提

会议

语义网聚类缓存替换算法本体内容适配

基于Biased SVMs的中文Web过滤系统

通过对汉语表达习惯、网页结构特性和用户一般浏览模式的分析,归纳出用户兴趣描述包括关键查询词和查询关联度两部分信息,并把过滤任务根据查询关联度不同划分为相关过滤、相似过滤、相近过滤3个层次,提出了可根据训练向量分布特性和用户调节参数自调整查询关联度的BiasedSVMs改进算法.基于BiasedSVMs设计并实现了一个中文Web过滤系统,该系统采用URL分析、主题句分析和网页正文分析相结合的体系结构

会议

中文网页过滤查询关联度有偏支撑向量机二叉搜索树浏览模式

一种改进的SVM决策树算法

为进行多值分类,研究了SVM决策树.基于对SVM决策树的结构与分类性能的分析,定义了特征空间中反映类分布的类分离性测度,并将定义的类分离性测度引入到决策树构成的过程中,提出了改进的SVM决策树算法,对已有数据集的分类实验表明了本文方法的有效性。

会议

支持向量机SVM决策树分离性测度多值分类数据集分类

基于规则格式约束的关联规则挖掘在电信业中的应用

关联规则挖掘在电信领域有广泛的应用前景.约束关联规则挖掘可以提高挖掘效率,表达用户兴趣.首先提出了规则格式约束的概念并加以算法实现,然后以电信公司实际数据为对象,讨论了基于规则格式约束的关联规则在电信行业业务发展分析中的实际应用.实验结果分析证明,所得实验结论可以为电信行业近期内的业务发展方向及增长幅度提供辅助的参考依据,同时,挖掘的效率和灵活性也得到了近一步改善,因此,这一方法是有效和实用的。

会议

数据挖掘约束关联规则规则格式约束电信行业业务发展分析

海量中文文本的特征提取

与本文相关的学术论文