一种基于类别信息的改进文本特征选择

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:xdool
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息增益方法从整个训练集角度进行特征赋权,该模式不适合构造类别特征向量。通过改进的朴素贝叶斯方法选择类别特征用于构造类别向量,再利用词频信息改进信息增益模型用于文本特征选择,改善了信息增益模型对于中频词信息利用不足问题,提出一种基于类别的文本特征加权改进模型。随后的文本分类试验表明,提出的加权模型相比较于传统的信息增益方法具有较好的文本分类效果。
其他文献
论述高校国有资产管理面临的现状,分析在市场经济体制下国有资产管理存在的问题。在剖析这些存在的问题的同时,提出了一些相应的对策,以供选择。
人工神经网络在集群上的并行化设计和实现能够充分发挥ANN并行处理的特点,缩短训练时间,降低算法复杂度。随着并行技术的日益成熟,在并行集群上以软硬件相结合的方式设计神经网络的重要性也不断提高。从软硬件平台的多方面讨论了并行集群技术对人工神经网络设计的支持,提出了一种SOM神经网络在并行集群上的设计方法和基础框架,并就并行集群上神经网络训练效率的问题进行了深入讨论。该方案可广泛应用于多种神经网络模型的
采用氢气脉冲吸附色谱法测定了3种天然气蒸汽转化催化剂对氢的化学吸附量,计算了镍表面积和镍平均晶粒度,用TPD法考察了催化剂表面氢吸附中心类型。结果表明:催化剂镍表面积
多线程爬行是高效率网络机器人实现的关键。分析在单个计算机节点上网络机器人多线程爬行的关键流程,并借鉴硬件指令流水线的执行过程研究不同多线程并发调度策略下系统的性能特点。最后,给出实现网络机器人多线程爬行的关键数据结构、并发调度方法及URL消重策略。实验数据表明:有效地控制并发和有选择地消除重复URL可以提高网络机器人的爬行速度。
在间歇实验装置基础上,采用管式连续实验装置,对甲酸甲酯水解过程,如反应温度、压力、停留时间、水酯比及甲酸加入量等影响因素,进行了系统考察,验证了在间歇反应器中所得到
对由CO2、环氧丙烷、环氧乙烷、聚碳酸亚丙酯、甲苯等构成的7个体系在40~70℃的气液平衡作了简易测定和闪蒸计算,结果与用Peng—Robinson状态方程法计算的完全一致;计算了CO2在液相及在整个体系中的浓度
通过对Web日志中用户访问模式规则抽取方法的研究,提出一种基于云理论的Web日志定性规则提取方法。该方法分析了影响用户兴趣度的时间因素,利用云模型表示关联规则挖掘中支持度和置信度的"软阈值",采用云变换过程来实现各页面停留时间定性概念的划分,克服了边界过硬的问题。与传统方式相比,该方法挖掘出的规则是一种基于时间概念的多条件多规则的定性描述形式,能够灵活地反映Web用户访问模式的规律性。
基于音频小波域系数的均值和方差特征,提出了一种自适应音频水印方法。通过修改音频帧小波域子带细节系数,使其统计均值按照欲嵌入的水印信息发生改变。根据各音频帧的方差调整水印在不同帧中的嵌入强度,检测水印时不需要原始音频。仿真实验表明水印算法能具有更好的不可感知性,并对常规的音频信号处理,例如滤波、MP3压缩、重采样、重量化、幅度放缩等有良好的稳健性。
随着电子商务的发展,电子支付系统逐渐发展起来。而现有多数的电子现金不能在多家金融机构中流通,并且电子现金的数额在发放时就被固定了,交易时只能在本系统中使用。利用椭圆曲线密钥机制,基于Song-Korba的电子现金框架基础,提出一种由某一权威的金融机构(如中央银行)统一发行,可在多家银行中流通的电子现金体系。对Song-Korba框架做了一些改进,使电子现金交易后的体积不变,可实现余额的合并,安全性