基于神经网络的中文文本分类中的特征选择技术

来源 :计算机应用研究 | 被引量 : 30次 | 上传用户:liuhaichao811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于神经网络的中文文本分类需要解决的核心问题是特征的选择问题,特征选择涉及选择哪些特征和选择的特征维度两个问题。针对上述问题,提出了信息增益(IG)与主成分分析(PCA)相结合的特征选择方法。通过实验比较分析了不同特征选择方法与特征维度对分类性能的影响,证明了该特征选择方法在基于神经网络的中文文本分类中的优越性,并得出神经网络的特征输入维度在200左右的时候分类性能最佳。
其他文献
数据库计划是由它的实体之间的模式关系构成,该计划随着时间的改变被称为计划演进。XML数据库计划的公理化演进指的是当该计划产生根本的变动时,XML数据库能自动维持其数据的完整性。提出的公理化模式为XML数据库演进的问题提供了一个一般的解决方案,它能明确地决定计划的修改行为和自动维持其数据的完整性。
研究了降雨对视距传输的LMDS正交极化产生的影响。该LMDS系统的工作频率为10GHz~40GHz当中的四个频率,LMDS系统发射水平极化和垂直极化信号,并在两个高密度雨区持续降雨时测量。研究结果表明,降雨衰耗产生的去极化影响随着工作频率的提高而增加,在10GHz附近去极化影响最低。
数据批量输入是B/S模式应用系统中经常遇到的一个待解决的问题。针对该问题提出了一种基于XML的实现方法,首先采用浏览器内置的文件上传控件功能将客户端中以Excel格式保存的缓存文件中的批量数据上传到服务器;然后在服务器端通过数据转换组件技术将其转换成XML格式;再以W eb方式返回给客户端修改和确认;最后导入到服务器端数据库中保存,从而实现B/S模式下数据的批量输入。
可靠性是评价应急物流体的重要指标之一。根据应急物流体构件的复杂多变性,提出与传统系统可靠性不同的计算方法,并将仿真预测引入应急物流体可靠性指标计算,为评价多态、多结构的应急物流体总体可靠性提供基本算法。
在W atershed的分割图像基础上,使用贝叶斯理论的图像分割方法。首先对原始图像进行W atershed变换,然后在变换后的标注图像上进行能量的计算,通过选择最小能量的目标依次找出最理想的目标区域。设计一个先验密度来惩罚图像当中W atershed变换后相似的区域,图像分割进而变成对目标子集的最大后验估计。这样就可以逐步找出最理想目标区域和背景区域。实验结果证明,该方法有较好的分割结果。
通过分析传统访问控制模型及其实现机制的优缺点,提出了一种基于AC证书的XACML访问控制模型及其实现方法,并对模型的安全性进行了分析。
分析研究了MVC(Model-View-Controller)设计模式,为用户提供了网络图、任务图、甘特图、树状图等多种视图,同时针对特定的应用需求,提出对网络图的多级分解、逐层提交的实现方案;实现了新品研制信息和研制进度的多视角、多层次显示和管理。
通过信息熵概念的引入,形式化地给出了概念内涵的重要程度,结合用户的兴趣度,对概念进行约简,提出了约简概念格渐进式构造算法。试验表明,该方法能在保证用户兴趣度的前提下,大大降低概念格构造算法的复杂性。
针对互联网中文文档图像非法信息过滤提出了一种多模板匹配结合可信度分析的方法。该方法克服了传统OCR速度慢的缺点,同时改善了基于图像特征匹配方法对字体和噪音敏感的特性。通过改变关键词搜索方式有效地减小了计算量,提高了识别速度。实验结果表明了该方法的有效性。
虚拟现实的真实感限时图形生成中加速技术十分关键,细节层次模型(LOD)在实时绘制复杂场景中得到了广泛应用。提出了一种基于半边折叠的多分辨率模型构造方法,该算法能够快速简单并有效地减少模型的多边形数,同时将简化记录紧致地存储在隐含着多分辨率模型的单分辨率模型中,减少了存储空间,并能实现快速地提取及显示。