【摘 要】
:
短文本分类是网络内容安全的一种主要方法.然而,短文本固有的关键词特征稀疏和样本高度不均衡等特点,使得难以直接使用现有针对长文本的分类算法.本文提出了一种针对短文本的
【机 构】
:
中国科学技术大学计算机科学技术系,安徽省计算与通讯软件重点实验室,解放军保密委员会技术安全研究所
【基金项目】
:
国家973课题(No.2004CB318109);国家863课题(No.2007AA11Z240);教育部新世纪优秀人才支持计划(No.NCET-07-0787)
论文部分内容阅读
短文本分类是网络内容安全的一种主要方法.然而,短文本固有的关键词特征稀疏和样本高度不均衡等特点,使得难以直接使用现有针对长文本的分类算法.本文提出了一种针对短文本的动态组合分类算法.首先构造出一种树状组合分类器结构,可有效缓解短文本特征稀疏和样本高度不均衡对分类性能的影响;进一步,提出了一种动态调整策略来训练组合分类器,可以根据样本的分布特点自适应地调整分类器的组合结构.测试实验表明,相对于传统的单一分类方法和集成分类方法,动态组合分类算法在短文本分类中可以获得更好的准确率和召回率.
其他文献
定标器(Scaler)是广泛应用于平板显示器系统中的图像缩放引擎,它将不同分辨率的输入图像经缩放后以固定的分辨率输出到平板显示器上.本文首先在分析定标器系统结构的基础上提
随着计算机软硬件系统日益复杂,如何保证其正确性和可靠性成为日益紧迫的问题.在为此提出的诸多理论和方法中,模型检测(model checking)以其简洁明了和自动化程度高而引人注
生态文明是人类文明的一种形式,人类从原始社会走来,期间经历了黄色的农业文明、黑色的工业文明到现在绿色的生态文明。习近平深刻洞悉人类文明发展趋势,适时地提出了生态文
图像分割是计算机视觉中一个重要的研究课题.本文提出一种基于直方图的多阈值灰度图像自动分割方法,该方法利用加权模糊c-均值聚类算法快速实现分割过程,同时通过单峰统计检
究出错原因寻教学对策──力学中的功能关系教学讨论民勤县一中李万忠力学中常用的功能关系有4个,这就是:①合外力的功跟动能变化的关系──动能定理;②重力的功跟重力势能变化的
由于炼铁工艺比较复杂,在炼制过程中,铁矿与气体发生化学反应,炉体的气温和气体不容易控制,从而影响到钢铁生产质量。将自动化技术应用在炼铁生产环节中,通过采集高炉生产参
以家庭日常生活叙事折射时代宏大革命主题的艺术方式,对才子佳人情节模式的艺术借鉴,对性格迥异知识分子心理轨迹演变的成功描写,都表现出《三家巷》与中国古代、现代家族小说的
从1996年1月~2002年6月,笔者采用异功散加味配合自拟的四神食疗方治疗小儿疳症235例,并进行对比观察,现将结果报告如下。 1 资料与方法 1.1 临床资料:398例我院门诊患儿按199
高性能混凝土除了具有较高的强度,还必须具有良好的工作性能及高耐久性。为使普通混凝土高性能化,即具有流动性、可泵性好,以及高的耐久性,向混凝土中掺入矿物质粉体是一项重
利用国际耦合模式比较计划第5阶段(CMIP5)中的21个气候模式的RCP4.5和RCP8.5情景预估结果,分析了全球变暖1.5℃和2℃阈值时青藏高原气温年和季节的变化特征。结果表明,对应1.