新的短文本特征权重计算方法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:liongliong505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本固有的特征稀疏和样本高度不均衡等特点,使得传统长文本的加权方法难以直接套用。针对此问题,提出一种针对短文本的特征权重计算方法——综合类别法。该方法引入反文档频和相关性频率的概念,综合考虑了样本在正类和负类中的分布情况。实验结果表明,相对于其他特征权重方法,该方法的微平均和宏平均值均在90%以上,能增强样本在负类中的类别区分能力,改善短文本分类的查准率和查全率。
其他文献
社会结构、城乡结构、生活方式等方面的改变,促使我国进入后转型时代。由于在推动经济发展的"三驾马车"中,投资和出口对经济发展的拉动日渐疲软,消费成为助推国民经济发展的
十八届三中全会通过的《中共中央关于全面深化改革若干重大问题的决定》(以下简称《决定》),《决定》中明确法治中国的建设蓝图:法治中国必须坚持依法治国、依法执政、依法行
异构无线网络环境下,无线终端可以采用多种接入技术(UMTS、LTE、WLAN等)进行通信.针对异构无线网络中带宽资源受限的问题,提出了一种基于带宽资源分配的网络选择策略.该策略
针对图像高斯噪声的特点 ,提出了基于PCNN的图像高斯噪声的滤波新方法。通过对脉冲耦合神经网络运行机理的分析 ,指出网络中神经元间的捕获特性本身在一定程度上起着对图像的
为减小无线传感器(WSN)网络数据传输过程中相关性发生变化对压缩感知重构精度的影响,提出一种相关性自适应的网络数据重构方法。该方法首先通过迭代对待重构数据的相关性进行
在未进入本文阐述之前,先有两点说明是必要的。第一,在日常行文中或科学分类中,人们常将“教育学”与“教育科学”视为同一概念,都属于一级学科。属于一级学科的“教育学”包括了
微弱低频的心电信号采集中容易受到外界环境的干扰,必须先对其进行预处理才能用于心脏疾病的诊断。Mallat算法的小波分解重构法不能有效滤除心电信号中的工频和肌电干扰;小波
《教育研究》1998年第2期发表了蔡宝来、王嘉毅的《现代教学论的概念、性质及研究对象》一文(以下简称《现》文),文中的一些观点及问题,引起了我们的思考。现谈一些想法,既与作者商榷,也
介绍了近年来国外环境友好石油炼制技术的进展,包括生产新配方汽油和低硫、低芳烃柴油,采用无毒无害催化剂,减少废碱排放和提高工艺选择性。探讨了国内在上述领域里的技术开发现
<正>多媒体教学增添了物理实验教学的直观性和趣味性,而互联网的普及,为物理实验教学的开放共享提供了平台。如何应用互联网资源和平台以及新的传媒助推物理实验教学,是新时