【摘 要】
:
针对短文本具有特征稀疏、不规范、主题不明确等特点,提出一种有效的基于支持向量机的短文本分类方法.由于汉语中依存语法分析准确率和时间效率不高的问题,针对客户文本咨询的特点,在对短文本分类时,本文并未对句子进行依存语法的分析,而是主要使用句法特征进行分析,找出文本的子串和子序列形成候选特征集,之后利用信息增益、互信息、卡方统计3种特征选择方法进行有效特征选择,最后采用支持向量机方法进行文本分类.将本文所提的模型应用于一组真实数据,实验结果表明,平均正确率可达到84.19%,从而验证该分类方法的鲁棒性和有效性.
【机 构】
:
北京交通大学信息中心,北京 100044
论文部分内容阅读
针对短文本具有特征稀疏、不规范、主题不明确等特点,提出一种有效的基于支持向量机的短文本分类方法.由于汉语中依存语法分析准确率和时间效率不高的问题,针对客户文本咨询的特点,在对短文本分类时,本文并未对句子进行依存语法的分析,而是主要使用句法特征进行分析,找出文本的子串和子序列形成候选特征集,之后利用信息增益、互信息、卡方统计3种特征选择方法进行有效特征选择,最后采用支持向量机方法进行文本分类.将本文所提的模型应用于一组真实数据,实验结果表明,平均正确率可达到84.19%,从而验证该分类方法的鲁棒性和有效性.
其他文献
多时段特性是间歇过程的本质特性之一,对间歇过程实现有效的时段划分是故障监测的基础.传统的时段划分方法大多针对过程的输入输出数据,对输入输出数据突变较为敏感.本文提出一种基于瞬时频率响应函数的间歇过程时段划分方法,该方法基于系统的瞬时动态特性,用瞬时频率响应函数替代输入输出数据进行时段划分,利用小波变换估计系统的瞬时频率响应函数进行核主元分析降维,通过模糊C均值聚类对降维后频率响应函数进行聚类划分时段.实验结果表明,本文所提出的方法能够实现对间歇过程的时段划分,并具有较高的鲁棒性.
在利用层次随机图(HRG)模型对真实网络进行链路预测的过程中,需要构造一个初始层次随机图来初始化马尔科夫链以运行马尔科夫链蒙特卡洛抽样算法.针对现有的层次随机图初始化方案效率不高的问题,本文对初始层次随机图模型进行重建,提出一种新的层次随机图模型初始化算法.该算法分为2个阶段,第一阶段引入相似性指标(LHN-I指标)为网络中的边进行排序;第二阶段利用排序好的边对层次随机图模型进行构造.在该过程中,设计一种将网络顶点插入到层次随机图模型中的方法.通过3个实例网络对提出的算法与现有算法的性能进行比较,实验结果
人类对海洋资源的探测与开发的主要方式是通过水下传感器网络来实现的,而水下传感器节点收集的数据在丢失精确的定位信息时便失去了其主要的价值.因为现在许多已经被广泛使用的水下定位算法仍然难以实现精确的测距,所以导致其定位精度偏低、不理想.本文提出一种基于长短期记忆网络修正测距的水下定位算法,该算法使用一种循环神经网络的变体模型长短期记忆网络来改进基于信号到达时间差测距算法,通过处理海洋环境的历史信息、测距值等数据进行训练,能够高效准确地预测当前的测距修正值,从而获得优化测距误差的效果.通过上述两者的有效结合进一
网络流量分类广泛应用于网络资源分配、流量调度、入侵检测系统等研究领域.随着加密协议的普及和网络流量快速发展,基于深度学习的流量分类器由于其自动提取特征的特性和较高的分类准确性,逐渐受到科研人员的重视,但是面向网络流量分类的可信程度方面却不曾有研究.本文提出一种基于RBF神经网络对加密网络流量进行可信分类的方法.所提算法建立在RBF网络的思想上并采用一种新的损失函数和质心更新方案来进行训练,通过使用梯度惩罚强制检测输入的变化,能够有效地检测分布外的数据.在2个公共的ISCX VPN-nonVPN和USTC-
提出一种基于遗传算法的容器云资源配置优化方法.充分考虑虚拟机配置于物理主机以及容器配置于虚拟机的资源分配情况,将容器云平台数据中心整体能耗最低作为目标函数,设置物理主机与虚拟机对应、虚拟机与容器对应等约束条件,利用遗传算法通过染色体表达、初始化、交叉操作、变异操作以及设置适应度函数5个步骤求解目标函数,获取最优容器云环境资源配置结果.实验结果表明,本文方法可实现容器云资源的合理配置,提高物理资源的利用效率,实现数据中心节能的目标.
签密算法能够在一个逻辑步骤中同时实现加密和签名功能,相较于传统的先签名后加密方案,签密算法具有计算量与通信成本低的优点,被广泛应用于电子支付、物联网等场景中.现有的基于椭圆曲线和双线性对实现的签密方案普遍存在执行效率低的问题,因此本文提出一种基于区块链的无证书签密方案.新方案基于离散对数实现,具有执行效率高等优点.新方案同时利用区块链不可篡改性和可追溯等优点,用以实现方案的不可否认性.安全性分析表明本文方案具有不可否认性、机密性及不可伪造等特性,性能分析表明新方案执行效率较高,仿真实验显示引入区块链后对系
为了更加贴合实际情况研究谣言溯源问题,考虑社交网络中对传播谣言节点的封禁隔离能力,扩展经典SIR传染病模型提出SIOR(Susceptible-Infected-isOlated-Removed)模型.基于最优信息传播过程计算出谣言源的估计值,并且针对SIOR模型验证该估计值近似于网络拓扑中的Jordan感染中心.根据RI(Reverse Infection)算法,提出一种针对SIOR模型的反向信息传播算法,该算法可以识别出网络拓扑图中的Jordan感染中心.最后在不同的网络中模拟实验,验证该算法的溯源效
随着生产制造业的发展,各行业在生产制造的过程中都会产生大量的工程数据,现代工程领域的数据检索需求要求能够通过关键字快速且准确检索出相应的结果,利用ElasticSearch可以实现工程数据的检索,但是其性能方面还有优化的空间.为了解决这个问题,本文对ElasticSearch的底层原理进行深入研究,在ElasticSearch的索引创建、索引分片以及索引段合并方面进行优化.首先对ElasticSearch的分词器进行修改并配置自定义词典,其次提出基于集群节点性能与索引数据量大小的索引分片策略,最后,根据节
传统的污染监测方法主要是通过固定基站进行监测的,但是这种方法缺乏灵活性且成本高昂,已不足以应对日益严重的污染问题.一种新的数据获取模式——移动群智感知为大范围感知数据提供了新思路.为了及时掌握移动群智感知收集污染数据的研究现状,本文对国内外现有研究进行系统全面的综述,并结合现有研究,为群智感知在智能手机上的应用提供可行方案.首先,对污染收集技术不同发展阶段问题进行总结;然后,对比分析不同众包污染收集系统的优缺点,并对所用的关键技术优缺点及适用场景进行说明;最后,对群智感知下收集污染数据存在的问题进行总结,
在大数据时代背景下,越来越多的用户或者企业将大量的数据上传至云端存储以便减轻本地存储的压力和获得高效的数据共享服务管理,由此可搜索加密技术应运而生,检索效率与保证数据安全一直是研究的热点.因此,本文提出一种基于特征匹配的快速降维排序搜索方法(DRFM).通过提出的特征得分算法,创建每一篇文档的索引特征向量;通过提出的匹配得分算法,创建查询关键词的查询匹配向量.使用K-L变换算法对所有文档索引特征向量以及查询匹配向量进行降维,提高算法效率.理论分析与实验结果表明所提的方案高效且可行.