一种新的基于最大概率路径的中文分词

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:ly12345000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词在自然语言处理中占据了十分重要的地位.为了提高中文分词的速度,论文提出了一种新的求解最大概率路径的方法.该方法主要分为两步:1)将词频总和的数值减小来解决下溢问题;2)避免使用复杂的计算方法,使用简单的除法操作来降低运行时间提高分词速度.最后,使用搜狗新闻数据集进行实验验证,新方法的中文分词速度相较于JIEBA的中文分词的速度显著提高,并且为了验证分词的性能,对准确率,召回率以及F1进行了计算,三个指标的值均可达到95%以上.
其他文献
在最小二乘支持向量机基础上建立磨煤机的故障诊断模型,采用该模型进行故障诊断时,支持向量机受到核函数参数和惩罚因子的影响较大,针对这一问题,采用天牛群(BSO)算法对模型参数进行优化,提出了一种基于支持向量机(SVM)的磨煤机故障诊断方法.首先,通过引进天牛须搜索策略,对粒子群算法的位置更新规则进行了改进;然后,通过偏互信息方法对故障特征进行了筛选,结合某电厂实测数据,利用改进的算法对支持向量机核函数参数和惩罚因子进行了优化;最后,分别使用天牛群算法优化支持向量机模型(BSO-SVM)、粒子群算法优化支持向
论文针对将遥感图像用于目标检测时地面车辆小目标的漏检和虚警问题,基于YOLOv3,对其躯干网络做如下改进:取消多尺度融合,独立地输出各个尺度上的特征图;在每个独立输出的尺度上引入dilation卷积和Inception-ResNet结构.基于VEDAI数据集,进行YOLOv3和改进模型的训练和测试,改进模型对车辆小目标检测的准确率和召回率分别提升了1.07%和6.02%,对测试集检测的准确率和召回则率分别提升了1.59%和5.34%,该结果表明改进模型能够有效地解决地面车辆小目标的漏检和虚警问题.
论文提出一种基于注意力机制(Attention)的融合神经网络预测方法预测LncRNA与蛋白质的相互作用,命名为PIPAFNN.通过栈式自编码器和融合神经网络(CNN)-长短期记忆网络(LSTM)分别对LncRNA和蛋白质的序列进行特征提取,在模型学习过程中使用注意向量,使得训练出的模型能够关注不同样本中对预测方法具有更大影响的特征属性,从而有效地预测LncRNA和蛋白质的互作关系.同时,利用五折交叉验证,模型在拟南芥和玉米数据集上的AUC值分别是0.9582和0.9251,与其他机器学习方法进行比对提升
人耳听觉系统能够从嘈杂的环境中筛选出自己感兴趣的语音,基于计算听觉场景分析的方法,论文采用倒谱法提取语音基音周期轨迹,以连续的基音周期轨迹为线索,按基音频率的整数倍提取各次谐波的频谱,再通过傅里叶逆变换重构分离后的语音.实验表明,在几种典型噪音环境下,该方法能有效将目标语音从背景噪声中分离,信噪比(SNR)和评价意见分(MOS)得到一定的提升,平均增益分别为5.67dB和0.36.
论文着眼于人工势场算法,将其应用于自主车辆的局部路径规划中.首先,根据正弦避障模型,提出了以最小安全距离为对称性的自主车辆路径规划方法.然后,引入椭圆势场调整障碍车辆势场的作用使路径规划曲率变化更平缓;接着,基于自然三次样条曲线和全局优化进行路径规划.最后,通过Prescan和Matlab进行路径规划的联合仿真实验.仿真结果表明,论文基于改进人工势场算法的局部路径规划方法能有效地规划一条曲率平滑的路径,且满足自主车辆行驶控制的需求,解决了传统人工势场算法存在的无法接近问题,且针对不同的障碍物分布场景都有较
随着信息时代的到来,互联网平台上的文本数据开始爆发式增长,其中难免夹杂着一些不法数据.这些数据往往隐藏在海量数据中,因此给平台检索这些不法数据增加了难度.在这种情况下再用传统的文本分类方法已经不能满足需求了.因此论文根据文本数据的特点提出了基于主动学习的SVM评论内容分类方法,该方法使用主动学习的思想将敏感词向量、k-means聚类算法和SVM分类算法结合在一起,在使用更少训练集的基础上提高文本分类的准确率.实验结果表明,使用论文提出的方法对文本进行分类,在分类时间和结果准确率方面上都得到了一定程度的提高
近年来,随着社会经济的发展与改革开放的深入,国内的主要城市的经济也在不断的提高.同时不同城市间的经济地位与发展程度也有了改变,而城市的经济水平与活力,也影响着大型企业的投资与国家政策的倾斜.于是建立一个新的对国内主要城市的发展程度进行评价的模型就显得尤为重要.由已有的研究可知,一个地区的公司数量是评估该地区经济活力的重要标准.以北京为例,收集了相关的数据以及当地的历史公司数量利用灰色关联法计算不同数据对公司数量的关联度,之后利用模糊综合评价法,将国内主要城市的经济活力分为4个等级,用于对城市发展程度进行排
针对血循毒蛇中烙铁头蛇和竹叶青蛇咬伤症状相近、难以辨别,容易误诊的问题,论文提出通过提取烙铁头蛇咬伤和竹叶青蛇咬伤住院患者的基本信息、生命体征、咬伤病史、蛇形态、伤口局部症状以及全身症状等特征,先对特征进行主成分分析(Principal Component Analysis,PCA),再利用支持向量机(Support Vector Machine,SVM)方法对烙铁头蛇和竹叶青蛇咬伤进行预测诊断,结果预测准确率达到86%,比单支持向量机方法的预测准确率提高了6%.运用主成分分析结合支持向量机方法对烙铁头蛇
针对以文本词向量作为卷积神经网络的输入无法考虑情感特征对文本情感极性的影响、难以突出对类别更具代表性的词且卷积神经网络无法利用文本上下文信息等问题,提出一种基于权重分配的多通道卷积神经网络(WAMCCNN)和双向长短时记忆网络(BILSTM)模型相结合的方法.将文本词向量、情感词向量及词语的特征权重相互结合形成新的特征向量作为卷积网络不同通道的输入,使得模型能够从多方面的特征学习到文本的情感信息且有效利用了每个词语在句子中重要性的信息,获得更多的语义信息.同时,结合BILSTM模型学习到的包含文本上下文信
传统的心电信号分类方法通常需要人为提取特征,导致系统的分类性能不稳定.基于此,运用了基于深度置信网络的心电信号分类算法,利用网络的深层次学习能力自动学习信号的特征.提取特征后,选用Softmax分类器对信号进行分类,并用误差反向传播算法微调网络,提高分类性能.选取MIT-BIH数据库中的正常心拍、室性早搏、房性早搏和起搏心拍进行实验,通过实验结果和方法对比,深度置信网络整体的分类精度达到98.8%,表明其在心电信号分类问题中具有良好的分类识别效果.