基于fasttext模型的中文专利快速分类

来源 :常熟理工学院学报 | 被引量 : 0次 | 上传用户:yuzhisuixin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有中文专利文本的自动分类方法存在分类处理过程复杂耗时长、精度低且对硬件的要求较高等问题,本文提出了一种基于fasttext的中文专利文本快速分类的新方法.首先,对采集的专利文本数据使用中文处理工具包FoolNLTK分词,参照百度停用词表去除停用词,减少停用词出现的频率,提高关键词密度.其次,将输入层中的词和词组利用n-gram模型构造文本特征向量,再将文本特征向量通过线性变换映射到隐藏层变量,隐藏层通过求解最大似然函数,根据每个类别的权重和模型参数在输出层上构建Huffman树,利用softmax计
其他文献
通过分析连采机掘进后配套运输设备现状,结合开采工艺的特点,介绍了转载机的结构组成,系统的阐述了转载机的设计以及设计参数计算过程,并详细介绍了转载机的快速连接装置的设
习近平总书记对于2022北京-张家口冬奥会有过"办赛要精彩,参赛也要精彩"的重要指示,为了更好地助力冬奥会,推动冰雪运动发展,国家从申报成功之后就开始了"轮转冰"的各种尝试,
STEAM教育理念与我国的学生发展核心素养体系具有相似的内涵指向。我国的素质教育体系将"人文底蕴"列为第一素养,因此,我们在推行STEAM教育的过程中更应该突显人文因素。然而
传统的露天开采引发严重的矿区生态环境问题,采用绿色开采工艺是减少露天矿生态破坏与环境污染问题的有效途径。提出了露天煤矿绿色开采工艺的概念及系统构成,构建了绿色开采
基于水蛭—泥鳅生态混养技术,在设置围网的池塘中开展主养水蛭套养泥鳅并投放适量螺蛳和水葫芦的生产实验.在池塘围网中投放400~500条/kg的水蛭苗种45 kg/667 m^2,250~300条/
为了应对工业应用中对模型预测控制算法的时效性要求,提出了基于对偶加速梯度投影法(GPAD)的多变量预测控制算法,通过GPAD算法加速预测控制中优化问题的求解.首先采用CARMA模
KLF11是Kruppel样转录因子家族中的成员,在羧基端具有3个串联的C2H2锌指结构,其在胰腺、肌肉、肝脏等多种组织中广泛表达.本研究采用Trizol法提取鸡肝脏组织总RNA,经RT-PCR方
为研究露天矿外排土场边坡稳定性,以某露天矿为例,依据工程地质勘察成果和排土场初步设计,确定排土场岩土体物理力学指标,并建立典型工程地质模型。根据典型工程地质模型,利