Centroid和EM结合的半监督文本分类

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户：wtmw

【摘要】

：

针对维吾尔文文本分类中的"标注瓶颈"问题,研究半监督文本分类。将期望最大化(expectation maximization,EM)算法和基于质心向量(Centroid vector)的分类算法相结合,提出一种

【作者】

：

阿力木江·艾沙殷晓雨库尔班·吾布力

【机构】

：

新疆大学信息科学与工程学院,新疆大学网络与信息技术中心

【出处】

：

计算机工程与设计

【发表日期】

：

2019年11期

【关键词】

：

质心向量期望最大化半监督学习文本分类维吾尔文 Centroid vectorexpectation maximizationsemi-supervise

【基金项目】

：

新疆维吾尔自治区自然科学基金项目(2016D01C068)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对维吾尔文文本分类中的"标注瓶颈"问题,研究半监督文本分类。将期望最大化(expectation maximization,EM)算法和基于质心向量(Centroid vector)的分类算法相结合,提出一种半监督文本分类算法Centroid-EM,解决在Centroid分类器下,结合少量已标注样本和大量未标注样本来提高分类器性能的问题。在维吾尔文文本数据集上的实验结果表明,未标注样本的加入能够改善基于Centroid的分类方法在维吾尔文文本数据集上的分类效果。

其他文献

局域均值分解方法在机械故障诊断中的应用

局域均值分解（Local Mean Decomposition，LMD）是近年来出现的一种新的时频分析方法。介绍局域均值分解的定义、基本算法。仿真验证LMD方法的有效性，结果表明LMD计算所得的瞬时频

期刊

局域均值分解故障诊断非平稳信号时频分析特征提取Local mean decomposition （LMD） Fault diagnosis Non-

阵列探测器L1触发系统加法电路优化设计

针对兰州重离子加速器外靶终端硅微条阵列探测器L1触发系统,设计了一个基于Xilinx7系列FPGA芯片的改进加法逻辑电路,利用快速进位链结构,对加法电路模块进行优化.对优化后加

期刊

硅微条阵列探测器死时间现场可编程逻辑门阵列L1触发快速进位加法器

多通道压力数据采集与分析系统设计

为低成本实现多通道压力数据采集与分析,借助虚拟仪器技术、计算机技术、通信技术等,成功地构建了以虚拟仪器为核心的多通道压力数据采集与分析系统。该系统采用C8051F040混合单片机进行数据采集,利用RS232总线结构进行数据传输,利用PC机和Lab Windows/CVI软件进行数据处理和分析。实验结果证明:该数据采集系统结构简单,操作方便,准确性、可靠性高,测试数据符合设计要求,具有很高的实用价值

期刊

单片机虚拟仪器数据采集Single chip microcomputer Virtual instrument Data acquisition

高稳定性低功耗的车用LIN总线智能终端设计

随着越来越多电子设备应用到汽车中，总线连接的方式是大势所趋。在不需要CAN总线的带宽和多功能的场合，使用LIN总线可大大节省成本。详细地论述高稳定性、低功耗并且低成本的车

期刊

LIN总线智能终端高稳定性低功耗网络传感器LIN bus Intelligent terminal High stability Low power

广研院“重大装备用高性能密封件”项目荣获液气密行业技术进步奖一等奖

在“2010年度液气密行业技术进步奖。”评选活动中，广研院“重大装备用高性能密封件”项目荣获一等奖。

期刊

技术进步密封件行业气密性能备用评选活动

线性规划法用于炼油生产作业控制系统中的综合平衡环节

作者利用线性规划法对炼油厂生产调度指挥系统做综合平衡，用以求解最佳生产方案。

期刊

生产作业控制系统数学模型炼油厂目标函数线性规划综合平衡模型prcxluction job conrtol system refinery targe

基于混合维修的设备维修方式决策系统的研究

根据设备维修的发展趋势以及当前设备维修方式，阐述维修方式决策和混合维修的概念以及它们之间的关系，给出基于混合维修的设备维修方式决策系统的框架，并讨论该系统框架的主要功

期刊

维修方式决策决策框架混合维修决策触发机制Maintenance mode decision Decision-making frame Combined

基于总线的数控系统嵌入式热误差补偿实现方法

热误差是影响机床加工精度的重要误差源。简要介绍THK6370卧式加工中心主轴热变形的测量及建模方法,详细阐述热误差补偿在基于总线的数控系统上嵌入式集成的方法,提出热误差补偿模块的软硬件设计方案,并开发补偿模块。在THK6370上进行实验验证,结果表明,加工精度提高了30%。

期刊

热误差补偿总线数控系统嵌入式集成Thermal-error compensation CNC system based on bus Embedded i

平面钢领磨损失效分析

本文通过对磨痕与磨屑的微观分析，认为造成钢领失效的主要磨损形式是疲劳磨损，其机理是疲劳剥层，同时指出了提高钢领使用寿命的途径。

期刊

钢领环锭精纺机磨损失效疲劳磨损机制疲劳点蚀疲劳剥落

面向无源RFID的安全认证协议

为有效降低RFID标签的硬件开销,设计一种面向无源RFID标签的超轻量级安全认证协议,根据读写器在实际应用中是否连线数据库分为离线和在线认证协议。离线认证协议将用户数据及其哈希摘要值加密存储在标签中,读写器根据RFID标签的全球唯一标识号进行加密与哈希运算,生成标签的读写口令,抵抗假冒攻击、信息篡改攻击和窃听攻击;在线认证协议以离线协议为基础,利用公钥密码技术实现读写器与数据库之间的双向认证,在数

期刊

无源RFID安全认证密码学公钥密码哈希函数passive RFID security-authentication cryptography publ

Centroid和EM结合的半监督文本分类

与本文相关的学术论文