Centroid和EM结合的半监督文本分类

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:wtmw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对维吾尔文文本分类中的"标注瓶颈"问题,研究半监督文本分类。将期望最大化(expectation maximization,EM)算法和基于质心向量(Centroid vector)的分类算法相结合,提出一种半监督文本分类算法Centroid-EM,解决在Centroid分类器下,结合少量已标注样本和大量未标注样本来提高分类器性能的问题。在维吾尔文文本数据集上的实验结果表明,未标注样本的加入能够改善基于Centroid的分类方法在维吾尔文文本数据集上的分类效果。
其他文献
局域均值分解(Local Mean Decomposition,LMD)是近年来出现的一种新的时频分析方法。介绍局域均值分解的定义、基本算法。仿真验证LMD方法的有效性,结果表明LMD计算所得的瞬时频
针对兰州重离子加速器外靶终端硅微条阵列探测器L1触发系统,设计了一个基于Xilinx7系列FPGA芯片的改进加法逻辑电路,利用快速进位链结构,对加法电路模块进行优化.对优化后加
为低成本实现多通道压力数据采集与分析,借助虚拟仪器技术、计算机技术、通信技术等,成功地构建了以虚拟仪器为核心的多通道压力数据采集与分析系统。该系统采用C8051F040混合单片机进行数据采集,利用RS232总线结构进行数据传输,利用PC机和Lab Windows/CVI软件进行数据处理和分析。实验结果证明:该数据采集系统结构简单,操作方便,准确性、可靠性高,测试数据符合设计要求,具有很高的实用价值
随着越来越多电子设备应用到汽车中,总线连接的方式是大势所趋。在不需要CAN总线的带宽和多功能的场合,使用LIN总线可大大节省成本。详细地论述高稳定性、低功耗并且低成本的车
在“2010年度液气密行业技术进步奖。”评选活动中,广研院“重大装备用高性能密封件”项目荣获一等奖。
作者利用线性规划法对炼油厂生产调度指挥系统做综合平衡,用以求解最佳生产方案。
根据设备维修的发展趋势以及当前设备维修方式,阐述维修方式决策和混合维修的概念以及它们之间的关系,给出基于混合维修的设备维修方式决策系统的框架,并讨论该系统框架的主要功
热误差是影响机床加工精度的重要误差源。简要介绍THK6370卧式加工中心主轴热变形的测量及建模方法,详细阐述热误差补偿在基于总线的数控系统上嵌入式集成的方法,提出热误差补偿模块的软硬件设计方案,并开发补偿模块。在THK6370上进行实验验证,结果表明,加工精度提高了30%。
本文通过对磨痕与磨屑的微观分析,认为造成钢领失效的主要磨损形式是疲劳磨损,其机理是疲劳剥层,同时指出了提高钢领使用寿命的途径。
为有效降低RFID标签的硬件开销,设计一种面向无源RFID标签的超轻量级安全认证协议,根据读写器在实际应用中是否连线数据库分为离线和在线认证协议。离线认证协议将用户数据及其哈希摘要值加密存储在标签中,读写器根据RFID标签的全球唯一标识号进行加密与哈希运算,生成标签的读写口令,抵抗假冒攻击、信息篡改攻击和窃听攻击;在线认证协议以离线协议为基础,利用公钥密码技术实现读写器与数据库之间的双向认证,在数