【摘 要】
:
LDA没有考虑到输入,在原始的输入空间上对每一个词进行主题标签,因保留非作用词,而影响了主题概率分布。针对这种情况提出了一种m RMR_LDA算法,预先使用m RMR特征选择算法将
【基金项目】
:
国家自然科学基金青年科学基金(No.61401185), 辽宁省教育厅科学研究一般项目(No.L2013133)
论文部分内容阅读
LDA没有考虑到输入,在原始的输入空间上对每一个词进行主题标签,因保留非作用词,而影响了主题概率分布。针对这种情况提出了一种m RMR_LDA算法,预先使用m RMR特征选择算法将输入空间映射到低维空间,过滤掉非作用词,使得LDA能在更简洁和更清晰的空间上进行主题标签,得到更精确的主题分布。对20 Newsgroups语料库和复旦大学语料库进行分类,分类精度分别提高了1.53%和1.18%,实验结果表明提出的m RMR_LDA模型在文本分类中有较好的分类性能。
其他文献
命名实体识别技术在自然语言处理技术中占有重要的地位,通用的方法不能很好地解决机械领域的识别问题。基于字符串之间紧密相邻程度等统计特征,定义不同词之间紧密相连的程度,从
群密钥协商(GKA)协议在构建安全多播信道中扮演着主要角色。由于公钥管理的简洁性和高效性,基于身份的认证群密钥协商协议密码系统近年来成为热门研究方向。提出了一个基于Weil
安全性是决定车载自组网能否应用到军品运输车队中的一项关键因素,加密技术是满足车载自组网保密性、完整性和不可否认性等安全需求的重要技术手段。基于传统Hash函数的加密
作者在调查研究的基础上,对当前肉品卫生管理中存在的主要问题进行了分析,就如何搞好肉品卫生管理,提高肉品卫生质量,确保消费者健康,提出了相应的对策和措施。
澄江一米新真空大型天文望远镜(NVST)当前每天最大能产生2 TB,约十多万条的观测数据。由于这些数据量巨大并具有非结构化特性,使用离线构建索引会带来巨大时间开销,传统的关系
主要介绍俄罗斯联邦国家的卫生防疫监督体制,包括国家卫生防疫监督工作机构、任务及工作运行情况。
防止机密数据流出网络是网络运营商面临的一个重要问题。随着云计算技术的发展,这一问题显得更加复杂。当前的数据防泄漏方案主要依赖在外传数据中进行关键词通用搜索,导致数据流控制不够精细,虚警率较高。鉴于此,设计了一种基于白名单的数据防泄漏(DLP)架构,在此基础上,提出了一种基于文件指纹和Bloom滤波器的数据泄露检测算法。该算法通过使用动态规划来计算最优检测位置,最大限度地降低了内存开销,并支持高速部
有效的活动识别是智能辅助的关键。结合D-S证据和本体推理,提出一种互补结构的活动识别方法。该方法通过在证据理论和知识库之间建立对应关系形成互补,既解决了异构数据之间
就一起汽车站所属公共场所因无“卫生许可证”和在岗从业人员无“健康合格证”,被处以1000元罚款而引起的行政诉讼案,予以回顾分析。建议尽快完善公共场所卫生法规,加强规范化管理,从
在模拟电路演化领域,电路知识表示是首要解决的问题。网表编码操作简单,对于拓扑结构没有限制,但是网表编码会在种群初始化和遗传操作过程中产生大量的非法电路个体。为解决这一