基于低秩分解的精细文本挖掘方法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:evanchou8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文检索等应用要求对文本进行精细表示。针对传统主题模型只能挖掘文本的主题背景,无法对文本的侧重点进行精细描述的问题,提出一种低秩稀疏文本表示模型,将文本表示分为低秩和稀疏两部分,低秩部分代表主题背景,稀疏部分则是对主题中不同方面的关键词描述。为了实现文本低秩部分和稀疏部分的分解,定义了主题矩阵,并引入鲁棒性主成分分析(PCA)方法进行矩阵分解。在新闻语料数据集上的实验结果表明,模型复杂度比隐含狄利克雷分配(LDA)模型降低了25%。在实际应用中,将模型所得的低秩部分应用于文本分类,分类所需的特征减少
其他文献
本文从国内MIS成功率较低的现实出发,分析了传统理论和方法存在的缺陷,介绍了目前国外非常流竺的MSF,RA以及OO方法。
针对虚拟专用网BGP/MPLS VPN技术原理,分析了边界网关协议(BGP)和多协议标签交换(MPLS)在OMNET++中的实现,进而基于OMNET++仿真环境提出了一套符合RFC标准的BGP/MPLS VPN的具体实现方案。最后给出了BGP/MPLS VPN的仿真实例的测试,验证了该方案的可行性。
三黄安神汤由刘方柏所创,主要由半夏秫米汤、僵蚕二黄汤及防己地黄汤组成.临床上主要用于痰火互结所致的失眠之证.随师治疗痰火扰心型失眠症一例,取得满意的疗效,现报道如下.
“国中网”(cww)是新华社信息中心(XIC)和中国国际网络传讯有限公司(CIC)共同建设的一个覆盖中国,联通世界的会员制商业信息服务网,其致力于促进中国,香港和世界各地之间经济
痛风是尿酸排泄减少,嘌呤代谢障碍,尿酸累积而致的疾病。患者以高尿酸血症、特征性急性关节炎、痛风结石形成为特点,严重者可致关节畸形及功能障碍或痛风性肾病。针对痛风不同临
标点符号的边界识别是自然语言处理的重要研究内容,它是分词、语块识别等应用的基础。为了实现中文中用于表示并列成分分割的顿号的边界识别,采用了用于序列分割和标记的条件随机场(CRF)方法进行顿号边界识别。首先对顿号边界识别任务进行了两种类型的描述,然后对顿号语料的标注方法和过程以及特征选择进行了研究,通过采用语料推荐和十折交叉验证两种数据集分配方法分别进行了边界识别实验。实验结果表明,通过条件随机场方
针对程序中因存在路径条数过多或复杂循环路径而导致路径验证时的路径搜索空间过大,直接影响验证的效率和准确率的问题,提出一种基于可满足性模理论(SMT)求解器的程序路径验证
在胚胎发育的5周时盆丛开始发育,胚胎8周时已具有和成人盆腔神经相对应的排列结构,且在胚胎发育后期不再发生明显的位移与变形.而胚胎盆腔的结缔组织发育较晚,在19~28周可以
患者男,58岁。主诉:右眼球后疼痛5d。2012年8月2日出观头痛,眼干,口干舌燥,右眼不适,于8月3日出现右眼球后疼痛加剧,查颅脑MRI示脑实质未儿明显异常,双筛窦、右蝶窦炎症改变,诊断为“
对于无线传感器网络(WSN)移动基站的调度问题,提出了一种基于线性规划方法的移动单基站调度算法。首先,通过对移动单基站调度问题的形式化描述,对该问题在时间域中进行了数学建模,并使用重建模技术,将问题从时间域转化到空间域以降低求解复杂度,然后基于线性规划理论建立了一个多项式时间复杂度的最优算法。模拟仿真实验验证了该算法的有效性,实验数据表明该移动基站调度算法能有效地延长无线传感器网络的网络生命周期。