关系嵌入的主题模型优化算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:supersonic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机和互联网技术的高速发展时期,文本数据呈指数增长,更新速度较快。文本信息的发展也逐渐多样性化,复杂化,丰富化。社交网络中的各种书籍评论、电影评论和的新闻中的信息量对于用户来说无疑是巨大的,复杂的。此外,用户要想从成千上万的评论中逐条翻阅查找数据或者是从巨大的语料库中寻找文件必要耗费巨大的精力和时间,十分困难。因此挖掘出这些文本信息的潜在含义和自动从文本提取有用的信息已经成为自然语言处理重点研究的领域。论文在研究分析了现有的主题模型算法存在的不足之处,针对潜在迪利克雷分配(LDA)忽略了文档中词与词之间的语义关系的问题,具体研究了以下三点内容:1.论文针对现有的主题模型方法缺乏对文本词语之间的语义关系研究问题,对传统的主题模型进行了一些扩展和改进,提出了一种将词对语义关系嵌入到经典的主题模型LDA中的方法,构建了关系嵌入的主题模型算法(WPRE-TM)。通过在不同数据集下的实验结果证明算法能够挖掘出质量更高,连贯性更好的主题。2.论文针对现有的主题模型常产生嘈杂声过大,冗余度较高的主题问题,提出了一种基于词对关系嵌入的主题中词的重要性的优化算法(P-WPRE-TM)。本算法在WPRE-TM关系嵌入主题模型算法的基础上,通过对主题中所有词对的相关性进行重要性排序,降低重要性最低的词出现在该主题的概率,再通过吉布斯重新采样得到更准确的主题-词分布,最后可以生成相关性更高的主题。该算法在丰富的文本数据集上的结果都比近几年的其他算法有更好的表现。3.论文通过对以上所描述的研究内容进行了总结分析,设计并开发了一个基于关系嵌入的主题模型算法优化的原型系统。该原型系统主要包括用户登录功能、数据集上传功能、词对关系展示功能、数据集预处理展示功能和主题分析结果可视化功能。
其他文献
随着信息技术的发展,大数据逐渐成为促进各行业发展的资源和动力。高维不完备数据是大数据的一种重要形式,在推荐系统、Web服务选择等领域十分常见。虽然高维不完备数据非常稀疏,但是其中蕴含了关于实体间关系的丰富知识,具有很高的研究价值。隐特征分析模型由于其良好的数据表征能力和卓越的计算效率,在高维不完备大数据分析中得到广泛的应用。然而,目前存在的隐特征分析模型都只使用单一的度量方式,如使用内积或距离来表
学位
随着无线通信技术的发展和终端设备数量的不断增长,诸如增强现实、虚拟现实、实时直播等各类应用相继出现。然而,单一网络环境、终端有限计算资源和电池容量限制,已开始影响一些业务应用。异构无线网络和移动边缘计算(Mobile Edge Computing,MEC)为解决这些问题带来了新途径。在基于异构无线网络的MEC系统中,终端设备可以选择将任务卸载到资源更丰富的边缘服务器中执行。然而任务传输过程中存在互
学位
企业社会责任沟通(Corporate Social Responsibility Communication,CSR Communication)指企业为满足利益相关者期望,与之沟通企业在社会责任方面所做出的贡献的过程。互联网技术的发展,催生了微博、微信等一系列社交媒体,为企业社会责任沟通提供了重要渠道,也为用户参与提供了极大的便利。用户参与社交媒体环境下的CSR沟通对增加企业信息透明度,扩大企业
学位
SDN网络是一种将数据平面与控制平面解耦的新型网络,通过可编程性能,实现了硬件设备与逻辑功能的分离。交换机使用流表项实现对数据包的高效匹配转发,为控制器集中管理网络提供了保障。目前交换机流表项存储使用的都是三态可寻址寄存器(Ternary Content Addressable Memory,TCAM),受限于成本、硬件技术等问题,流表容量数量有限。因此针对流表存储的优化策略是一个重要的方向。本文
学位
目的:对李鲜教授治疗胃食管反流病的中药处方进行提炼总结,分析其用药规律,总结李鲜教授治疗本病的经验,为临床医师运用中医药治疗本病提供参考。方法:收集2018年1月1日—2021年10月31日期间李鲜教授门诊病历系统中胃食管反流病患者的首诊病历,依照纳入、排除标准筛选出符合标准的首诊病历,对其进行规范整理。使用Excel 2017软件建立数据库,并对其中数据进行频数分析;应用SPSS Modeler
学位
目的:雷公藤甲素具有良好的抗肿瘤活性,但其水溶性差和毒性较大限制了其进一步的应用。本课题通过制备雷公藤甲素线粒体靶向脂质体(SS-TP LPs),以实现药物的靶向性,提高抗胰腺癌的活性,降低雷公藤甲素的毒性。方法:(1)采用薄膜分散法制备SS-TP LPs,通过单因素考察载体与药物的投料比例,并对其大小形态、粒径分布、Zeta电位和在不同介质环境下的稳定性进行考察。高效液相色谱法测定其包封率、载药
学位
目的:动脉粥样硬化(AS)是引起中风等心脑血管疾病的重要病因,控制炎症反应及脂代谢异常是干预AS关键途径,PI3K/AKT/NF-κB是调控慢性炎症和脂代谢的重要通路。历代本草均有牛蒡叶防治中风的记载,但现代研究薄弱,作用机制尚不清楚。因此,本研究通过高脂饲料喂养联合维生素D3腹腔注射建立AS大鼠模型,评价牛蒡叶醇提物(ALLE)对AS的干预作用;通过ox-LDL诱导RAW264.7细胞建立泡沫细
学位
研究目的支气管哮喘(Bronchial Asthma)是一种病机复杂,易反复发作难以治愈的慢性呼吸系统疾病,哮喘的异质性致使患者的临床症状表现多样,疾病进展过程中常并发多种疾病,进一步加大了治疗难度,基于病症结合对支气管哮喘患者进行复杂网络特征研究,并对不同模块的表型特点及其核心方药的分子作用通路进行初步探究,为临床哮喘患者的个体诊疗方案的选择与精准治疗提供依据和参考。研究方法在真实世界诊疗环境下
学位
目的:建立同时测定牛膝茎叶多指标成分的定量方法;通过比较不同采收期牛膝茎叶中指标成分和总甾酮、总皂苷、总多糖含量,确定牛膝茎叶的最佳采收期;研究不同采收期牛膝茎叶水提取物和乙醇提取物抗氧化活性与牛膝茎叶中总甾酮、总皂苷、总多糖含量的相关性;探究牛膝茎叶甾酮皂苷化学部位对H2O2诱导损伤的人脐静脉内皮细胞(Human umbilical vein endothelial cells,HUVEC)的保
学位
传统多智能体系统一致性问题的相关工作主要集中在系统模型设计和稳定性条件获取上,很少涉及系统控制的最优性。而在实际工程中,如何使系统以最小的代价来完成某一任务目标也是非常重要的。目前,大部分最优控制相关的工作仅基于智能体之间的合作交互,且需要精确的系统模型,这就极大的限制了其理论成果在实际环境中的应用范围。此外,这些相关工作难以处理多目标或者并行分布式任务,并且其采用的时间触发模式会占用大量的系统资
学位