【摘 要】
:
主题模型是文本分析的一种有效技术,在舆情分析、问答系统、个性化推荐等领域得到了广泛应用。随着社交网络的快速发展,多样化的应用平台的出现,多源实时数据的生成过程中,数据的构成类型、受到用户关注程度、主题时效性等方面产生了不一致的语义内涵,引发了异构的语义特征学习与表达问题,为传统的主题模型提出了新的挑战和问题。所以,提出有效的异构性语义特征的表示和学习方法,具有重要的研究价值和现实意义。本文在常规文
论文部分内容阅读
主题模型是文本分析的一种有效技术,在舆情分析、问答系统、个性化推荐等领域得到了广泛应用。随着社交网络的快速发展,多样化的应用平台的出现,多源实时数据的生成过程中,数据的构成类型、受到用户关注程度、主题时效性等方面产生了不一致的语义内涵,引发了异构的语义特征学习与表达问题,为传统的主题模型提出了新的挑战和问题。所以,提出有效的异构性语义特征的表示和学习方法,具有重要的研究价值和现实意义。本文在常规文本主题发现、目标主题发现、知识图嵌入技术研究的基础上,根据所处理的异构性语义特征的类型,提出了几种社交网络文本的主题发现算法。主要研究工作如下:(1)提出一种异构文本主题发现方法。在同一个社交网络平台可能会产生不同类型的数据,但一般会存在主题共享。常规的主题发现算法仅针对单一文本数据类型进行建模,对主题结构和主题密度产生的异构语义表达效果不好。为此,本文提出了一种基于自适应滑动窗口的主题发现算法SSWTM,通过自适应调整文档词对抽取窗口的规模,在考虑短文本稀疏性的同时,避免了常规文本的主题冗余,解决了异构文本的自适应主题发现问题。实验结果表明,SSWTM有效适用于异构数据类型的文本主题发现,在文档分类问题上有优秀的表现。(2)提出两种目标主题发现方法。同一个文本包含的主题对于具有不同兴趣点的用户来说,所受到的关注度不同,从而导致数据关注度的异构问题。通常的主题发现模型基于全分析方法,无法突出特定领域的目标主题。为此,本文提出了两种目标主题发现算法TATM和HFTM,前者通过平衡主题同质性和主题完备性,后者通过构建层次性的目标主题语义,有效地细化了主题发现粒度。实验结果表明,TATM和HFTM适用于目标主题发现任务,解决了目标主题语义特征的稀疏问题,且相比于已有算法更具时间效率。(3)提出一种可解释的动态主题发现方法。社交网络文本内容和数据关联随时间变化,生成了动态的主题结构,且主题词语义在不同时间点产生了偏移,常规的动态主题发现方法无法保证主题的可解释性。为此,本文提出了一种可解释的主题发现方法KITE,融合全局和局部知识,实现了对时效性异构的文本的主题发现。实验结果表明,KITE融合知识图嵌入保证了主题的可解释性,并且通过邻域更新,有效地提升了对主题演化的敏感性。
其他文献
工业控制网络系统是实现工业生产自动化的关键,是衡量国家工业水平的重要指标。随着物联网、大数据、智能技术的发展,其安全运行已成为国家安全战略的重要组成部分。可信计算已经成为国际信息安全领域的一个重要分支,吸引了全球众多学者的关注和研究。本文的主要工作和贡献有:(1)首先分析了工业控制网络系统的安全现状和安全需求,研究了可信工业控制网络系统的实现技术,提出一种可信工业控制网络系统体系结构。划分可信工业
近些年来,由于汽车自动驾驶技术能较好地解决因驾驶行为不当、疲劳驾驶、疏忽大意或违章行驶等人为失误引起的交通安全问题,其已成为全球汽车行业关注的焦点。同时,传感、信息以及人工智能等相关技术的迅速发展,为自动驾驶技术的实际应用提供了良好的软硬件基础。无论是政府还是企业都在大力推动汽车自动化技术的发展和应用。但由于受到技术成熟度和成本等因素的制约,自动驾驶技术仍处于不断发展阶段。本文基于自动驾驶汽车的预
自20世纪后期,量子计算与量子通信便成为计算机科学、通信、数学和物理的一个交叉和前沿学科.与经典的数字通信情形一样,为了实现量子计算和量子通信,就必须解决量子纠错问题.1996年,Calderbank、Shor以及Steane同时独立地给出了如何运用数学工具构造量子纠错码的第一种系统而有效的方法,并建立起经典纠错码与量子纠错码之间的桥梁.这极大地促进了量子纠错码的蓬勃发展.此后,便引发了人们对量子
随着信息技术的不断发展,纠错码理论在信息安全中发挥越来越重要的作用。根据实际需求选取特定的编码是纠错码理论的一个关键问题,其中用到的循环码是纠错码理论研究的一个热点。循环码不仅可以通过高效的电路实现,而且在移动通信、雷达、航天等领域有广泛的应用。常循环码是循环码的推广和发展,不仅继承了循环码的良好特性而且有灵活的参数,然而相对于循环码的理论研究而言,常循环码理论还需要进一步完善和发展。尤其是常循环
有源相控阵雷达(Active Phased Array Radar,APAR)的独特优势在于每一个天线单元均配备有一个发射/接收组件(Transmit/Receive Module,TRM),从而具有可靠性高、功能性强等诸多独特的优点,因此在军事航天等领域中受到越来越多的重视。正因如此,APAR在实际工况中会由于内部器件热功耗以及外部环境温度的变化产生明显的阵面热变形,进而造成雷达主瓣增益损失、副
三叶木通(Akebia trifoliata(Thunb.)Koidz.)是木通科(Lardizabalaceae)木通属(Akebia)攀援式常年生落叶藤本植物,在我国作为药用和野果食用已有千年之久。三叶木通叶绿体基因组、三叶木通全长转录组及三叶木通果实(八月瓜)的代谢组学相对匮乏,严重阻碍了三叶木通在食品和分子生物学领域研究的开展。随着种植面积的扩大,微生物导致的果实染病现象日益凸显,对这一新
稀土硼化物具有高熔点、高硬度、低功函数、低蒸发率、耐离子轰击能力强与物理化学性质稳定等特点,是一类优良的电子发射材料,在电子束加工仪器、粒子束加速器、精密电子分析仪器以及动态真空系统的电子器件等领域有广泛应用。目前针对稀土硼化物阴极的研究主要集中在通过实验制备掺杂稀土硼化物单晶,寻找合适掺杂成分从而提高其电子发射性能这一方面,而对于其功函数、电子结构与掺杂改变电子发射性能的机理研究尚少。本文以轻稀
近些年来,国民经济的快速发展使得汽车保有量急剧增加,引发了众多能源环境问题和交通问题。无人驾驶系统和智能交通系统是解决这些问题的可行方案,该领域的相关技术是当前的研究热点并已取得一定突破,但受到技术瓶颈和法律法规等因素的限制,仍难以在实际场景中得到全面应用,需要不断完善和提高。自主泊车技术是无人驾驶技术的重要构成部分,泊车环境的复杂化导致泊车难度增加,使得对泊车技术应用的诉求逐渐强烈。另外,泊车工
近年来,深度神经网络在图像生成和图像识别等计算机视觉应用领域取得了许多突破。然而由于目前深度学习理论不够完善,深度神经网络在计算机视觉任务的应用上仍然存在许多问题。首先,对于深度神经网络泛化能力的成因仍在探索之中,而模型在实际测试中的性能取决于其泛化能力;其次,深度神经网络的训练过程不稳定,尤其是生成对抗网络(Generative Adversarial Network,GAN),这对其在具体任务