基于文档频率的分级主题模型

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:embedwince
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了抽取文档集中的语义结构,研究者提出了一系列的无监督方法,在文本的词袋模型假设下,我们得到了词计数向量来表示文本的信息。而在词袋模型的基础上,可以通过主题模型的方法得到了一个精致的统计框架以描述向量化的数据。在这一思路下,一系列的模型被提出来用以改进模型的表达能力。统计主题模型如此吸引入是因为它允许一个对新文档集的快速分析和理解。然而如果要从数据中得到一个分级的结构,这个框架本身不能提供一个答案。而近期的一些研究表明在单纯数据驱动的方法的基础上,加入背景知识和先验信息是一个值得研究的方向。本文提出了一个扩展的分级主题模型。这个模型将词在文本中的频率作为分级信息加入主题,从而使主题具有更自然的分级语义结构。DF主题模型产生的分级主题拥有一个比树结构更宽泛的主题关系表示。在通用数据集上的生成概率实验表明模型的分级表达具有比LDA和HLDA更好的数据拟合能力。在认知科学领域,背景知识是人类获取分级语义的重要工具。并且大量的先前工作用文本的外部信息来完善已有的模型。本文在这个思路上采用了略有不同的方法。原因是词的文本频率来自原始数据本身。所以本文的工作仍然是无监督的方法。在将词的文本频率信息和统计学习过程融合的基础上,本文希望能得到一个更符合人类认知角度的分级主题表示。
其他文献
湖南是我国油菜主产区,种植面积大,油菜产量较低,其中的原因之一是病虫为害。由于全球气候与种植制度变化等原因,油菜病虫害呈日益严重的趋势。因此研制和开发集病虫害诊断鉴
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
摘要:《基础教育课程改革纲要(试行)》指出:“教师在教学过程中应与学生积极互动,共同发展,要处理好传授知识与培养能力的关系。”教学方法是教师在一定的认识论指导下,在教学过程中,为实现教学目的和任务所采取的途径、手段和方式,以及在教师引导下学生的思考过程和思维方式。它在学生获取知识、培养的思维方法和能力,特别是创造能力的过程中,具有重要的作用。科学的教学方法,能启迪思维、开发智力、发掘潜能,培养良好
随着信息全球化的发展,互联网技术在改变人们的经济、文化生活的方式的同时也给人们的信息安全带来一定的威胁。本文正是基于此事实,以分析网络中各种安全事件为切入点,引入
论文对面向IMT-A的多天线OFDM系统的以下关键技术进行了研究,主要包括空间零相关窗连续导频技术,多天线系统的检测算法,以及TPC编码的应用。对空间零相关窗连续导频技术研究
核糖核酸酶H普遍存在于各种生物体中(包括病毒、原核生物、真核生物等),是一类能够特异性识别并水解RNA/DNA杂交体系中的RNA链的核糖核酸内切酶,酶切产物为5’-磷酸末端和 3’-羟
随着视频监控的普及,取代人工的智能监控技术受到极大的关注。作为一项快速发展且日益精进的信息技术,智能监控应用领域覆盖了日常生活,公共交通,军事航天等等。  本文对异常行
中继协作技术被先进的长期演进(LTE-A)视作可以提供高速率传输的广泛覆盖范围,群组移动性,临时网络部署和提高小区边缘吞吐量的重要技术。然而由于中继节点的半双工限制,多数
重建非刚体的三维结构问题,主要是研究如何从一组非刚体的二维图像序列中恢复出摄像机的运动和非刚体的三维结构。最初该问题在形状空间里进行求解。先利用因式分解法对测量矩
本文综述了森林土壤呼吸研究的理论、方法以及研究进展和主要成果。从2004年4月份到10月份,在东北哈尔滨地区的一个典型的长白落叶松林群落利用动态气室气体吸收法对土壤呼吸