一种基于主题的概率文档相关模型

来源 :计算机科学 | 被引量 : 0次 | 上传用户:sophia115416
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有文档关系分析模型难以从主题层次上判别文档相关性。为此,提出了一个基于主题的概率文档相关模型(TPDC)。TPDC借助Latent Dirichlet Allocation模型学习文档的主题结构;在计算出主题后验概率和主题相似度的基础上推导出文档后验概率;基于文档后验概率构建文档相关性分析模型。实验结果证明,TPDC模型在文档检索精度和文档压缩程度两方面优于向量空间模型,因而更能胜任实际应用中的文档检索任务。
其他文献
针对Smart等人提出的密钥协商方案存在主密钥托管单点失效安全问题,提出两个新的可认证双线性对密钥协商协议:一个通过向可信第三方获取对方注册的公钥,及实体唯一持有的私钥,实
研究了基于IP无线网络中精细粒度可伸缩性(FGS)视频的侍输。基于包交换的IP无线网络通常由两段链路组成:有线链路和无线链路。为了处理这种混合网络中不同类型数据包的丢失情况,
作为一种通用的语义近似理论,抽象解释已广泛应用于各类程序的形式化验证中。现有基于抽象解释的逻辑程序验证技术未涉及与程序点相关联的程序性质的验证,设计能够描述此类性质
合理的模型是保证分布式实时嵌入式(DRE)件可靠性的关键。提出了分析DRE软件模型的合理性方法。该方法基于带抑制弧的时间Petri网(ITPN),采用自顶向下的策略对功能模块及其通信过
构件集成到应用环境中实施集成测试时,会与其它构件产生相应的依赖关系。本文在对这些依赖关系进行概述的基础上,给出了构件直接依赖图、构件间接依赖图和构件依赖图的定义,并依
国家质检总局批准云南出入境检验检疫局新筹建5个国家级重点实验室,支持云南桥头堡建设。这5个国家级重点实验室如下:
提出了一种新的带数组和循环的路径测试数据自动生成的方法。该方法只考虑数组中与路径中谓词函数有关的数组元素,将循环中的同一变量名在每一次执行时用不同的变量参数来替代
以Agent为中介的电子商务研究忽略了社区等社会因素对Agent购买行为的影响。本文提出了“面向任务社区”的概念及相应的“面向任务社区的CBB模型”,将社会影响因素引入到Agent
当XML文档出现不完全信息时,XML函数依赖同样对于XML文档的键、规范化和完整性约束的研究具有重要意义。本文引入不完全信息环境下XML模式树概念对XML强函数依赖进行了形式化
在对组密钥管理算法进行全面研究的基础上,提出了一种新的用于安全组播的组密钥管理算法。本算法将集中式密钥分配算法与分布式密钥协商算法相结合,吸取了集中式密钥分配算法的