论文部分内容阅读
主题模型已成为机器学习和自然语言处理等领域研究的重要工具,它可发现大规模语料库中的隐含主题.随着语料库规模增大,发现的主题规模也随之增大.绝大多数主题模型以词袋模型为基础,无法描述词项间的顺序关系,使得主题之间无法按照重要性区分.文中提出查询无关排序主题模型框架,利用主题间各种关系排序主题,得到有序主题列表.主题关系从主题层面评价主题影响度,继而提出词项贡献度,从词项语义层面评价主题,削弱流行但语义空泛的排序主题.由于排序主题模型尚未有公认的评价标准,将有序主题作为特征进行多文档自动文摘生成,通过文摘效果