基于层次概念格的分面导航

来源 :第六届全国信息检索学术会议 | 被引量 : 0次 | 上传用户：foreverfreedom5

【摘要】

：

【作者】

：

何超程学旗郭嘉丰

【机构】

：

中国科学院计算技术研究所,北京,100190;中国科学院研究生院,北京,100190 中国科学院计

【出处】

：

第六届全国信息检索学术会议

【发表日期】

：

2010年2期

【关键词】

：

分面导航层次概念格频繁项集挖掘多维分类信息检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分面导航是用户基于多维分类目录检索和浏览资源的主要方式之一。通过推荐与当前搜索结果相关的类别，帮助用户理解搜索结果，并有效避免查询结果为空。然而，目前的分面导航难以分析所推荐类别之间的深层语义。本文提出了一种层次概念格作为资源集的本体，它完整并简洁地描述查询结果间的包含关系。在此基础上，我们设计了一系列导航操作帮助用户基于层次概念格进行知识发现。为满足导航操作的实时性，我们提出了格挖掘算法LMiner。它以自顶向下和深度优先方式遍历生成格；通过倒排索引当前已生成的极小节点，进行高效的节点冗余检查和边的增量计算。实验结果表明，LMiner的速度远快于现有算法，而索引却小得多。

其他文献

基于统计和规则相结合的汉语术语语义分析方法

本文在分析术语特点的基础上，提出了一种基于统计和规则相结合的汉语术语语义分析方法。首先以词，词性，距离信息，上下文信息，词语在知网中的第一义原信息为特征，基于该特征训练得到支持向量机（SVM）依存分析模型，从而有效识别出了术语内部的依存关系；在依存分析基础上利用统计和规则相结合的方法进行术语语义分析。实验结果表明该方法的有效性，在大类语义关系和小类语义关系上正确率分别达到77.13％和69.05％

会议

依存分析语义分析SVMCRF汉语术语

一种LDA模型的高效并行求解算法

统计主题模型是近年来在文本信息处理领域发展起来的重要方法，由于模型结构的复杂性以及所需处理数据的巨大规模，所以迫切需求该类模型的高效求解算法。本文针对隐含主题模型LDA，研究了其变分求解算法的并行化方法。首先，提出一种新的动态负载均衡方法，相对于已有的基于静态负载均衡方法，性能有了显著的提高，并且对数据排序的影响表现稳定；同时，通过对统计量汇总过程的优化，克服了模型空间随并行线程数量线性增长的弊端

会议

统计主题模型变分推断并行算法大规模文本处理

面向观点挖掘的汽车本体知识库的构建

建立了面向观点挖掘的汽车本体知识库，可为挖掘汽车整体信息和特性信息观点提供强大的数据资源。本文以汽车领域知识为背景，根据汽车知识的关系，构建了汽车本体知识库的概念关系。在此基础上，利用Web 汽车评论真实语料库，自动获取了本体知识库中的核心概念。最后，采用OWL描述语言，构建了面向观点挖掘的本体知识库。

会议

本体知识库观点挖掘概念获取汽车评论

DeepWeb查询转换研究

由于Web数据库具有自治性和异构性的特点，造成了各查询接口在内容、形式以及查询能力上都不尽相同，使得用户的查询请求受限于其给定的查询接口的表达能力，这给查询转换的准确性带来了更大的挑战。因此，对Deep Web查询转换进行研究，利用领域本体获取Deep Web入口表单与集成查询接口表单谓词的映射关系，分析查询重写产生约束映射规则，使得用户提交的查询条件转换成与各个Deep Web数据库查询接口相适

会议

本体模式匹配查询转换Deep Web

基于WEB检索的论文标题译文获取

现有的论文标题译文通常由统计机器翻译或者通过辅助翻译得到，这两种方法对于标题的译文获取有明显的不足。本文在分析了汉语标题的特点及WEB译文获取技术后，提出了一种基于WEB检索的论文标题译文获取方法。实验表明，通过该方法获取的论文标题译文能够达到与Google在线翻译相同的质量。

会议

论文标题辅助翻译WEB检索机器翻译

模拟退火的投影寻踪模型在文本分类中的应用

在文本分类中，特征维数高是必须处理的问题，有效的维数约简技术可以提高分类器学习任务的效率和分类性能，已有研究表明投影寻踪是一种有效的降维方法。投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向，把高维数据投影到低维子空间上，从而实现在低维空间上研究分析高维数据的目的。传统投影寻踪技术计算复杂、编程实现困难，其本质问题是投影方向不易确定，且当投影方向包含的指标较多时计算尤为不易。本文提出一种

会议

模拟退火投影寻踪模型投影方向文本分类

基于多分类器的Deep Web入口发现

Deep Web入口发现是Deep Web数据集成的关键问题之一，本文应用主题爬行技术和本体技术，构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC)，实现特定领域Deep Web入口表单的自动发现。网页分类器在爬行过程中，借助主题爬行技术和本体技术进行领域内网页主题爬行；表单结构分类器对领域相关网页进行解析，并应用决策树算法判断其网页中是否存在查询接口表单，去除非搜索表单

会议

本体主题爬行决策树Deep Web多分类器

基于权重标准化SimRank方法的查询扩展技术研究

查询扩展是信息检索中的一项重要技术。传统的局部分析查询扩展方法利用伪相关文档作为候选词集合，然而部分伪相关文档并不具有很高的相关性。本文利用真实的搜索引擎查询日志，建立了查询点击图，经过多次图结构的转化得到能够反映词之间关联程度的词项关系图，并在图结构的相似度算法SimRank的基础上，提出了一种基于权重标准化的改进SimRank 方法，该方法利用词项关系图中词项的全局和间接关系，能够有效挖掘与原

会议

搜索引擎查询扩展查询日志SimRank权重标准化

结合词相关特征与流行学习的中文问句分类

针对问句分类过程中词袋方式特征选取所面临的数据稀疏以及特征空间维数过高的问题，提出了一种结合词语相关性与流形学习的分类方法，该方法通过统计选取训练语料库中高频词作为分类特征，以词汇语义相似度方法构建问句特征空间特征值，通过流行学习中的局部线性嵌入算法对特征空间进行非线性降维，从而获得问句分类特征向量，并采用支持向量机算法训练分类器。在旅游领域2万多问句上进行了问句分类实验，结果表明提出的方法取得了

会议

统计问句分类流形学习局部线性嵌入非线性降维词汇语义相似度

虚点：一种减少特征值鸿沟的方法

基于向量空间模型的分类方法是目前各种分类方法广泛使用的文档结构表示方法，在对基于向量空间模型的分类方法的研究发现，基于向量空间模型的分类方法存在不合理之处，即特征值之间的“鸿沟”，这种鸿沟会导致向量空间模型中两点之间的距离的计算出现偏差，本文介绍了一种使用虚点的方法，这种方法消除了特征值之间的鸿沟，使得分类的效果得到了提高。该方法是通过重新定义特征权重，调整向量空间模型中点的特征值，即相当于重新定

会议

虚点分类算法特征权重向量空间模型

基于层次概念格的分面导航

与本文相关的学术论文