利用URL类别改进查询主题分类

来源 :第六届全国信息检索学术会议 | 被引量 : 0次 | 上传用户：qwezxcasdqwezxc

【摘要】

：

查询分类是理解互联网用户查询意图的重要手段。由于查询很短，先对查询进行扩展丰富其特征，再进行分类被证明是解决特征稀疏的重要途径，其中利用搜索引擎返回结果是最有效的方法

【作者】

：

宋巍;张宇;谢毓彬;高汉东;刘挺;李生;

【机构】

：

哈尔滨工业大学信息检索研究室,哈尔滨,150001

【出处】

：

第六届全国信息检索学术会议

【发表日期】

：

2010年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

查询分类是理解互联网用户查询意图的重要手段。由于查询很短，先对查询进行扩展丰富其特征，再进行分类被证明是解决特征稀疏的重要途径，其中利用搜索引擎返回结果是最有效的方法之一。已有工作主要利用返回结果的文本，没有充分利用URL 信息。本文利用互联网上人工组织的分类网页目录，设计URL分类器，通过统计结果集合中URL的类别分布预测查询类别。人工标注从搜索引擎日志中采样的约2500个查询作为测试数据。实验表明，基于URL类别的查询分类器可以获得与基于文本扩展的分类器相当的准确率，却较大地提高了查询分类的效率。将两类分类器组合得到的分类器可以获得比单个分类器更好的分类性能。特别的是，基于URL类别的分类器与原始查询相结合时，F1值可以接近基于文本扩展的分类器，而效率与基于URL类别的分类器相当，在分类性能与处理效率上进行折衷。

其他文献

基于多分类器的Deep Web入口发现

Deep Web入口发现是Deep Web数据集成的关键问题之一，本文应用主题爬行技术和本体技术，构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC)，实现特定领域Deep Web

会议

基于主动学习的中文问题类别标注研究

在开放领域问题回答研究中，问题分类是首要面对的问题,也是影响问答系统性能的关键。而目前问题分类语料规模都比较小，难以满足实际应用中问题分类的需要。本文根据HOWNET 建立

会议

五分钟测定您的健康趋势

若干年后自己的健康状况如何?这是人们最关心的问题之一,其实要了解这种健康的发展趋势并不难,5分钟内就可来个自我测定。请依次对下列问题一一作出选择,如果您的选择与问题

期刊

饮食习惯体力活动令人同性恋者入睡困难性伴侣酒精量赌博活动熏烤致命疾病

一种基于核函数的技术关键词连接关系抽取方法

本文将信息抽取中的关系抽取技术应用于专利摘要文本，抽取专利摘要文本中技术关键词间的连接关系。本文将特征分为需精确匹配特征和需近似匹配特征两类，分别定义相似性计算方法

会议

基于中心理论的中文对话省略恢复研究

在中文对话中，大量存在着省略的现象，为了避免由于省略造成的表述模糊以及歧义等问题，本文进行了相关的研究，以中心理论作为理论依据，提出一种适用于中文对话系统或中文交互式问答

会议

自然语言处理中心理论中文对话省略恢复模型翻译语料

一种基于语义引力及密度分布的聚类算法

由于传统的相似性度量计算方法在数据聚类、特别是高维数据聚类过程中存在的问题，基于数据重力的相似度计算方法被引入聚类过程。针对此类方法在表达类间相似关系方面存在的不

会议

模拟退火的投影寻踪模型在文本分类中的应用

在文本分类中，特征维数高是必须处理的问题，有效的维数约简技术可以提高分类器学习任务的效率和分类性能，已有研究表明投影寻踪是一种有效的降维方法。投影寻踪是通过寻找最能反

会议

肌肉蛋白质凝胶的粘度和持水力之间的相关性

在不同条件下制备了猪背最长肌肌肉蛋白质凝胶。凝胶的粘度和持水力因其所形成的条件不同而有很大的差别，各自的变异性很大。但是，凝胶的粘度和持水力之间存在着强正相关关系。

期刊

持水力蛋白质凝胶毛细管力亲水基团背最长肌强正相关肌原纤维肌动球蛋白肌球蛋白分子相关系数

化工企业党建有效融入中心工作的策略研究

随着化工企业的深入发展,党建体系的引领价值逐渐凸显出来.对于制造类型的企业来讲,不仅需要着眼于生产经营工作,也需要将党建工作融入在企业核心体系当中,对基层党建工作思

期刊

化工企业党建基层工作

基于WEB资源的ComPaper10th中权威学者挖掘

文献检索中，自动发现指定研究领域的权威文献和权威学者，使用户对特定领域有全面、深刻、细致的认识和了解，不仅能使科研工作者能快速的进行相关研究，对普通用户了解领域知识也有

会议

利用URL类别改进查询主题分类

与本文相关的学术论文