基于大规模中文搜索引擎的搜索日志挖掘

来源 :计算机应用研究 | 被引量 : 48次 | 上传用户:zx0755
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从中英文用户的搜索习惯差异的角度出发,引入中文分词技术对中文搜索引擎的搜索日志进行了分析。重点分析了用户输入搜索词的一些规律,包括选择的语言、搜索词的长度和频率、高级搜索技巧的使用以及搜索词的修改情况;还提出了用户提交搜索词的模型,给出了历史搜索词对搜索结果的影响因子算法。
其他文献
本文主要介绍在西北工业大学跨声速翼型风洞(TAWX)中的PC/XT微机上,采用数据库管理软件 C-dBAsE Ⅲ,对该风洞翼型实验数据、计算数据,几何数据和应用程序进行系统化管理的方
研究了考虑价格折扣的单工厂、多产品、多周期的生产和采购协同计划问题,构建了生产采购协同计划模型,提出了用于求解该问题的知识进化算法方案,阐明了该算法方案的具体实现
重点研究事件检测模型中层次聚类算法的改进,提出利用在关键词抽取基础上利用新闻的各种要素信息计算新闻之间相似度的方式,搭建了一个在线新闻检索系统,在其上利用新华社的新闻语料进行实验。实验结果表明改进方法的效果明显,性能较之未使用前有显著的提升。
将面向服务的体系架构引入内容适配研究,设计了一种新颖的面向服务的适配框架,并阐述了框架的运行机制。该框架在复用性、扩展性等方面具有良好的性能。
提出了一种基于UML序列图的面向对象类簇级测试的方法。这种方法根据序列图进行分析提取类交互信息和用户的输入数据生成测试用例,并根据序列图对代码进行插桩,构造测试模块;最后测试驱动器执行测试模块得到测试结果。该方法也支持UML2.0中为序列图添加的新特征。
本文从压力传感器的校准数据着手,应用格拉布斯(Grubbs)准则,识別摻杂于大量实验或检测数据中的假数据,并正确地将其剔除,从而提高实验或检测的真实性和正确地评定传感器的精
本文介绍风洞应变天平中首次研制成功的一台串置双五分量天平。串置双天平由一块钢材制成。O_1天平固定在 O_2天平的受力端。O_2天平既能测量左平尾载荷,又能传递由 O_1天平
本文总结了测量轴流压气机失速喘振工况及端壁边界层流场时所采用的方法,并提供若干典型结果。大量试验表明这些方法行之有效。用三支同型探针,沿周向不等间隔分布,失速喘振
基于RM-ODP标准以及Web services技术,提出了基于Web应用的开放的模型复用框架OMRF,从企业视图、信息视图、计算视图、工程视图、技术视图五个层面给出了该框架的主要内容,分析了基于该框架的模型复用开发应用模式,阐述了基于该框架的具体研究问题,对提高模型复用与集成能力具有一定参考价值。
针对许多计算听觉场景分析系统无法很好地解决多说话人混合语音信号分离的问题,提出了一种基于多基音跟踪的单声道混合语音分离系统。该系统充分利用了多基音跟踪研究的最新成果,通过将多基音跟踪得到的目标语音和干扰语音的基音轨迹信息结合到分离系统中,有效地改善了分离系统在包括多说话人混合在内的多种干扰情况下的分离效果,为多说话人语音分离问题的解决提供了新的思路。