一种大规模中文搜索日志的层次聚类方法

来源 :科技通报 | 被引量 : 0次 | 上传用户:baobaob1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种层次聚类算法,旨在对搜索引擎的查询日志数据进行聚类分析。算法基于搜狗实验室公开的查询日志数据,通过3次划分完成查询文本聚类,每一次划分实现不同程度的降维。相似度参数可根据不同的聚类需求调整,算法可扩展性强。实验结果为查询推荐、相关性排序等提供了有力的依据。
其他文献
服务贸易与货物贸易是否存在发展的失衡及其原因的解释一直是国际贸易领域争论的焦点。本文通过加入技术创新效率的外包模型,分析技术创新能力如何作为服务部门比较优势的来
摘要:改革开放以来我国省级单位面板数据单位根检验、协整检验和误差修正模型分析证明,我国东、中、西部地区农村金融发展与农业碳排放之间关系密切。对东部地区而言,农村金融结
语文课程标准指出:"对学生作文评价结果的呈现方式,根据实际需要,可以是书面的,可以是口头的;可以用等第表示,也可以用评语表示;还可以综合采用多种形式评价。"为了让更多的
提出了一种基于坡而网格全局搜索复杂土坡关键滑动面的综合优化方法。它充分利用几何优化和数值分析之优点,根据土坡滑动面后缘和剪出口潜在分布范围,布置两组任意划分的坡面特
农产品质量安全在社会经济发展中扮演着重要角色,加之如今人们对健康的要求进一步提高,因此各个国家对食品安全的关注度越来越高。农产品质量安全问题往往发生于生产加工环节
随着信息技术的发展,数据的重要性远远超过了用于保存数据的存储介质。本文介绍了硬盘的结构和存储原理,以及在出现误操作导致数据丢失时,可采取的数据恢复的方法。