带查询推荐的中国新闻检索系统的计与实现设计与实现

被引量 : 0次 | 上传用户:shendongshendong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
英语种的外国人在查询中国相关的新闻时,希望能有比较好的查询体验。受“孔子学院跨文化传播影响力研究”项目组的委托,本文实现了一个带查询推荐的中国新闻检索系统中的主要模块部分。系统的最终目的是当用户对特定的词语进行查询时,能够提供相关性大的词语给用户选择,帮助用户明确查询意图,推荐用户感兴趣的词语,最终能够提高检索网页的准确性和全面性。论文实现了系统中的三个大的模块,网页采集模块,网页预处理模块,查询词推荐模块。网页采集模块实现了一个基于HtmlUnit的多线程网络爬虫,可以采集部分的动态网页。URL去重部分使用布隆过滤器,这是一种高效的去重数据结构。网页预处理模块实现了网页的去噪,网页去重,网页分类,网页存储。网页去噪部分使用网页分块的算法,利用网页的链接密度,文字密度等特征进行正文提取。网页去重部分是基于Simhash算法,这是一种高效的大规模网页去算法。查询推荐模块是本文的重点。当用户查询时,首先要对查询词进行纠错。查询纠错使用自然语言模型中的二元语言模型进行纠错,这种纠错方式利用隐马尔科夫原理,求解概率最大化,保证查询短语的正确性。为了推荐词语,必须从文档中抽取重要的词语,计算词语之间的相关性大小。词语抽取部分使用斯坦福词性标注器辅助实现,这个标注器的原理基于最大熵模型的,具有类线性的效率。词语之间的相关性大小使用词语的上下文的向量进行计算。在一个词语出现的语境中,往往伴随出现类似的上下文词语,利用这些上下文词语形成向量来表示一个词语,这样计算出来的推荐词语具有一定的语义相似度。最后,本文还针对查询纠错和查询推荐设计了高效的索引文件,能够保证快速查找,批量式的增量更新,从而避免了对旧的文档重复统计和计算。
其他文献
微信作为一种公共网络平台,既具有部分"新媒体"的特点,又具有社交功能、信息分享功能和信息接收功能,微信的出现给公众的生活带来了巨大的变化。微信在方便公众和朋友之间分
随着国民经济的发展和人民生活水平的提高,汽车保有量逐年增加已成为目前及未来相当长一段时间的发展趋势。伴随汽车产业的逐步成熟,汽车产业价值链的重心已从汽车制造逐步转移
社会资本理论是当今的社会科学研究中一种运用广泛的理论工具,有关社会资本概念的提出丰富和创新了传统的资本观念,为研究和透视社会提供了一个崭新的视角。良性的社会资本能
无论何种公司治理模式,均在于充分发挥公司从事商事行为的执行力,并以最小的代理成本建立起有效的监督机制,完成提高公司营利和股东收益的公司经济目标。本文通过对公司治理
传统灯光控制系统有着手动管理,灵活性差,浪费电能以及布线繁琐等缺点,已经难以满足人们对家居和工作环境越来越高的要求。此外,能源危机时有发生,使得智能灯光控制系统越来越成为
古代中国和古希腊、古罗马是古代中西方文明的代表,他们的传统文化教育思想中对人文教育和自然科学教育的重视程度是不同的,究其"源"差异在于,政治制度的差异影响古代中西方
<正> 在传播学者Tim O’Sullivan,John Hartley,Dan-ny Saunders,Martin Montgornery,John Fiske合著的传播研究领域最为通行的工具书《传播及文化研究主要概念》中。“传播
志愿失灵是志愿组织在提供志愿服务、满足社会需求等方面所产生的功能缺陷和效率困境。本文立足于国情,以北京市志愿服务情况为例,重点从政府责任视角分析了志愿失灵的生成原
审判权与行政权同为权力分立的一支,本应处于并行不悖的状态。然而,行政权的恣意扩张招致审判权的逐步萎缩甚至失准。试观此矛盾,从权力的关联性到权力的重新定位,审判权与行
<正> 我国人口形势相当严峻,河南尤其严重。为此,中央把控制人口的问题放在十分重要的位置,并要各级党政一把手亲自抓,全党动手,全民动员,各行各业齐抓共管,下最大决心,一定
期刊