中文网页搜索日志中的特殊命名实体挖掘

来源 :第五届全国信息检索学术会议CCIR2009 | 被引量 : 0次 | 上传用户:lfw_1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特殊命名实体**是指字面特征不明显、与人们日常生活和休闲娱乐活动密切相关的实体名,比如电影名、餐馆名、大学名以及人名等等。在以娱乐为主的中文搜索中,这些命名实体占据重要地位,对它们进行挖掘不仅能够形成一种重要的数据资源,给互联网上的信息抽取提供基础,还有助于搜索引擎理解用户的查询意图,从而给出有针对性的、整合的搜索结果。本文采用数据挖掘的手段,在一亿多条中文查询词上做了充分的实验,结果显示我们的方法能够从查询日志中挖掘出高质量的命名实体列表,六个类别上识别结果的平均P@500达到了77%。本文提出的系统能够在少量的手工帮助下不断迭代地提高性能,因此具有很大的实际应用价值。
其他文献
随着我国经济飞速发展,城市化进程不断深化,市政道路使用强度提升,来往车辆及人为伤害等因素给道路耐久性带来压力,甚至部分道路被严重破坏,极大影响了交通正常运行,为了提高
通过环戊二烯负离子与双富烯2,2′-二(3-亚环己基-1,4-环戊二烯基)乙醚的加成反应得到配体,所得配体锂化后与四氯化钛四氢呋喃络合物反应得到了一种新型的3-氧-戊基桥连双核(C1-
未到不惑之年的私企经理朱某,突然卒死在床上。据医生分析,是因为高血压而引发脑血管破裂所致。大家都说,他整天只知道赚钱、喝酒、应酬,太不爱惜自己的身体了。命都没有了,
对于公路桥梁的施工来说,软土地基的处理是一个比较难的问题,而且对公路桥梁的正常使用来说,软土地基的处理对质量的影响较大,因此,为了使软土地基的施工技术提高就需要对该
在教育改革的背景下,阅读能力的培养已经成为教学的一部分。在信息发展的今天,知识的涉及面越来越广,每一个人都需要在这个信息繁杂的社会中快速的获取自己需要的信息,这就需
为了确定结构随机理论求解中的高阶参振模态数目,采用经验模式分解(EMD)与小波变换相结合的方法分析结构气弹模型自激响应数据信号的时-频-谱联合特性,从原始信号中分解出固有模态函数(IMF),再对各个IMF进行小波变换提取信号特征参数,从而识别出结构风振随机计算所需的高阶参振模态截止频率,并将识别结果与直接采用随机理论对不同参振模态的计算结果进行对比验证.结果表明:该方法能够准确地识别出结构风振高阶
在施工过程中,我们经常会听到项目经理们抱怨预算员在做施工预算时,将钢筋总量算少了,但事实并非如此,实际用量与预算数量差别原因究竟出在哪儿?让我们细致的分析一下。
为解决航电软件仿真测试环境中的通用异步和周期实时通讯问题,设计了一种反射内存网实时通讯协议(MSTP).基于反射内存网SCRAMNet设计协议,介绍了协议内存布局,描述并实现周期和异步
在体育教学过程中,结合学生的身心发展特点因材施教,培养学生对体育学习的兴趣。同时,教师应该提高自身的体育教学水平,帮助学生更好地学习体育。本文论述了小学体育教学特点
在初中语文课堂上,文言文教学是最重要的教学内容之一,同时也是教学的难点之一,因此,如何提高学生的文言文学习能力和阅读水平,便成为了摆在广大教师面前的一个重要课题,本文