中文网页搜索日志中的特殊命名实体挖掘

来源 :第五届全国信息检索学术会议CCIR2009 | 被引量 : 0次 | 上传用户:guyisun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特殊命名实体**是指字面特征不明显、与人们日常生活和休闲娱乐活动密切相关的实体名,比如电影名、餐馆名、大学名以及人名等等。在以娱乐为主的中文搜索中,这些命名实体占据重要地位,对它们进行挖掘不仅能够形成一种重要的数据资源,给互联网上的信息抽取提供基础,还有助于搜索引擎理解用户的查询意图,从而给出有针对性的、整合的搜索结果。本文采用数据挖掘的手段,在一亿多条中文查询词上做了充分的实验,结果显示我们的方法能够从查询日志中挖掘出高质量的命名实体列表,六个类别上识别结果的平均P@500达到了77%。本文提出的系统能够在少量的手工帮助下不断迭代地提高性能,因此具有很大的实际应用价值。
其他文献
伟大的无产阶级革命家周恩来同志为我国的革命和建设事业建立了丰功伟绩。在我国的科技事业中,同样凝结着周恩来的辛勤劳动和卓越智慧,他是新中国科学技术事业的伟大奠基人。本
人物关系抽取是实体关系抽取研究的一个重要分支。本文提出了一种基于搜索引擎的人物社会关系抽取方法。该方法首先将人物关系特征词与测试集人名一起作为组合关键词提交到搜
会议
目前,中国硝酸硝铵产能和产量已经自给有余,且在生产技术、安全管理方面逐渐成熟,但整个行业发展中存在着产能过剩、创新能力不强问题。未来硝酸硝铵应发挥自身优势,通过发展
针对专利文献的特点,本文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律
句际语义关系是指语篇上下文中相邻句子之间存在的语义关系。准确的识别句际语义关系对于文本理解、文本推理和文本结构分析具有重要的意义。然而,由于受到语篇上下文环境、指
会议
本文研究开放式中文命名实体识别问题。针对传统命名实体识别方法具有训练语料标注困难,自适应能力不强等缺点,研究人员提出了开放式的命名实体识别。但由于汉语的特殊性,使得开
在利用统计方法对文摘中词频特征和词位置分布特征进行分析的基础上,提出增加词同现特征用于自动文摘系统的新方法。文中把该方法表示为基于词位置与同现特征的中文自动文摘模
随着生物医学的迅速发展,从医学文献中抽取蛋白质关系已经成为面向生物医学方面的自然语言处理任务中一项非常重要的任务。目前研究学者已经提出很多蛋白质关系抽取的方法,但是
会议
近年来,关于药的作用及其对人类健康影响的研究越来越多,相关的文献也迅速增长,工业界认为90%的药物标靶来自于生物医学文献,随之基于药的相关检索逐渐成为焦点。而为相关专家提高
会议
针对专利文献专业术语相对较多、形式规范、语言严谨的特点,本文提出了一种基于伪LCS的句子相似度计算方法。该方法通过对传统的最长公共子串(LCS)算法进行改进,并加入了词汇语