用户查询日志中的中文机构名识别

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户:Sherryduandian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】解决在用户查询日志中识别机构名的标注语料资源匮乏及信息不对称问题。【方法】提出一种自动构建用户查询日志机构名训练语料的方法,解决目前用户查询日志语料资源匮乏的问题。提出粘合度概念解决信息不对称问题,结合上下文等信息,采用条件随机场模型进行机构名识别。【结果】该方法在搜狗用户查询日志上的开放测试结果显示,机构名识别的正确率为72.80%,召回率为86.73%,F值为79.16%,比传统机构名识别方法在日志上的F值提高30%。【局限】语料构建方法仅仅是模拟查询日志的特点,但训练模型的误差仍然会大于规范化标注的查询日志语料;机构名表的数据量大小会影响模型对上下文知识学习的完备性。【结论】实验表明该方法应用于用户查询日志中的机构名识别是有效的。
其他文献
目的:探讨常见抗骨质疏松药物在绝经后妇女骨质疏松症患者脆性骨折预防中的疗效。资料和方法:计算机检索MEDLINE、EMBASE、Cochrane临床对照试验中心注册库、中国生物医学文献
房地产业的竞争日趋激烈,如何在竞争中形成自己的竞争战略已成为企业最为关注的一个话题。本文以南京栖霞建设股份有限公司为例(以下简称栖霞建设),通过对房地产行业以及企业
VB程序设计是中等职业学校计算机专业的一门必修课程,不但可以培养学生的程序设计能力、实践操作能力,还可以为以后更深一步的学习计算机专业知识打下坚实基础。但对目前基础
通过分析认为:太平口心滩存在被解体的可能;腊林洲高边滩滩头将继续冲蚀后退;守护当前的三八滩对改善该河段的航道条件益处不大;目前的河型条件下要保证主、副通航孔都能通航
<正> 我接触黄金大胡子是在2003年12月,一个开鱼店的朋友告诉我可以进到黄金大胡子幼鱼,当时对异型了解甚少,但觉得也需要点新鲜血液,就订了两条。这期间通过网络了解了一下,
期刊
提出由吸附式除湿机除湿后加上冷冻冷却组合方式进行烟叶仓库除湿的新方法,并给出设备选型的主要计算过程。
文章采用Mann-Kendall非参数秩次检验法,分析宜昌站和汉口站来水来沙数据的变化趋势和突变情况,研究三峡工程蓄水运用后宜昌至武汉河段的新水沙特性。结果表明,三峡水库的运
<正>我们将塑造青年人关注社会与现实的公民人格,让更多的普通人以公民记者的身份来感知社会的动态,见证时代的发展。中国公安大学去年曾做过一次调查,报告结论是,在我国,性
<正>本刊是《市场周刊》杂志社编辑出版的集中发表关于市场经济领域理论研究成果的期刊,设有《管理探索》《产业经济》《商务营销》《财经论坛》《金融观察》等栏目。热忱欢
使用1949~2010年热带气旋年鉴资料,分析中国沿海风电开发关注的热带气旋发生频数、强度及年代际变化,62年间西北太平洋共发生2046个,年均33个;登陆中国大陆512个,每年平均8.3