【摘 要】
:
以真实的人民日报语料为处理对象,提出了一种基于大规模语料库的新闻领域新词挖掘的方法。首先对标有时间戳标签的大规模语料进行串频统计和子串归并,建立历史词汇库;然后与历史
【机 构】
:
北京信息科技大学中文信息处理研究中心,北京,100101
【出 处】
:
第三届全国信息检索与内容安全学术会议
论文部分内容阅读
以真实的人民日报语料为处理对象,提出了一种基于大规模语料库的新闻领域新词挖掘的方法。首先对标有时间戳标签的大规模语料进行串频统计和子串归并,建立历史词汇库;然后与历史词库进行比较,从而生成对象新闻语料中的候选新词;最后根据新闻领域新词的构词规则和垃圾词串的构词特征来对候选新词进行过滤,从而挖掘出新词。对该算法进行了模型系统实现并进行了测试运行,结果表明该算法是行之有效的。
其他文献
领域词汇集中体现和承载了一个学科领域的核心知识,领域词汇的抽取是很多自然语言处理应用的一个起始点。文中提出了一种基于未标注语科的领域词汇自动抽取方法。首先计算了词
目的 观察中西医综合治疗非溃疡性消化不良的方法和疗效.方法 味香砂六君子汤为基本方:红人参6g(捣碎煎),白术10g,茯苓15g,木香10g,砂仁6g,甘草10g,兰夏10g,厚朴15g,黄柏10g,
目的 研究急性重症病毒性心肌炎误诊为急性心肌梗死(AMI)的原因并采取相应减少误诊的对策.方法 对我院2012年1月-2012年12月期间收治的19例急性重症病毒性心肌炎误诊为急性心
目的 探讨本地区22例伤寒临床误诊的原因.方法 2010年6月-2012年12月共收治22例伤寒误诊,对这22例是伤寒患者的临床资料进行回顾性分析,研究伤寒误诊的原因.结果 伤寒可在任
中国评剧院的于萍同志,是在党的培养下成长起来的优秀青年演员。几年来,她坚决听党的话,朝着又红又专的道路前进。特别是大跃进以来,在政治上、业务上更有了显著的进步。不
本文提出了建设面向术语提取和定义识别的专业领域评测语料库的规划,从建设流程、标注内容、标记集、标注方法等方面进行论述。介绍了作者正在进行的语料库建设情况和已有的资
目的 为了更深入的研究中医辩证治疗胃脘痛的临床治疗效果.方法 选取2012年2月-7月在我院接受中医辩证治疗的胃脘痛病患164例,按照病症对病患进行分类,一般分为脾胃虚寒型、
目的 通过分析临床运用抗生素患者出现的不良反应,指导抗生素的合理使用.方法 回顾性分析从2012年1月到2013年6月在我院诊治的120例抗生素应用后导致不良反应的患者的临床资
目的 对糖尿病合并高血压的中医辩证治疗临床效果进行分析.方法 选取56位高血压合并糖尿病患者,所有患者都进行常规的治疗,在此基础上,对照组患者采取西药治疗,观察组在对照
为孩子铺设梦想之路,需要坚实的财务基础。如何在自己有能力的时候为儿女或子孙多一些帮助?近日,中宏人寿保险有限公司推出其专为儿童成长呵护所设计的新一
Laying dreams f