中文生物医学文本无词典分词方法研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:yucol
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取两方面对其进行了改进.实验结果表明,该方法可以在不需要词典和语料库学习的情况下,实现对生物医学文本中关键性专业术语的有效抽取,分词准确率约为84.51%.最后,基于本研究中的分词结果,对生物医学领域的词长分布进行了初步探讨,结果表明中文生物医学领域的词长分布与普通汉语文本有非常大的差异.研究
其他文献
1月10日,上海市节能协会和黄浦区统计局联合召开黄浦区楼宇能源培训会,区属约120家单位参加“能源统计报表”培训,区统计局领导就全区2017年能源统计工作进行了介绍,并提出有
在分析拉萨河流域中下游和支流堆龙曲16个采样点水样的水质理化性质的基础上,对拉萨河流域主要重金属的含量和分布进行了分析,并运用综合污染指数法对其进行了污染风险的初步
目的 对比微创钻孔引流术与开颅血肿清除术治疗中老年高血压脑出血的效果。方法 选择我院神经外科2015年2月—2017年2月收治的中老年高血压脑出血患者100例,随机分为2组,微创
燃煤电厂锅炉在低负荷时,脱硝系统(SCR)往往由于烟温低而不能投入运行。为了使机组在低负荷时氮氧化物的排放满足环保的要求,需要对现有SCR进行宽负荷脱硝改造。首先对宽负荷脱
汉英词典作为沟通中文与英语两种不同语言的桥梁,是中国与世界交流的工具。在信息时代飞速发展的今天,双语词典的自动构建技术在机器翻译和跨语言检索领域起着重要的作用,本