论文部分内容阅读
目的基于文本挖掘技术,设计出能够自动提取流行病学致病因素的系统。方法该自动信息提取系统由一个文本挖掘引擎子系统和一个基于规则的信息提取子系统构成。首先使用文本挖掘引擎标记出所有的名词短语,并收集该名词短语的语义等信息。然后利用基于规则的文本分类器,标记出流行病学致病因素。结果为评估本系统,将由流行病学专家人工注解的文本输入该系统,评估发现最好的结果F-measure为64.6%,其精确率和召回率分别为61.0%和68.8%,该结果优于其它相关研究,且其中有些错误仍可避免。结论基于文本挖掘的方法对从流行病学