基于HMM模型的农作物信息抽取方法研究

被引量 : 0次 | 上传用户:louism123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机和互联网技术的迅猛发展,各领域信息量呈指数级增长。如何高效获取有用信息成为有效利用信息的关键。信息抽取是指从自然语言文本中识别特定类型的事件或关系的信息,并将这些信息格式化输出。从而免去了人工查找的繁琐,提高了工作效率。 目前已经有许多方法应用到该领域。如有基于聚类的方法,有基于统计的方法和模式匹配等方法。本文采用农作物种子文本作为语料,通过信息抽取的方法可以从中选取出农作物种植的有用信息,省去了人工阅读的繁琐。本文提出了一种基于HMM模型的信息抽取方法,定义标点符号(逗号,句号,感叹号等)隔开的语言片断为小句;小句的大意为主题。其依据为:首先,一篇农作物种子文本其实就是一些主题的集合;其次,通过对农作物种子语料的大量阅读,发现语料中在对种子的描述的先后次序大致是一致的。因此一篇种子文本就是一些主题的有序集合。该方法与其它方法比较,它具有以下优点:省去了对领域知识的大量了解;它具有一定的可移植性,不是特定领域特定的模型;它解决了聚类方法的诸多噪音问题。 根据上面的分析,我们主要完成以下几点任务: 比较了各种句子相似度计算的方法,汲取它们的优点,生成了针对农作物语料的基于扩展的小句的相似度算法。 通过计算小句的相似度,将小句聚类,生成训练语料,得到领域的主题集。
其他文献
行政受益权是符合法定条件的行政相对人享有的要求行政主体为特定行为(包括作为和不作为),以获得和享有特定利益的权利,行政主体履行特定义务之后,受益权才实际享有、获得实
联合国教科文组织于1989年11月在北京召开了“面向21世纪教育国际研讨会”,首次提出并讨论创业教育的概念。创业教育被视为未来的人应掌握的“第三本教育护照”,即创业能力护
在经济全球化的大背景下,随着世界经济全球化进程的加快和跨国公司的迅速发展,OEM运行方式从上世纪五十年代末开始,已经由简单的、传统的生产合作不断地发展到复合OEM、逆向OEM
目的了解我校教职工健康现状,有的放矢地进行健康教育,不断提高健康水平.方法收集35岁以上(含35岁)教职工健康体检资料,采用顺位及构比法进行分析.结果2 296名健康体检者中,
针对传统博弈搜索算法无法适用于多人非完备信息博弈,通过分析UCT-RAVE算法的原理和特性,提出了运用UCT-RAVE算法与蒙特卡罗抽样技术相结合的方法。通过蒙特卡罗抽样技术将非完
本文通过分析大学生在创新创业实践活动不同阶段产生的迷惑、畏难、躁急、懈怠等心理问题及其原因,从“引”、“破”、“优”、“效”四个方面探索了创新创业实践活动中大学
建立现代大学制度是中国高等教育改革与发展的必然选择,其基本目标之一是理顺政府、高校与社会之间的关系。根据我国的国情,长期以来,我国社会力量对高等教育的介入较少,而政
随着20世纪60年代西方人力资本理论的兴起,教育被认为是达到收入分配公平的有效措施之一。目前,国外已有大量地研究表明,教育水平高低与教育不均等程度对收入分配有相当的影
社会对人才的要求越来越高,对人才的英语水平的要求也越来越高。然而,目前大学生的英语水平尤其是英语口语水平还不是很理想。这一现象已经引起了教育界的关注。《大学英语课
流行性腮腺炎由腮腺炎病毒引起,为影响儿童及青少年的急性传染病。除侵犯腮腺外,可引起脑膜炎、脑膜脑炎、睾丸炎、卵巢炎、胰腺炎、乳腺炎等,可与腮腺炎同时发生,也可发生于