文本挖掘关键技术研究

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:snmn777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,Web上的电子文本急剧增长,人们可以十分轻松的获得大量的文本数据。但大多数互联网上的文本数据的质量比较低,这使得数据的利用价值大打折扣。文本挖掘致力于产生高质量的文本信息,因而被广泛研究。本文在介绍文本挖掘基本理论框架的基础上,重点研究了文本挖掘中的文本表示和术语识别两项关键技术。针对文本表示技术,本文首先介绍目前应用最广泛的向量空间模型,并指出其缺乏语义表示的不足;然后通过建模文本中的词共现现象,提出一种结合词共现因子的语义向量空间模型;最后在文本分类实验上证明了提出模型的有效性。针对术语识别技术,本文首先介绍目前常用的术语识别方法,并指出基于机器学习的术语识别方法的优势:然后介绍机器学习中的条件随机场算法理论,并指出基于条件随机场算法的单模型术语识别方法的不足;再后通过引入交叉验证的思想,提出一种基于条件随机场算法的多模型术语识别方法;最后针对林业领域的语料进行术语识别实验,证明了提出方法的有效性。
其他文献
目的探讨恩替卡韦对慢性乙型肝炎病毒感染患者HBeAg、 HBV-DNA、 ALT水平的影响。方法回顾性分析2015年10月至2018年7月我院收治的124例慢性乙型肝炎病毒感染患者的临床资料,
文化是民族的血脉,是民族的脊梁。各族人民紧密团结、自强不息,共同创造出源远流长、博大精深的中华文化,为中华民族发展壮大提供了强大精神力量。当代中国进入了全面建设小康社
染料敏化太阳能电池(Dye-sensitized solar cells,DSSC)由于其相对低廉的成本和较高的光电转化效率,引起了人们的极大兴趣。但是传统玻璃基DSSC质量重,不能弯曲等缺陷限制了D
目的探讨加速康复外科(ERAS)理念在腹腔镜全子宫切除术围手术期中的应用。方法 68例行腹腔镜全子宫切除术的子宫良性病变患者随机分为两组各34例,对照组采用传统治疗,试验组
古代经典诗歌与文言文其本身蕴含着丰富的文学、哲学、教育学等多重元素与价值,对高中语文教学及高中师生语文素养、文学素养、精神世界的提升与丰富有着至关重要的作用;鉴于
在改革开放的政策指引之下,我国国民生活水平得到了极大提高,收入也在不断增加。在这种情况下,居民一定要高度重视对投资理财的规划,选择合理的投资理财方式,只有这样才能获
随着航运业的快速发展,船舶正向大型化发展。大型邮轮和近海客船等船型体积庞大,内部结构复杂,甲板层数众多,被喻为“海上的移动城市”。复杂的内部结构对船舶日常工作和应急
运用复合生态系统理论分析冀西北地区生态涵养区建设现状发现:自然系统中气候、土壤、水资源等因素在一定程度上不利于生产者生存发展,消费者与生产者之间能量流动不平衡;经
目的探讨体外加温治疗仪在低体温低血压危重患者中的应用效果。方法选取2017年6月至2019年6月我院收治的低体温低血压危重患者60例,随机分为实验组(n=30)和常规组(n=30)。两
目的探讨基于微信平台的健康教育路径对高磷血症血液透析患者饮食教育的效果。方法选取2017年7月至2018年7月于我院行维持性血液透析的高磷血症患者80例,随机分为两组。对照