中文信息抽取关键技术及应用研究

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:Linhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的迅猛发展,特别是互联网技术的普及应用,使得越来越多的信息出现在人们面前。如何从中及时准确地找到自己需要的信息是一个急待解决的问题。信息抽取正是在这样的背景下产生并发展起来的。本文首先采用基于规则的方法设计并实现了面向电子政务领域的信息抽取试验系统,并在空气质量月报和天气预报两个领域对该系统进行了测试,达到了较高的准确率与召回率。其次,本文针对信息抽取关键技术——命名实体识别技术做了深入研究,分别对命名实体识别的两种实现方式做了探讨。基于规则和基于统计的两种命名实体识别方式各有长短:前者较高的准确性,但健壮性和移植性较差,后者具有较好的健壮性和移植性,但准确性一般。本文首先对空气质量月报系统中的基于规则的命名实体识别模块进行了测试;接着,设计并实现了一个基于CRFs的术语自动识别系统。实验测试结果印证了两种方式的优缺点。然后,本文介绍了信息抽取技术的具体应用——智能网页文本处理系统(DOCProcessor)。首先简要介绍了DOCProcessor的框架,然后着重介绍了系统中自动摘要模块的详细设计,并将基于CRFs术语自动识别方法应用于自动摘要模块中,有效地改善了摘要效果。最后,本文对信息抽取技术的重点发展方向与未来应用做了展望。
其他文献
植物的智能化是在物联网传感数据实时驱动下,由知识模型和多源异构数据融合计算提供智能决策,从而实现植物与环境、植物与人、植物与植物之间互联互通、全程感知与实时反馈的
在对齐齐哈尔市寒地旅游资源开发优势与特色分析的基础上,提出了齐齐哈尔市寒地旅游资源可持续开发利用的构想.
目的观察舒芬太尼与氯诺昔康联合用药在术后静脉自控镇痛治疗中的效果及不良反应。方法随机选取120例ASA分级为Ⅰ~Ⅱ级,在全身麻醉下进行择期根治性胃癌切除手术的患者,随机
我国的北方地区面积广阔,农业人口众多,大部分地区属严寒、寒冷与冬冷夏热区,农业人口对生产生活建筑一年四季的舒适度需求很难得到满足,同时由于冬季采暖的需要,能源的消耗
详细论述了中国水肥一体化装备的特点,从设备的肥料通道、回液模式、水肥配比方式、控制决策、设备运行方式、肥料形式以及管理规模等方面对水肥一体化装备进行了分类,并根据
论述了在现代企业制度的新形势下,内部审计工作必须重新定位工作重心、工作范围和职责,并通过提高从业人员素质和运用现代化手段来提高工作效率。
柴达木盆地北缘地区,由北向南可划分为祁连山断褶山系、柴北缘逆冲推覆构造带、前陆滑脱拆离带及前陆盆地低应变区等四个构造带,且断褶构造的形成时间有自北向南逐渐变新的趋
早在2500年前中国即有了种植荞麦的记载,自西周以来的春秋时期、南北朝时期、唐代、宋元时期、明代等各朝各代均有记载,并且对荞麦种植技术亦有记述,尤其在明代对种植荞麦的
目的评价氯诺昔康与舒芬太尼用于口腔颌面外科手术后静脉自控镇痛的临床疗效及安全性。方法将58例择期进行口腔颌面外科手术患者随机分为试验组28例和对照组30例。试验组予以
针对车轮转角直接测量法在工程实践中角度传感器安装困难且转轴易断裂的现象,结合车轮转向过程,提出了位移式间接转角测量法和四连杆式间接转角测量法。依据位移式和四连杆式