中文信息抽取关键技术研究与实现

被引量 : 29次 | 上传用户:cychenying2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网等新兴媒体的迅猛发展,如何从海量电子文档中及时准确地找到需要的信息已经成为一个亟待解决的问题,信息抽取正是在这样的背景下产生并发展起来的。本文对中文信息抽取的几个关键技术进行了研究,设计实现了多个面向不同领域的信息抽取实验系统,并对信息抽取在信息内容安全领域的应用进行了初步探索。论文的主要研究成果如下:1.设计实现了一种自底向上的有监督机器学习算法,不仅能较准确地完成规则的自动提取,还能较好地实现领域间的移植。在此基础上,设计实现了两个实验系统:财经领域公司人事变动新闻的信息抽取实验系统和移动赛事新闻点播系统。实验结果表明,规则提取算法对两个系统都是有效的。本文还探索了信息抽取与移动终端技术的结合,移动赛事新闻点播系统表明,“信息抽取+短信息”的智能信息服务模式是完全可行的。2.采用隐马尔科夫模型对体育赛事新闻文本进行抽取,设计并实现了实验系统三。并在统计方法的基础上加入了规则的方法,通过两种方式的结合,提高信息抽取性能。实验结果表明,这种统计与规则相结合的中文信息抽取方式取得了比较令人满意的效果。3.在体育赛事新闻领域对命名实体识别进行了重点研究,通过基于规则的方法实现了对赛事名称、比赛结果等命名实体较好地识别。4.探索了信息抽取在信息内容安全领域的应用。针对中文手机垃圾短信过滤任务,提出了一种规则和统计相结合的倾向性判断模型。在此基础上,设计实现了中文短信内容监控实验系统,并取得了良好的实验结果。最后,对本文中文信息抽取关键技术的研究与实现进行了总结,并展望了进一步研究的方向和思路。
其他文献
本文以广西南宁膨胀土为研究对象,结合现场膨胀土边坡的观测资料,通过室内膨胀土干湿循环试验,探讨了干湿循环条件下膨胀土强度及变形规律,初步揭示了膨胀土在干湿交替环境下
2012年中国玉米产量创下20561万t的历史新高,201213年度进口玉米到货预计达到280万t,而国内玉米市场采购需求不旺,市场供应增幅超过采购需求增幅,尽管国家收购近3100万t临储
意境论是中国古代文论中独创的一个美学理论,文学意境以它情景交融的表现特征、虚实相生的结构特征、韵味无穷的审美特征集中体现了华夏民族的审美理想,成为抒情文学形象的高
目的探讨甲硝唑、螺旋霉素变异干髓治疗乳牙根尖周炎的疗效及安全性。方法采用常规变异干髓治疗配以甲硝唑、螺旋霉素混合剂选择326例儿童患者进行临床观察。结果326例患者中
目的:选择腹部外科手术患者,通过空肠造瘘放置可裂式空肠造瘘管和肠内营养输注系统,在术后早期开始给予患者肠内营养支持,以探讨手术后应用早期肠内营养支持的对腹部外科大手
时代的发展,科技的进步,教育的需要,呼唤创新人才和创新教育。教育是知识创新、传播和应用的主要基地,也是培育创新精神和创新人才的摇篮。然而创新人才并不是凭空产生,是许
中国农业已经进入了被动参与国际竞争的时刻,并且粮食安全日趋成为中国农业重要课题,但是中国至今没有一个具有较强竞争力的农产品交易中心。而上海具有率先建设交易中心的有
西安曲江新区1996年开始建设,2002年7月进入大规模启动。近年来,新区按照西安市委、市政府“建经济强市,创西部最佳”的战略要求和“国际化、市场化、生态化、人文化”的发展
随着信息时代的到来,每个组织所拥有和需要的信息越来越多。建立计算机信息系统能以快捷的方式管理信息,提高工作效率,但由于恶意攻击、操作失误、意外事故或法律上的漏洞等
2007年4月18日,中国铁路实施了第六次大提速,跨入了铁路准高速时代。但由于既有线客货混跑等现实情况,我国将终结在既有线上再提速,转而关注高速客运专线的建设,因此,客运专