基于boosting的文本分类在股市领域信息抽取系统中的应用

来源 :中国中文信息学会二十周年学术会议 | 被引量 : 0次 | 上传用户:lfs888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
首先介绍了特定领域多语种信息抽取系统的基本模型,并针对该系统的预处理模块的需要,提出了一种基于机器学习方法的文本分类系统.该系统通过boosting算法,对一个易实现的弱分类器进行增强,最后获得一个强分类器,从而避免了直接构造强分类器的困难.实验证明,相对于直接构造强分类器,该算法具有简单灵活,易于实现的优点,其构造出来的分类器达到了信息抽取系统的要求.
其他文献
本文提出一个基于字分析单元的辅助阅读和学习系统.该系统是为汉语学习者提供即时的辅助翻译和学习功能.在汉语网页中,该系统首先对所有的文本进行分词处理,并进行新词发现,然后对于常用词通过汉英(或汉日)词典提供即时的译文显示,用户也可通过词用法检索模块在网络上检索到该词的具体用法实例.对于通用词典未收录的新词(例如:专业术语、专有名词、词组和固定短语),系统提出基于语义预测和反馈学习的方法在Web上挖掘
本文选用动态聚类算法对汉语的词进行同义词聚类分析.在该任务中,为了改善初始点给动态聚类算法全局最优性造成的严重影响,本文提出了一种根据词在文本类别中的分布选择初始点的方法.此方法在k-均值和k-中心点这两种典型的动态聚类算法中有效地提高了词聚类的系统性能.
句法分析一直是自然语言处理领域的一个重点和难点问题,准确的动词与动词搭配关系识别可为建立完全的句法分析奠定一定的基础.本文提出了一种基于最大熵模型的汉语动词与动词搭配识别方法,选取目标动词与搭配词的上下文词性信息及其关联程度的统计信息构造候选复合特征模板以及类别信息,利用粗糙集理论中的约简技术,删除复合特征模板中冗余的原子模板,从而获得训练最大熵模型所需的极小模板.四组实验结果表明(1)以同时包含
根据中国互联网络信息中心(CNNIC)的统计,到2005年4月底,我国上网用户已经突破1亿,达到1.002亿人,网民数仅次于美国居世界第二位.今天,每13个中国人就有一个与它"亲密接触",互联网正在成为各界人士获取信息的主要通道.社科院2005年互联网报告指出,我国网民平均每天上网的时间是2.73小时,单纯浏览网络论坛而不发言网民只占38.6%.这个比例说明,网民的上网行为不仅仅是寻找信息,还包含
信息处理用现代汉语语义分类体系和信息处理用现代汉语语义分类词典是现代汉语语义系统的一个重要组成部分.本文描述了信息处理用现代汉语语义分类词典管理系统的设计和实现,在语义分类词典管理系统支撑下对60000个汉语词语进行了机助标注,形成了一个信息处理用现代汉语语义分类词典并由计算机统一管理.信息处理用现代汉语语义分类体系和现代汉语语义分类词典作为强大的语义资源之一,在自然语言处理和语义学研究中将起到越
本文以北京大学计算语言学研究所开发的《现代汉语语法信息词典》为基础,对现代汉语各类词的优势语法功能进行了统计研究,从量的方面说明了现代汉语词语词类优势语法功能.
在多项国家科技计划的支持下,过去十年汉语语音信息处理技术在通用基础领域已基本达到国际先进水平,尤以体现语音综合研究实力的大词汇量、连续语音、非特定人(LVCSR)的技术突破为标志.然而,面向正在到来的网络计算时代,研究开发具有重大应用背景的语音专用技术、解决语音识别的鲁棒性问题还有很多工作要做.面向网络计算的语音应用,一方面要求语音技术特别是语音识别技术再一次从现代信号处理中汲取营养,另一方面还需
2000年我们和德国Konstanz工业技术大学国际术语和应用语言学研究中心合作开发了全信息标注语料库.该语料库包含被标注的汉语词语8000个.这是迄今为止我们见到的首次标注全信息的语料库.本文对该全信息语料库的开发与应用进行介绍.全文分为四个部分:一、全信息及全信息的内容;二、全信息的标注与语料校对,三、问题研究,四、全信息标注语料库的应用.
本文分析了我国汉字编码现状,提出了“以形出发、以形为主、形音结合、输入与书写结合”的“形音码”编码原则,主张中文信息处理应有利于继承和弘扬汉字的民族文化传统,提高全民族识别汉字的能力,促进汉字的学、写、认教学;文中论述了促进中文信息处理的规范化、科学化等问题,并重点阐明了对汉字实施“书写拆分”的重要性和必要性;最后建议政府有关职能部门应尽早规范汉字技术市场.
中国政府于2000年3月17日日颁布的GB18030-2000编码标准采用了单字节、二字节和四字节符混合的方式进行汉字编码,并且要求操作系统必须在2001年9月分之前遵守这个标准.本文介绍了基于GB18030编码标准字符集的中文Linux操作系统的设计和实现,提出基于GB18030编码标准字符集的中文Linux操作系统的实现框架,把实现分为核心支持系统、基本支持系统和完全支持系统,同时实现了核心支