论文部分内容阅读
金融机构的风险评估部门通常需要利用互联网搜索引擎,在网络上搜索自己所关注客户的负面新闻报道,以便尽早发现风险,为风险评估部门做出决策提供有益的辅助信息。手工方法完成这项工作效率低、工作量大。负面新闻属于情感文本,研究针对互联网情感文本的自动检索及识别,具有重要意义和实用价值。本文在深入研究当今情感倾向性识别技术的基础上,提出了两个算法:1)基于倾向词搭配的情感倾向性识别(Emotional Tendentiousness Recognition based on Tendency Word Collocation, ETRTWC)算法;2)基于语境框架的负面新闻抽取(Negative News Extraction based on Context Framework, NNECF)算法。使用ETRTWC算法判断客户新闻的情感倾向性,将新闻分成正面、中立和负面三类,并得出客户综合打分结果;使用NNECF算法从新闻集中抽取负面新闻,并与ETRTWC算法识别出的负面情感类新闻取交集,共同抽取负面新闻集。本文的主要工作和贡献如下:1.提出两种情感及负面新闻识别算法,即ETRTWC算法和NNECF算法。ETRTWC算法从情感倾向词着手,提出给单个倾向词分配四个属性,然后通过依存句法结合打分规则得出整个句子的情感值,最后得出整篇新闻的情感值。NNECF算法针对每个单一语境负面新闻集合来定义语境框架,通过构建语境框架库和框架词汇层次库,结合相应的中文自然语言处理技术和对数线性模型理论,判断待识别的句子是否属于某一框架,进而判定其是否是负面新闻。2.设计并实现了一套客户负面新闻自动检索系统(Customer Negative News Retrieval System Automatically,CNNRSA)。该系统采用B/S架构,以本文提出的负面新闻识别算法为核心,并利用复旦大学自然语言处理系统(FNLP)进行中文句子分词处理、词性标注和句子依存关系分析。CNNRSA具有互联网新闻抓取、新闻情感初步分类、负面新闻抽取,以及新闻入库、查询和检索等主要功能模块。3.对ETRTW C算法和NNECF算法进行测试,验证了算法的有效性;以“诺基亚”为客户关键词对系统进行了测试,验证了系统的可用性和有效性。CNNRSA主要模块开发现已基本完成,系统可正常运行。