论文部分内容阅读
摘 要:本文以金融领域为例,在搜索引擎日益发达的今天,如果更有效果的利用搜索引擎在网络中的应用,更准确及时地反映信息采用者所需要的金融信息,如果解决垂直搜索引擎在分析中的应用,并进行了详细的关键性技术分析。
关键词:垂直搜索;金融信息;爬虫技术;语义网络
中图分类号:TP391.3
随着互联网的高速发展,造就了信息的空前繁荣。面对浩如烟海的信息时,企业和投资者如何有效、准确地获取他们所需的信息变得越来越迫切,因为随时随处都蕴藏着稍纵即逝的商机。以Google、百度为代表的传统搜索模式在大幅提高用户获取信息的效率同时,也日益显露出自身的瓶颈:搜索引擎的商业发展趋势,比如付费广告等无效信息越来越多,产生“搜索噪音”,金融领域的专业人士呼吁专业性的搜索引擎,我们通常所说的垂直搜索引擎,便是利用在专业领域的索引方式,下面以金融领域为例说明构建金融垂直搜索引擎所采用的关键技术以及所用到的资源。
1 垂直搜索引擎概述
垂直搜索引擎是指在某一个专业领域(例如金融、能源等),通过收集到的网页信息量,再进行一次整合,最终为专业人士提供的有一定价值的信息。它可以帮助人们在更为缩小的范围获取更具有针对性的信息。如图一所示。
2 金融垂直搜索的关键技术
2.1 金融爬虫技术。金融爬虫因为和某一领域密切相关,所以需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的鏈接并将其放人等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于专业网络爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导,如图2所示为普通爬虫和专业爬虫的比较。
2.2 结构化信息抽取技术。结构化信息抽取技术是指将网页中的非结构化数据按照一定的需求抽取成结构化数据后再存入数据库。结构化信息抽取技术是垂直搜索引擎和通用搜索引擎最大的差别,也是评判垂直搜索引擎质量的重要技术指标。
2.3 自然语言智能语义处理技术。自然语言智能语义处理技术指的是使计算机具有理解人类语言和自我学习语言的能力,并根据相应的语言要求完成具体的操作。我们使用自然语言智能语义技术来提高相关度的判定准确率,相关度模块的准确程度直接决定金融爬虫的收割效果。在这一技术中,结合中文分词和语义理解可以很好地保证系统搜集金融信息的准确率,并且可以提高金融爬虫的效率。通过金融垂直领域词典来解析相应的用户自然语言输入和金融数据内容,根据解析的语义建立主题垂直索引,涉及实体识别、语义网络、语义索引模块、垂直查询等模块。(1)实体识别。我们以识别算法为基础,开发出金融命名的自动识别算法和工具。金融行业命名实体包括所有的金融专业术语、上市公司名称、金融机构名称、著名业内人士等等。(2)语义网络。如果不了解文本中的语义就无法判断它会带来的影响,例如如果不了解“市盈率”这个词所代表的意义就不能对描述市盈率变化的新闻进行处理,因此这里需要一个针对金融文本的小型语义网络,每个节点是一个与股市相关的概念,例如“利率”、“汇率”、“股价”等。该语义网络的建立需要融入专家知识,并具有可扩展性,可以根据需要增加。(3)语义索引模块。在基于关键词的索引体系上,建立基于语义的索引体系,以便进行语义相关的计算和查询。(4)垂直查询模块。在垂直查询模块中,根据请求者的日常搜索关键词从中找到规律性,利用识别方法建立自己专业词汇的数据库。
3 金融垂直搜索中所用到的资源
对于金融垂直搜索系统,融合了网络金融、汉语分词、语义处理和领域知识学习等多项专业技术,因此系统在构建中需要相应的资源作保证,目前实现金融垂直搜索系统所用到的资源有以下一些。
3.1 词汇:(1)上市公司的名称、简称和别称;(2)投资机构的名称、简称;(3)股市相关名称,比如“大盘”、“后市”、“大小非”、“散户”、“指数”等;对于这一类词汇的获取,可以从大量Web股市文本中通过自动词汇获取与手工相结合的方式,并手工标注其感情色彩。
3.2 表达模式库。我们感兴趣的信息是某个主体(评论家、记者、证券研究机构等)对某个客体(股票、行业板块、大盘、宏观经济形势、后市等)的态度(观望、看多、看空等)、描述(利好、利空等)和操作(建仓、清仓、半仓、抛售等)。因此需要构建一个针对股市新闻的文本表达模式(模版)库,帮助我们对金融垂直领新闻的信息进行结构化提取,以便支持后续的研究。
表达模式可以大致分为以下几类:(1)态度,例如“A对B~”(机构对后市看好)、“~有望~”(后市有望大幅拉升);(2)描述,例如“A强力~”(机构强力出击)、“A指出,B~”(分析人士指出)、“给A带来~”(给市场带来较大的压力);(3)逻辑,包括一些转折、递进、因果、双重否定等的逻辑表达方式。
对于那些简单的表达,不需要统计其表达模式,可以继续使用词频方式;对于稍微复杂的表达方式,需要开发自动化的工具从股市文本的语料中获取,并加以标注。
4 结束语
金融垂直搜索引擎的应用能够很好的满足金融主体的需求。对于多样化数据的专业化细分成为垂直搜索的最大技术特点,减少垃圾信息,提高搜索效率,在某些方面甚至可以提供实时的数据,最大限度地整合了现在的网页数据,为用户提供了完整的金融信息检索体验。
参考文献:
[1]梁循,杨健,陈华.互联网金融信息系统的设计与实现[M].北京:北京大学出版社,2006.
[2]梁循.网络金融信息挖掘导论[M].北京:北京大学出版社,2008.
[3]吴柏林,宋泽锋.一种基于本体的垂直搜索引擎系统模型[J].计算机工程与科学,2008(10).
[4]陈洪猛.基于垂直搜索技术的搜索引擎解决方案[J].电脑应用技术,2008(72).
[5]杜建亮.金融信息垂直搜索引擎的技术探讨[J].科学之友,2009(06).
[6]孔样春,李义杰,郑凯明.垂直搜索引擎应用研究[J].计算机系统应用,2009(07).
作者单位:吉林财经大学,长春 130117
关键词:垂直搜索;金融信息;爬虫技术;语义网络
中图分类号:TP391.3
随着互联网的高速发展,造就了信息的空前繁荣。面对浩如烟海的信息时,企业和投资者如何有效、准确地获取他们所需的信息变得越来越迫切,因为随时随处都蕴藏着稍纵即逝的商机。以Google、百度为代表的传统搜索模式在大幅提高用户获取信息的效率同时,也日益显露出自身的瓶颈:搜索引擎的商业发展趋势,比如付费广告等无效信息越来越多,产生“搜索噪音”,金融领域的专业人士呼吁专业性的搜索引擎,我们通常所说的垂直搜索引擎,便是利用在专业领域的索引方式,下面以金融领域为例说明构建金融垂直搜索引擎所采用的关键技术以及所用到的资源。
1 垂直搜索引擎概述
垂直搜索引擎是指在某一个专业领域(例如金融、能源等),通过收集到的网页信息量,再进行一次整合,最终为专业人士提供的有一定价值的信息。它可以帮助人们在更为缩小的范围获取更具有针对性的信息。如图一所示。
2 金融垂直搜索的关键技术
2.1 金融爬虫技术。金融爬虫因为和某一领域密切相关,所以需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的鏈接并将其放人等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于专业网络爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导,如图2所示为普通爬虫和专业爬虫的比较。
2.2 结构化信息抽取技术。结构化信息抽取技术是指将网页中的非结构化数据按照一定的需求抽取成结构化数据后再存入数据库。结构化信息抽取技术是垂直搜索引擎和通用搜索引擎最大的差别,也是评判垂直搜索引擎质量的重要技术指标。
2.3 自然语言智能语义处理技术。自然语言智能语义处理技术指的是使计算机具有理解人类语言和自我学习语言的能力,并根据相应的语言要求完成具体的操作。我们使用自然语言智能语义技术来提高相关度的判定准确率,相关度模块的准确程度直接决定金融爬虫的收割效果。在这一技术中,结合中文分词和语义理解可以很好地保证系统搜集金融信息的准确率,并且可以提高金融爬虫的效率。通过金融垂直领域词典来解析相应的用户自然语言输入和金融数据内容,根据解析的语义建立主题垂直索引,涉及实体识别、语义网络、语义索引模块、垂直查询等模块。(1)实体识别。我们以识别算法为基础,开发出金融命名的自动识别算法和工具。金融行业命名实体包括所有的金融专业术语、上市公司名称、金融机构名称、著名业内人士等等。(2)语义网络。如果不了解文本中的语义就无法判断它会带来的影响,例如如果不了解“市盈率”这个词所代表的意义就不能对描述市盈率变化的新闻进行处理,因此这里需要一个针对金融文本的小型语义网络,每个节点是一个与股市相关的概念,例如“利率”、“汇率”、“股价”等。该语义网络的建立需要融入专家知识,并具有可扩展性,可以根据需要增加。(3)语义索引模块。在基于关键词的索引体系上,建立基于语义的索引体系,以便进行语义相关的计算和查询。(4)垂直查询模块。在垂直查询模块中,根据请求者的日常搜索关键词从中找到规律性,利用识别方法建立自己专业词汇的数据库。
3 金融垂直搜索中所用到的资源
对于金融垂直搜索系统,融合了网络金融、汉语分词、语义处理和领域知识学习等多项专业技术,因此系统在构建中需要相应的资源作保证,目前实现金融垂直搜索系统所用到的资源有以下一些。
3.1 词汇:(1)上市公司的名称、简称和别称;(2)投资机构的名称、简称;(3)股市相关名称,比如“大盘”、“后市”、“大小非”、“散户”、“指数”等;对于这一类词汇的获取,可以从大量Web股市文本中通过自动词汇获取与手工相结合的方式,并手工标注其感情色彩。
3.2 表达模式库。我们感兴趣的信息是某个主体(评论家、记者、证券研究机构等)对某个客体(股票、行业板块、大盘、宏观经济形势、后市等)的态度(观望、看多、看空等)、描述(利好、利空等)和操作(建仓、清仓、半仓、抛售等)。因此需要构建一个针对股市新闻的文本表达模式(模版)库,帮助我们对金融垂直领新闻的信息进行结构化提取,以便支持后续的研究。
表达模式可以大致分为以下几类:(1)态度,例如“A对B~”(机构对后市看好)、“~有望~”(后市有望大幅拉升);(2)描述,例如“A强力~”(机构强力出击)、“A指出,B~”(分析人士指出)、“给A带来~”(给市场带来较大的压力);(3)逻辑,包括一些转折、递进、因果、双重否定等的逻辑表达方式。
对于那些简单的表达,不需要统计其表达模式,可以继续使用词频方式;对于稍微复杂的表达方式,需要开发自动化的工具从股市文本的语料中获取,并加以标注。
4 结束语
金融垂直搜索引擎的应用能够很好的满足金融主体的需求。对于多样化数据的专业化细分成为垂直搜索的最大技术特点,减少垃圾信息,提高搜索效率,在某些方面甚至可以提供实时的数据,最大限度地整合了现在的网页数据,为用户提供了完整的金融信息检索体验。
参考文献:
[1]梁循,杨健,陈华.互联网金融信息系统的设计与实现[M].北京:北京大学出版社,2006.
[2]梁循.网络金融信息挖掘导论[M].北京:北京大学出版社,2008.
[3]吴柏林,宋泽锋.一种基于本体的垂直搜索引擎系统模型[J].计算机工程与科学,2008(10).
[4]陈洪猛.基于垂直搜索技术的搜索引擎解决方案[J].电脑应用技术,2008(72).
[5]杜建亮.金融信息垂直搜索引擎的技术探讨[J].科学之友,2009(06).
[6]孔样春,李义杰,郑凯明.垂直搜索引擎应用研究[J].计算机系统应用,2009(07).
作者单位:吉林财经大学,长春 130117