论文部分内容阅读
研究目的:当前,北京冬奥会备战工作进入关键时期,按照"全项目参赛"要求,结合"扩面、固点、精兵、冲刺"的工作步调,需要及时关注重点运动员及主要竞争对手的成绩变化。在开发北京冬奥会重点运动员成绩管理系统过程中,比赛成绩数据及时更新成为关键环节。每个赛季,各冰雪项目的世界杯、积分赛、世界锦标赛、世界青年锦标赛等各种比赛接连不断,单靠手工录入成绩无法满足时效要求,需要采取一些技术手段来解决此问题。适逢单位引进了商业化的网络信息采集系统,因此特别设计了异地采集、远程导入的方式,利用异地服务器上的网络信息采集系统实现定时自动采集,本地系统远程读取,批量导入,从而提高数据更新效率。研究方法:文献资料法:查阅有关网络信息采集方面的文献资料,以及各冰雪项目国际单项联合会官方网站相关页面。专家访谈法:与部分体育信息专家以及程序员进行访谈交流。软件编程法:运用C#及My SQL进行系统编程。研究结果:3.1网络信息采集技术我们接触最多的网络信息是以网页形式存在的,而网页上的信息基本上是非结构化的。网络信息采集技术是指利用计算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,将非结构化的信息从大量的网页中抽取出来保存到结构化的数据库中,从而为各种信息服务系统提供数据输入的整个过程。3.2比赛成绩网页格式冰雪项目国际比赛成绩在各单项联合会官方网站上实时发布,基本以三种格式显示:大多数项目的成绩页面是普通网页,其本身是一种有标记符的文本文件,主要是表格形式;冬季两项的成绩页面是JSON格式字符串,这是一种轻量级的数据交换格式,层次结构简洁清晰,易于机器解析;而雪橇和冰球的成绩页面则是PDF文件,这种文件无法直接读取解析其中内容,需要手工录入。因此,前两种格式适合机器自动采集和解析。3.3成绩采集配置在远程服务器上利用免费开源的My SQL软件建立成绩采集库,主要设计了赛事信息、比赛设项和比赛成绩三个表。赛事信息表主要有比赛编号、比赛英文名称、起止日期、举办地、大项、小项列表网址、采集标志、导入标志等字段;比赛设项表主要有设项编号、小项英文名称、比赛日期、成绩网址、采集标志、导入标志等字段;比赛成绩表主要有比赛编号、设项编号、名次、运动员姓名、国家/地区、成绩、积分、导入标志等字段。通过成熟的商业化网络信息采集系统,分别解析比赛列表网页、比赛小项列表网页、比赛成绩网页,设置各表的字段内容采集节点,生成赛事采集配置文件、设项采集配置文件、成绩采集配置文件。比赛列表网址统一放在一个文本文件中。建立批处理文件,按顺序输入各配置文件的运行命令。在服务器上设置计划任务,指定时间自动运行,依次调取比赛列表文件中的网址、赛事表和设项表中未采集的网址,根据配置解析网页,将各字段信息采集入库,同时将采集标志置为已采集,实现自动定时采集。3.4远程读取导入运行本地成绩管理系统的远程导入模块,远程读取并列表显示未导入的比赛信息及其比赛设项信息,从中选择需要导入的记录,手工输入比赛中文名称,下拉选择成绩系统对应的比赛小项,系统自动依次将赛事信息、设项信息和成绩记录,整理导入到成绩系统后台数据库中。其中,通过中英文对照表,系统可以智能地生成比赛中文名称,大部分小项也实现智能匹配选择,尽量减少手工输入,极大地提高了导入前的数据整理效率。3.5应用效果经过2018-2019赛季的试用,效果良好。每天凌晨,采集系统定时启动采集任务,将已结束的比赛成绩全部采集入库。上班后由专人操作远程导入功能,及时更新到成绩库中,极大地提高了比赛成绩入库效率。研究结论:采集系统采用成熟商业化软件,采集准确。成绩系统与之相对独立,直接读取远程数据库,保证本系统安全。利用网络信息采集技术每天定时自动采集最新比赛成绩,远程导入功能具有一定智能,操作简单,极大地节约了人工,提高了数据更新效率,满足了更新及时的工作需求。