基于Scrapy与规则的公共文化机构官网信息采集与内容抽取

来源 :图书情报研究 | 被引量 : 0次 | 上传用户:xiaosongshu2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的/意义]公共文化服务机构在服务运营的过程中产生大量数据,既有宏观的年度统计数据,也有微观的活动通知、参加人数等细节数据,如何快速全面地获取这些数据并进行有效集成,是公共文化大数据分析与挖掘的一个前提。[方法/过程]在分析公共文化服务数据分布与特点的基础上,研究信息采集与数据抽取技术。[结果/结论]通过网络爬虫技术获取官网上的数据,利用正则表达式从半结构化及非结构化的文本中抽取目标数据。
其他文献
面对智能化时代的巨大进步,人工智能安全逐渐成为备受关注的议题。以Web of Science数据库收录的核心论文为研究对象,运用科学计量学方法和可视化技术,对包括国家、机构在内
针对传统特征描述符计算复杂度高、配准精度低的问题,提出一种基于不同尺度点邻域特征信息差异的点云配准算法。在特征描述符方面,对关键点选取不同尺度的邻域空间,计算各尺度空间之间的特征值归一化向量差异和法向量夹角,建立点邻域尺度差异描述符,特征描述符计算简单且节省时间。在关键点选取方面,根据曲面形状指数设计了一种寻找关键点的方法,提取的点具有很好的代表性。在对应关系寻找方面,提出一种基于欧式距离的对应点
针对目前深海无人移动平台缺乏与其工作深度相匹配的复合同振式矢量水听器的问题,采用薄壁铝合金球壳作为矢量通道,压电陶瓷圆环作为声压通道,设计制作了一型大深度复合同振
针对高速机动目标拦截场景,研究末制导段捕获区存在条件及微分对策导引律问题。建立弹目相对运动模型并引入控制动力学模型,采用终端投影方法对相对运动模型进行降阶处理;基
中国电信广东分公司自主研发了一套光宽终端智能化利旧测试系统,实现终端智慧化运维及云端集约管理,以此替代沿用多年的人工测试手段和原有的自动化测试系统,实现对大批量各种型号的旧有光宽终端进行快速自动检测,以便将可再用的光宽终端资源重新投入到现网中。
由中国中西医结合学会主办,中国中西医结合学会疼痛学专业委员会承办、浙江省人民医院协办的“中国中西医结合学会疼痛学专业委员会第六届学术年会”定于2021年6月25-27日在
[目的/意义]深入探究美国康奈尔大学图书馆在馆藏发展方面各项工作策略,了解其先进的馆藏发展管理模式,为国内高校图书馆馆藏发展政策的制定提供借鉴。[方法/过程]综合运用网
从当前宽带业务发展现状和光Modem(俗称"光猫")终端质量出发,对运营商当前的光猫质量问题进行了分析,提出了将通信、终端、管理平台、工具软件、自动化测试思想相结合的终端测试解决方案,以提高运营商对终端质量的把控,降低用户投诉率,最后对实施效果进行了分析和展望。
[目的/意义]通过多维度的专利信息分析,追踪镇江市的创新发展态势,发现区域创新存在的不足,为镇江市制定因地制宜的精准创新发展策略提供支撑,推动区域经济高质量发展。[方法
[目的/意义]为深入认知科普视频在不同网络社交媒体平台的扩散模式差异。[方法/过程]选取一个有影响力的科普视频(“回形针PaperClip”新冠肺炎科普短视频)和三个代表性网络