论文部分内容阅读
针对图像格式的专利文献难以进行深层分析和利用的问题,有效引入光学字符识别技术和正则表达式,根据专利文献的结构特点,给出了一组正则表达式,实现了专利信息的提取,并开发了相应的软件系统,从而获得专利的结构化信息,形成统一格式的专利数据库,为后续对专利文献进行高效率地深入分析和知识挖掘提供了基础。