基于自然语言Python的长文本比较研究

来源 :图书与情报 | 被引量 : 0次 | 上传用户：mikoo999

【摘要】

：

【作者】

：

姜安印　冯龙飞

【出处】

：

图书与情报

【发表日期】

：

2018年2期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：文本比较作为人工智能的重要应用，在语言分析、比较研究乃至学术诚信等方面有着广泛应用。文章以中国古代具有重要经济学价值的《管子》和西方古典主义经济学重要著作《国富论》作为比较范本，借助Python语言及相关模块，以较高的效率和精度实现了长文本比较。研究发现，通过人工智能自然语言处理语言及技术，能实现对经济学长文本比较研究，这一方法在未来还可以探索应用到其它社会科学领域。
　　关键词：人工智能；自然语言处理；文本比较；Python；国富论；管子
　　中图分类号：TP18；F01 文献标识码：A DOI：10.11968/tsyqb.1003-6938.2018026
　　Research of Co-term Analysis of Long Text Comparison based on Python
　　——Case Study of the Economic Thoughts in Wealth of the Nations and Guanzi
　　Abstract Text comparison based on information technology becomes a very important tool in nowadays academic research as linguistic analysis， academic thoughts and academic integrity examination. This paper focused on the long text comparison with the approach of Co-term Analysis on Python and used the economic thoughts comparison between Wealth of the Nations and Guan Zi to explore the way to do future thoughts comparison in economic and other social science with better efficiency and accuracy.
　　Key words artificial intelligence； Natural Language Process（NLP）； text comparison； Python； Wealth of the Nations； Guan Zi
　　文本比较是指通过对相似范畴和内容的文章或书籍进行对比，研究其文字、观点和思想的异同，从而实现言语特征分析、学术思想比较乃至学术诚信检验等多种目的。随着信息技术和互联网技术的发展，基于计算机的文本比较特别是长文本比较在现代社会科学中有了越来越广泛的应用。在实际应用中，通过借助Python等编程语言，运用jieba分词模块进行文本比较，可以有效的提高信息筛选和对比的效率和精度，相比其他方法具有较大优势。在经济学中，以文本比较为重要手段的经济思想比较是制度经济学和经济史研究的常用方法，特别是东西经济学思想比较在研究制度变迁、社会变化、政策效果等方面具有重要意义。本文试图借助Python语言对《管子》和《国富论》两书进行比较，探讨两书之间的思想异同，同时对如何利用计算机技术进行未来的经济学和其他社会科学思想的比较研究进行了探索。
　　1 文献综述
　　1.1 文本比较方法研究
　　传统上，文本比较主要采用通过对不同文本的阅读和统计分析，对表述、内容、主旨进行手动整理和对比，针对文章的某一角度或某一内容进行比较来得出结论。由于文本比较涉及大量信息，而传统手工比较效率太低，往往需要利用计算机高速计算、海量处理、自动迭代的特点进行数据分析。作为抽取分析文本的有效工具，文本分析工具应运而生[1]。IBM计算机科学家Hans Peter Luhn[2]研究了词频统计在文本比较中的应用，在20世纪中叶创造了 KWIC （Key Words In Context，文本关键词）这一分析方法和工具，对计算机技术用于文本比较起到了开创性作用。经过几十年发展，计算机文本比较形成了两种模式，一方面是KH Coder、 WordStat和WordSmith Tools[3]等软件的分析方法，特点是使用门槛低便于操作，但也存在难以满足定制化需求；另一方面是基于C、C++、Python、Java、PHP等编程工具的分析方法，该方法需要一定的编程基础，但是具有较高的灵活性，可以满足各种定制化需求。如本文选取的基于Python的jieba模块[4]，以Trie树结构[5]为原理，用实现高效的词图扫描将所有可能成词情况构成有向无环图（DAG），并以动态规划查找最大概率路径，找出基于词频的最大切分组合；对于未登录词则采用HMM模型用Viterbi算法[6]进行切分。通过这一方法进行文本分析，效率更高，分词结果也更为准确。
　　1.2 文本比较实例研究
　　通过对近十年文本比较研究的实例梳理总结，发现文本比较主要应用于同一著作不同版本的研究和相似内容著作间的研究两类。
　　（1）对同一著作的不同译本或版本的比较主要集中在文学著作和历史文献。①文学方面，有学者对不同版本的《琵琶记》[7]《庐山恋》[8]，不同英译本的《红楼梦》[9]《乡愁》[10]进行了比较，还有学者通過赫胥黎《进化论与伦理学》不同译著的对比，发现严复译《天演论》与其他汉译版本存在着明显的差异[11]；②史学方面，有学者对比满文、拉丁文、俄文三种版本的《尼布楚条约》，两两印证，排除了个别版本中不一致的内容和表述，确定了一些存在争议的条约细节[12]。
　　（2）对相似内容著作间的文本比较主要集中在跨语种著作和新旧著作。跨语种著作比较过去主要集中在经典著作，如有学者通过对比《资本论》与《国富论》，对资本争论进行溯源[13]，有学者通过比较史诗《满都莫日根》《英雄格帕欠》，探讨两者叙事结构的异同。近年来研究范围不断扩展到各类文本，如有研究者通过比较研究人教版高中物理教科书和英国A-Level版教科书，探讨教育理念的异同[14]，有学者侧重技术角度，对法学研究中美宪法进行了文本比较，研究其意识形态差别[15]。新旧著作比较研究主要集中在历史、政策、法律等方面，探讨其中基于不同历史背景下的时代视角或制度变迁带来的思想变化，如有学者侧重写作年代和背景，比较研究了蒋廷黻版《中国近代史》和李侃版《中国近代史》[16]，还有研究者对党的十七大报告与十六大报告相关内容进行文本比较，研究了国有企业的发展路径与时代走向[17]。　　1.3 《管子》和《国富论》的文本比较研究
　　《管子》作为管仲及其学派的思想和著作汇编，三分之二篇目涉及经济问题[18]，是中国古代具有重要经济学价值的著作，与《国富论》等西方经济学经典的比较也成为经济思想史的热门课题。早在近代洋务运动，仁人志士从西学中探寻救国之道时就眼光聚焦到《管子》，梁启超提出《管子》中许多思想与《国富论》一致[19]。国外研究方面，Lewis[20]认为，《管子》与重农学派的观点惊人相似，与《国富论》具有相同思想基础。美国《经济思想史》[21]将《管子》称为中国的《国富论》，认为其体现了供需理论、数量理论、反周期财政政策和市场理论等思想。但这些结论的取得，包括当前经济学研究中多数文本比较研究多凭借研究者对书本的深入阅读了解和对其他学者成果的引用，很少借助现代的文本分析技术，费时费力，也难免有不全面的地方[22]。
　　2 研究思路和设计
　　本研究采取了当前信息化文本比较的常用思路，即通过对提取的高频词进行比较分析来实现对应文本的比较，将语言问题转换为数学问题进行解决，从而实现自然语言比较的批量化与自动化处理。在具体操作时考虑到以章节为单位文本过长，而且每一章节思想较为混杂；以句为单位文本又较短，且许多句子无法完整表示作者思想，因而确定以段落为单位，兼顾思想的完整性和文本的简洁性（具体研究设计见图1）。
　　2.1 著作版本的确定
　　两书分别采用古汉语和近代英语且各自版本较多，比较前需选定语言和版本。本研究对市面各种版本的筛选确定了中华书局李山译《管子》[23]和商务印书馆郭大力、王亚南译《国民财富的性质和原因的研究》[24]。主要基于以下考虑：一方面，按照资源库和语言特征，英语是进行比较的理想语言，但市面上《管子》的英译本较少，全译的仅有Rickett的译本[25]，虽然专业精准，但晦涩难懂，通常限于国外汉学家研究[26]；另一方面，现代汉语虽然与编程语言结合度不如英语，但考虑到两书的现代汉语译本都比较丰富，仅在豆瓣、淘宝等平台上搜索到的《管子》译注就有19种，《国富论》更是有25种，且普遍内容质量较高，可选性较强。
　　2.2 研究工具的选择
　　由于本文选取的研究对象比较庞大，两篇著作的总字数约80万字，研究过程中涉及对两书2996个自然段的分析比较，同时分析过程设计大量的循环、迭代、替换、条件判断等运算。
　　选取Python作为研究工具（版本为Python2.7.13）。Python作为面向对象、解释型、动态数据类型的开源程序设计语言[27]，除了自带的标准库，还积累了大批由程序员和工程师不断创造添加的第三方库。这一特点使得基于Python编程时可直接调用标准库和第三方库中的已有内容来大大减少重复工作。在文本分析方面，Python也具有较为丰富和成熟的各类库文件，在文本比较的相应步骤可调用库文件来提高效率，实现大型长文本的快速比较。
　　3 研究过程
　　3.1 文本预处理和分词
　　将《管子》和《国富论》导入txt文本文件，将文本编码转换为Python语言支持的utf-8中文格式。
　　配置好Python环境后，将处理后的文本导入Python，调用jieba-0.39版本模块将自然段中的意群进行词汇切分[28]。
　　3.2 词频统计
　　词频（Term Frequency，TF）统计作为一种经典的文本分析方法，是指抽样一定数量和长度的语料，计算其中不同词语的出现次数，进行频率分析，从而确定文本的高频词，便于对重点内容和主旨要义进行更加深入地研究[29]。
　　本研究首先结合网上现有的“哈工大停用词词库”“四川大学机器学习智能实验室停用词库”“百度停用词表”等资源，对jieba模块自带停用词表进行整理，用所得停词表去除标题序号、语气虚词、关联词等无分析意义词匯，再参照《经济学词典》[30]中的词条对剩余词汇进行整理，然后对同、近义词汇进行合并，结合齐普夫定律（Zipf's Law）中的词频分布规律，通过标引规则对词汇进行控制分析，最终确定高频词并编号（见表1）。
　　3.3 生成高频词矩阵
　　确定高频词表后，通过构建高频词矩阵将抽象的语义分析转化为可计算的数学问题。首先将高频词以自然段为单位分组，将段落简化为相应的高频词数组，从而将全文转化为矩阵；然后进行去重，并对重复高频词进行累积求和；最后将所有高频词全部替换为相应序号，生成高频词矩阵（见图2）。
　　3.4 相似度比较
　　高频词矩阵生成后，进一步对矩阵进行相似度比较。
　　方法上以Jaccard指数[31]来衡量矩阵相似性，并得出相应的相似度。Jaccard指数取值范围为[0-1]，值越大相似度越高。
　　Jac（i，j）=■
　　其中A■表示《国富论》中第i段高频词集合，Bj表示《管子》中第j段高频词集合，Jac（i，j）表示《国富论》中第i段与《管子》中第j段基于高频词的相似度，如Jac（3，2）即表示《国富论》中第3段与《管子》中第2段的相似度（见表2）。
　　在Python下，调用intersection与union函数进行运算，遍历比较两矩阵各行，得到任意两行的相似度，所得相似度即为两书对应自然段的比较。然后按照皮尔逊相关分类剔除相似度小于0.4及高频词小于4的弱相关项，初步选出具有一定相关度的对比组276项（筛选出的段落比较见表3）。
　　3.5 研究结果和数据处理
　　通过序号回查，找到各项在两部著作中对应的段落，进行进一步比较分析。
　　逐项阅读分析这276项对应段落的内容，手动剔除出与经济学关联较弱项和误识别项，对剩余的各项按照社会分工、价格理论、税收和国营、国家资源、奢侈、国际贸易、统治手段进行分类，然后合并同类中内容相似的内容，并对相似的主旨进行提炼，最终得到比较结果（示例见表4）。　　4 结论
　　（1）初步实现了长文本比较的智能化。利用Python语言及相关模块，进行相似度比较，按照词频的大小提取出高频词，归纳相似思想，成功对应到了两本著作的相似思想和观点，对长文本比较的方法进行了创新和拓展，进一步提高了长文本比较的效度和精度。未来应用该方法，可实现对书籍和书籍间、文章和书籍间等各类长文本比较的自动化与批量化处理，在繁杂的自然语言和冗长的篇幅中高效提取、筛选、比较信息。
　　（2）近义词识别进一步提高了有效比对的范围。由于Python第三方库中强大的近义词汇系统，本方法可以在很大程度上利用人工智能识别出文字不同但文意雷同或相近的内容，提升了词频统计的效度，降低了系统误判的概率，这一点较单纯比较文字的现有学术查重系统是一个进步，值得在这一方向上进一步探索和应用。
　　（3）应用于案例文本后得出了比前人更加全面的结论。即早在春秋时期，《管子》就已熟练运用《国富论》倡导的一套完整的调控思想（轻重之术），初步建立起了有体系的经济学理论和框架，成书背景方面，战国和18世纪欧洲有着列国纷争的相似之处，英国和齐国作为当时强国，有着坐拥海洋之利、善于商贸的相似之处；写作视角方面，《管子》作为管理者和决策者来制定和检验经济政策，《国富论》则以历史经验检视和理论分析为主，视角上更像是一个观察者；经济政策方面，《管子》比《国富论》更为积极，主张国家掌控货币金融和自然资源，利用杠杆、贸易等手段进行调控，获得财富和稳定。
　　（4）文本比较在智能化方面还有提升空间。作为一个探索性研究，本研究尚有一些需要改进的不足之处，主要是自动文本比较的精准度还有待进一步提高，需要后期人工剔除的选项较多，无法完全做到利用计算机的全过程智能比较。分析原因，一方面是受制于自然语言浑浊模糊的非逻辑性特点，比较中难以做到完全的精准识别定义；另一方面，由于Python第三方库中的中文字典尚有进一步充实改进的空间，客观上也制约了筛选比较的精准度。
　　参考文献：
　　[1] 程慧荣，黄国彬，郑琳，等.非结构化文本分析软件比较研究[J].图书与情报，2015（4）：110-117.
　　[2] H P Luhn.A Statistical Approach to Mechanized Encoding and Searching of Literary Information[J]. IBM Journal of Research and Development，1957（4）：19.
　　[3] 毛毳，邱天河.WordSmith在翻译批评中的应用——借助WordSmith工具分析《匆匆》译文的风格[J].科技信息，2007（34）：14-16.
　　[4] Sun Junyi.结巴中文分词项目[EB/OL].[2017-08-28].https：//github.com/fxsjy/jieba.
　　[5] 杨文川，刘健，于淼.基于双数组Trie树的中文分词词典算法优化研究[J].计算机工程与科学，2013（9）：127-131.
　　[6] 李荣，郑家恒.一种改进Viterbi算法的应用研究[J].计算机工程与设计，2007（3）：530-533.
　　[7] 黄仕忠.元明戏曲观念之变迁——以《琵琶记》的评论与版本比较为线索[J].艺术百家，1996（4）：14-24.
　　[8] 刘传霞.爱情的结构与重建——两个“庐山恋”文本的比较[J].山东师大学报（社会科学版），1999（2）：87-89.
　　[9] 陈曜.《红楼梦》及英译本在中国的研究现状[J].理论月刊，2007（11）：128-130.
　　[10] 王进.《乡愁》英译文本比较研究[J].中国校外教育，2015（3）：382.
　　[11] 耿传明.严复的《天演论》与赫胥黎的《进化论与伦理学》[J].文艺理论研究，1997（6）：69-74.
　　[12] （日）野见山温.《尼布楚条约》不同文本的比较研究[J].黑河学刊，1996（6）：101-104.
　　[13] 张谡.资本争论的理论溯源：基于《资本论》与《国富论》的文本比较分析[J].学术论坛，2016（10）：18-21.
　　[14] 温博.赫哲族史诗《满都莫日根》与鄂伦春族史诗《英雄雄格帕欠》的文本比比较研究[D].福州：福建师范大学，2013.
　　[15] 乔耀章，冯志峰.法学研究中美宪法文本比较之技术路径[J].山东高等教育，2008（2）：57-67.
　　[16] 范美琪.两种视野下的中国近代史——蒋廷黻的《中国近代史》和李侃等人的《中国近代史》之比较[J].潍坊学院学报，2017（2）：75-77.
　　[17] 谢保平.国有企业的发展路径与时代走向[J].企业家天地，2008（1）：86-87.
　　[18] 李霞.本世紀以来《管子》研究简介[J].哲学动态，1994（3）：40-43.
　　[19] 梁启超.饮冰室合集[M].北京：中华书局，1989.
　　[20] Hamilton C H.Economic Dialogues in Ancient China.Selections from the Kuan-tzu，by Lewis Maverick[J].Artibus Asiae，1954，
　　18（1）：84.
　　[21] Harry Landreth，David C.Colander.History of Economic Thought[M].South-Western College Pub，2001.
　　[22] 钟祥财.中国近代研究经济思想史的方法论特点：以梁启超为例[J].财经研究，2010，36（8）：37-46.
　　[23] 管仲.李山译注.管子[M].北京：中华书局，2009.
　　[24] （英）亚当·斯密.郭大力，王亚南译.国民财富的性质和原因的研究[M].北京：商务印书馆，2015.
　　[25] 张燕，李克.《管子》英译本描述性研究[J].山东理工大学学报（社会科学版），2017（1）：60-65.
　　[26] Dobson W A C.Book Review：Science and Civilisation in China[J].The Journal of Asian Studies，1957，12（4）：317-319.
　　[27] 狄博，王晓丹.基于Python语言的面向对象程序设计课程教学[J].计算机工程与科学，2014（S1）：122-124.
　　[28] 彭琦，俞春强.浅析中文分词方法[J].信息通信，2015（3）：92-95.
　　[29] 尹斌庸，方世增.词频统计的新概念和新方法[J].语言文字应用，1994（2）：69-75.
　　[30] （法）热叙阿.李玉平，等译，经济学词典[M].北京：社会科学文献出版社，2013.
　　[31] Tan P N，Steinbach M，Kumar V.Cluster analysis：basic concepts and algorithms[J].Introduction to data mining，2006（8）：487-568.
　　作者简介：姜安印，男，兰州大学经济学院教授；冯龙飞，男，兰州大学经济学院博士研究生。

其他文献

大数据驱动的智慧信息服务研究

编者按：党的十九大报告中提出要推动互联网、大数据、人工智能和实体经济深度融合，加快建设创新型国家，加强应用基础研究，为建设科技强国、质量强国、网络强国、交通强国、数字中国、智慧社会提供有力支撑。在智慧社会发展的浪潮中，信息服务必然也要从数字化向智慧化转型。智慧信息服务利用大数据智能收集、存储与分析的相关技术，通过机器智能与人工智能的结合，向用户提供智能信息服务，这是大数据时代背景下信息服务的必然要

期刊

公共图书馆馆外延伸服务的策略与实践

摘要：2020年1月15日，美国儿童图书馆服务协会发布《参与、培育、提供、评估--儿童和家庭延伸服务模式白皮书》，该白皮书基于对公共图书馆延伸服务现状的调查，提出了参与、培育、提供、评估的公共图书馆儿童和家庭延伸服务发展模式。文章解读了该白皮书的主要内容，分析了美国公共图书馆延伸服务的特点，并对我国公共图书馆延伸服务提出了更新和重塑服务理念、扩大与社会力量的合作和参与、重视和加强服务评估的发展建

期刊

深化人工智能与图书馆更新的若干问题

深化人工智能与图书馆更新的若干问题　　——再论人工智能与图书馆更新　　王世伟　　（1.上海社会科学院信息研究所上海 200235）　　摘要：文章从三个方面论述如何进一步深化人工智能与图书馆更新的问题，第一是信息文化环境持续向好，包括数字蝶变的重大机遇、城乡图书馆规模与密度、持续推出的人工智能政策举措、导入人工智能的技术自觉等;第二是发展人工智能服务的升级版，包括发展人工智能服务升级版是题中應有

期刊

图书馆开放教育资源建设与服务策略

摘要：2019年3月4日，2019开放教育周（Open Education Week）活动期间，国际图联发布简报《开放教育资源与图书馆》（Open Educational Resources and Libraries），鼓励全球图书馆在支持开放教育资源（OER）建设与发展中发挥关键作用。文章通过研究和解读《开放教育资源与图书馆》简报，并依据简报提出的图书馆支持OER发展的建议分析了国外图书馆

期刊

2014-2018年国外iSchools院校科研立项情况调查与分析

2014-2018年国外iSchools院校毕业生就业情况调查与分析*　　摘要：文章利用网络调查法和内容分析法，对国外50所iSchools院校2014-2018年毕业生的就业领域、就业单位、就业岗位、就业率等数据进行分析。研究发现：iSchools院校毕业生的就业领域广泛且不断扩展，与在校所学专业密切相关;就业单位集中在公共事业和私人企业单位，不同的岗位对工作内容、职责要求相差较大;美国iSc

期刊

农村居民公共文化服务弱参与的行动逻辑

摘要：乡村文化振兴需要激活农村居民的主体性，关注并化解其公共文化服务弱参与问题。运用经典扎根理论研究方法，选取H县农村公共文化服务的三个典型案例，研究了农村居民弱参与基层公共文化服务的形式逻辑。研究发现，农村居民弱参与形式逻辑依据不同场域而有所差异。其中，家庭场域弱参与遵从伦理惯习逻辑，以家庭责任为参与动力源，处于假性参与层级;社区场域弱参与遵从品味惯习逻辑，以文化兴趣为参与动力源，处于实质性参

期刊

信息贫困微观机理的深入洞察

摘要：“信息社会中的新型贫困问题与管理学的新走向”学术研讨会于2019年11月在兰州召开，会议以“信息致贫的微观机理与信息减贫的宏观制度”为研讨主题，来自国内20余家高校和科研机构的120余位科研人员及师生围绕电信普遍服务、信息贫困问题研究的理论基础、信息贫困者的共性和个性特征、导致信息贫困的主观因素、社会结构因素与信息贫困的关系等议题展开了深入讨论。　　关键词：个人信息世界;信息贫困;微观机理

期刊

情报体系在应急事件中的作用与价值

摘要：文章阐述了应急响应各阶段情报流的作用，结合新冠肺炎疫情分析了三个应急阶段情报流对疫情防控的精准刻画及疫情全局演变规律的揭示;基于疫情情报流的分析，提出了面向新冠肺炎疫情防控的公共卫生突发事件应急响应情报体系，从疫情防控需求设计了组织架构与功能架构并深度融合了疫情应急响应全程的情报工作。基于文章架构的疫情防控情报体系的理论与方法，结合国家疫情联防联控机制的实践发现情报体系在疫情的应急中发挥了

期刊

信息构建研究内容的深化发展

摘要：信息构建（IA）峰会是信息构建领域从业者的全球性聚会，至2018年已连续举办19届。本文通过对IA峰会官网上历年会议资料的文本抽取，采用定性与定量相结合的主题分析方法，对2000年-2018年IA峰会的主要特征及其所体现的信息构建发展过程进行了分析，并结合著名的IA三环结构图，分析了作为信息构建设计模式基础的内容、用户与背景三大领域近年来的研究进展，总结提炼了信息构建的发展趋势。　　关键词

期刊

图书馆推进开放科学的策略与实践

摘要：文章通过对《欧洲研究型图书馆协会2018-2019年度报告》中有关开放科学的内容进行深入解读，提出我国图书馆界应借鉴国外图书馆界的先进经验，通过协会或联盟的集体力量以及与各利益相关方合作，在关注科研政策和机制、彰显图书馆价值，强化数字技能培训，传播开放科学思想以及重视数据基础设施建设等方面加强指导和实践，使图书馆成为开放科学重要的参与者、推进者甚至领导者。　　关键词：开放科学;开放获取;科

期刊

基于自然语言Python的长文本比较研究

与本文相关的学术论文