论文部分内容阅读
[摘 要]语义网概念体系是计算机科学的新兴研究方向,旨在使机器理解互联网上的信息。本文介绍了语义网及其体系结构,概念体系及其描述语言,并分析了语义网概念体系在搜索引擎优化领域与人工智能研究领域的实际应用案例,为语义网概念体系的研究者提供一些案例参考,最后提出了未来可应用的一些领域。
[关键词]语义网;概念体系;本体;搜索引擎;知识图谱
中图分类号:H313 文献标识码:A 文章编号:1009-914X(2017)21-0208-02
语义网概念自提出以来,已经成为新一代互联网技术应用的热点。搜索引擎,包括谷歌、百度、搜狗、新一代计算知识引擎Wolfram Alpha,还有认知计算系统的杰出代表IBM Watson都使用了语义网技术。
1.语义网及其体系结构
互联网技术的发展给人们带来方便的同时也逐渐暴露了一些问题。互联网数据呈爆炸式增长,使得用户难以准确檢索出所需信息。解决这类矛盾的基本方法是变无序信息为有序信息,让计算机能够理解互联网上的数据与信息,这就是语义网的终极目标。
语义网是新兴研究方向,旨在使互联网上的文本信息具有计算机系统可以理解的语义。这一概念由万维网之父Tim Berners-Lee提出[1]。Berners-Lee还提出,语义网体系结构是互联网未来发展的一个方向,它是基于语义的体系结构。该体系中由高向低分别是:UNICODE(统一码)、URI(统一资源标识符)、XML(可扩展标记语言)、RDF(资源描述框架)、Ontology(概念体系)、Logic(逻辑)、Proof(校验)和Trust(信任)[2]。在语义网体系结构中,第一层UNICODE和URI,第二层XML、NS和xmIschema,第三层RDF和rdfschema。Ontology vocabulary就是语义网体系结构的第四层,第五层到第七层,它们以第一层到第四层为基础进行逻辑推理操作,并对推理结果进行验证,证明其有效性。语义网的核心层就是可扩展标记语言XML、资源描述框架RDF和概念体系Ontology,它们所表示的是网络信息的语义。
2.概念体系及其描述语言
Ontology即“概念体系”。从哲学概念上来说,Ontology是对客观存在的系统解释或说明,关心的是客观现实的抽象本质。同时也存在“本体”或“本体论”的译法,但都沿用了哲学上的概念,不利于人们对于计算机科学中Ontology的理解,所以本文采用“概念体系”的译法。
概念体系旨在克服计算机系统之间的“语义鸿沟”,它的概念始于哲学,定义是“对世界上客观存在物的系统地描述”[3]。“概念体系是概念模型的明确的规范说明[4]”,这是最为流行的概念体系定义,1993年由Gruber给出。
3.语义网概念体系的实际应用案例
语义网概念体系实际应用非常广,尤其是在搜索引擎优化领域与人工智能研究领域。
3.1.利用语义网概念体系进行搜索引擎优化
目前使用使用语义网概念体系的搜索引擎主要有:谷歌、百度、搜狗,还有计算知识引擎(Computational Knowledge Engine)Wolfram Alpha等。
案例1:Wolfram Alpha是一种计算知识引擎。用户可以在网站中的搜索界面提交查询请求和计算要求。Wolfram Alpha能夠根据用户输入的请求识别出用户真正需要的信息,然后利用内置知识体系进行计算,最后在搜索结果中直接为用户提供答案。答案的表示方式多种多样,有文字、图表、数据或图形。与传统通用搜索引擎相比,Wolfram Alpha可以在较短时间内为用户整理好答案并返回结果,而不是匹配的的网页链接和网页摘要。
3.2.就体验效果而言,Wolfram Alpha有一些优势
如:
(1)增强检索结果的逻辑性。Wolfram Alpha使得计算机能够理解用户需要检索的问题,对搜索问题进行自动识别给出更加智能的答案;
(2)节省用户大量的时间和精力。用户不需要花费更多时间筛选检索结果中的各种网页,可以直接得到答案;
(3)具有更好的模糊语义识别功能。如果输入“抛10次,4次正面向上”,Wolfram Alpha可以识别出用户搜索的其实是抛硬币的概率问题。
但它也存在一些缺点:
(1)搜索结果数据更新不及时。Wolfram Alpha在效果上类似于维基百科、百度百科等百科知识网站,它对数据库中的共时数据与历时数据进行概念体系构建,网站工作人员需要大量时间和精力来更新共时数据;
(2)搜索结果不够全面。因为Wolfram Alpha可以直接显示需要的答案,没有用户参与筛选结果,或许对于用户来说不是最理想的答案。
由于语义网概念体系应用时间较短,所以在实际应用时会出现很多问题,这就需要语义网概念体系技术的前沿企业与机构及时进行技术创新。
案例2:谷歌搜索引擎可以进行知识图谱(Knowledge Graph)搜索,它将检索结果的显示方式进行知识系统化,任一关键词都有一个完整的知识体系。
与以前的检索结果相比,“知识图谱”将在以下方面提高检索效果:
(1)提高检索结果准确性。由于一个关键词可能具有多重含义,所以知识图谱会将最全面的信息展现出来,让用户找到自己最需要的含义。
(2)为用户提供更全面的总结。利用知识图谱,谷歌可以更好的理解用户搜索的信息,并总结出相关信息、数据或图表。例如,当用户搜索关键词“Albert Einstein”(阿尔伯特·爱因斯坦)时,搜索结果不仅包括他的身高、体重、照片、家庭成员等个人信息,还有科学贡献时间线、重要科学贡献、诺贝尔获奖情况等。 (3)检索结果会扩展用户视野。由于“知识图谱”会给出搜索结果的完整知识体系,所以用户往往会发现很多陌生的知识。如果用户搜索“subway”,会检索出它不止是“地铁”的意思,还是快餐品牌“赛百味”的英文名。
不仅国外有一些机构和公司使用知识图谱技术,如Facebook Graph Search,而且国内有一些公司在使用此类技术,如搜狗知识图谱“知立方”和百度知识图谱,它们将语义网概念体系技术应用到搜索引擎中,以提高检索效率。
3.2 利用语义网概念体系优化人工智能技术
人工智能是计算机科学的一个分支,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。“机器学习”是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,主要使用的是归纳和综合的方法,所以对于概念体系的构建需要足够重视。而机器学习技术的发展又为概念体系自动构建奠定了技术基础。
案例2:苹果公司的Siri是一款語音控制应用,可以实现编辑短信、拨打电话、查询天气等功能,还可以与用户进行文字与语音聊天。“活跃本体”(Active Ontology)是Siri整体架构中非常关键的成分,在活动本体内对用户输入进行解析,并将文本信息在这里解析为用户真正的意图,然后根据意图来调用外部的服务。而这就是语义网研究领域的Ontology,也就是概念体系[5]。
2015年,苹果收购英国语音技术初创公司VocalIQ,将语音处理和机器学习技术应用到可穿戴设备、家庭联网设备中,同时特别关注车载应用的开发。这次收购也可以帮助苹果Siri在未来迈入汽车领域,成为语音识别领域体验最好的产品。
案例3:自然语言处理在自动问答系统上的应用,如微软小冰、苹果Siri、IBM Watson的QA(question answering)系统,包括分词、词性标注、句法分析以及相关工具的使用,这些都离不开概念体系的建立。
语音识别技术最终目标是将人类发出的语音转化为计算机可理解的机器语言,实际应用时可以与现有技术结合。
3.3 案例分析小结
通过分析以上案例可以得出,语义网概念体系的应用领域十分广泛,给科技企业也带来不少机遇和挑战。机遇在于新型计算机技术的发展给科技企业带来了新的动力与方向,若能抓住先机将此类技术与产品进行融合,率先占有市場,就能成为语义网概念体系建设的领跑者。
4 结语
总之,语义网概念体系技术的应用的范围非常广泛,如语音翻译、语音识别、指纹识别等、听音识歌、图像识别、自动问答。以优化搜索引擎检索效果。语音识别与手机等移动设备的结合也是大趋势。
目前关于语义网概念体系的建设方法、建设工具和相关标准,国内起步较晚,研究成果不多,应用成果也多为国外应用成果的模仿,所以未来需要更多国内学者与行业从业人员的创新。
参考文献
[1] 杜勇1李曼1王大治2.语义网与Ontology研究综述[M]-计算机应用2004(10).
[2] Semantic Web Architecture. http://www.w3.org/2000/TaIks/1206-xm12k-tbI/sIide10-0.htmI.
[3] GRUBER CTR. A translation approach to portable ontologies[J]. Knowledge Acquisition,1993,5(2):199-220.
[4] Studer R, Benjamins VR, FenseI D. Knowledge Engineering, Principles and Methods. Data and Knowledge Engineering,1998,25(1-2):161-197.
[5] Siri.https://www.baidu.com/link?url=1BHRk5eemWzYhLI1_pNqBJB_GNaktkZOClRSDOYD-ghur5tg3Q79SwPmeKHKY4frl1_0cRmS9dPatlZbDciRb_&wd=&eqid=b7e6f0bf000488260000000356d01ac9.
作者简介
燕夕子(1990.12~),女,江苏徐州,天津外国语大学2015级硕士,研究方向:国际信息交流与管理。
王珊珊(1992.11~),女,河北邯郸,天津外国语大学2015级硕士 研究方向:国际信息交流与管理。
[关键词]语义网;概念体系;本体;搜索引擎;知识图谱
中图分类号:H313 文献标识码:A 文章编号:1009-914X(2017)21-0208-02
语义网概念自提出以来,已经成为新一代互联网技术应用的热点。搜索引擎,包括谷歌、百度、搜狗、新一代计算知识引擎Wolfram Alpha,还有认知计算系统的杰出代表IBM Watson都使用了语义网技术。
1.语义网及其体系结构
互联网技术的发展给人们带来方便的同时也逐渐暴露了一些问题。互联网数据呈爆炸式增长,使得用户难以准确檢索出所需信息。解决这类矛盾的基本方法是变无序信息为有序信息,让计算机能够理解互联网上的数据与信息,这就是语义网的终极目标。
语义网是新兴研究方向,旨在使互联网上的文本信息具有计算机系统可以理解的语义。这一概念由万维网之父Tim Berners-Lee提出[1]。Berners-Lee还提出,语义网体系结构是互联网未来发展的一个方向,它是基于语义的体系结构。该体系中由高向低分别是:UNICODE(统一码)、URI(统一资源标识符)、XML(可扩展标记语言)、RDF(资源描述框架)、Ontology(概念体系)、Logic(逻辑)、Proof(校验)和Trust(信任)[2]。在语义网体系结构中,第一层UNICODE和URI,第二层XML、NS和xmIschema,第三层RDF和rdfschema。Ontology vocabulary就是语义网体系结构的第四层,第五层到第七层,它们以第一层到第四层为基础进行逻辑推理操作,并对推理结果进行验证,证明其有效性。语义网的核心层就是可扩展标记语言XML、资源描述框架RDF和概念体系Ontology,它们所表示的是网络信息的语义。
2.概念体系及其描述语言
Ontology即“概念体系”。从哲学概念上来说,Ontology是对客观存在的系统解释或说明,关心的是客观现实的抽象本质。同时也存在“本体”或“本体论”的译法,但都沿用了哲学上的概念,不利于人们对于计算机科学中Ontology的理解,所以本文采用“概念体系”的译法。
概念体系旨在克服计算机系统之间的“语义鸿沟”,它的概念始于哲学,定义是“对世界上客观存在物的系统地描述”[3]。“概念体系是概念模型的明确的规范说明[4]”,这是最为流行的概念体系定义,1993年由Gruber给出。
3.语义网概念体系的实际应用案例
语义网概念体系实际应用非常广,尤其是在搜索引擎优化领域与人工智能研究领域。
3.1.利用语义网概念体系进行搜索引擎优化
目前使用使用语义网概念体系的搜索引擎主要有:谷歌、百度、搜狗,还有计算知识引擎(Computational Knowledge Engine)Wolfram Alpha等。
案例1:Wolfram Alpha是一种计算知识引擎。用户可以在网站中的搜索界面提交查询请求和计算要求。Wolfram Alpha能夠根据用户输入的请求识别出用户真正需要的信息,然后利用内置知识体系进行计算,最后在搜索结果中直接为用户提供答案。答案的表示方式多种多样,有文字、图表、数据或图形。与传统通用搜索引擎相比,Wolfram Alpha可以在较短时间内为用户整理好答案并返回结果,而不是匹配的的网页链接和网页摘要。
3.2.就体验效果而言,Wolfram Alpha有一些优势
如:
(1)增强检索结果的逻辑性。Wolfram Alpha使得计算机能够理解用户需要检索的问题,对搜索问题进行自动识别给出更加智能的答案;
(2)节省用户大量的时间和精力。用户不需要花费更多时间筛选检索结果中的各种网页,可以直接得到答案;
(3)具有更好的模糊语义识别功能。如果输入“抛10次,4次正面向上”,Wolfram Alpha可以识别出用户搜索的其实是抛硬币的概率问题。
但它也存在一些缺点:
(1)搜索结果数据更新不及时。Wolfram Alpha在效果上类似于维基百科、百度百科等百科知识网站,它对数据库中的共时数据与历时数据进行概念体系构建,网站工作人员需要大量时间和精力来更新共时数据;
(2)搜索结果不够全面。因为Wolfram Alpha可以直接显示需要的答案,没有用户参与筛选结果,或许对于用户来说不是最理想的答案。
由于语义网概念体系应用时间较短,所以在实际应用时会出现很多问题,这就需要语义网概念体系技术的前沿企业与机构及时进行技术创新。
案例2:谷歌搜索引擎可以进行知识图谱(Knowledge Graph)搜索,它将检索结果的显示方式进行知识系统化,任一关键词都有一个完整的知识体系。
与以前的检索结果相比,“知识图谱”将在以下方面提高检索效果:
(1)提高检索结果准确性。由于一个关键词可能具有多重含义,所以知识图谱会将最全面的信息展现出来,让用户找到自己最需要的含义。
(2)为用户提供更全面的总结。利用知识图谱,谷歌可以更好的理解用户搜索的信息,并总结出相关信息、数据或图表。例如,当用户搜索关键词“Albert Einstein”(阿尔伯特·爱因斯坦)时,搜索结果不仅包括他的身高、体重、照片、家庭成员等个人信息,还有科学贡献时间线、重要科学贡献、诺贝尔获奖情况等。 (3)检索结果会扩展用户视野。由于“知识图谱”会给出搜索结果的完整知识体系,所以用户往往会发现很多陌生的知识。如果用户搜索“subway”,会检索出它不止是“地铁”的意思,还是快餐品牌“赛百味”的英文名。
不仅国外有一些机构和公司使用知识图谱技术,如Facebook Graph Search,而且国内有一些公司在使用此类技术,如搜狗知识图谱“知立方”和百度知识图谱,它们将语义网概念体系技术应用到搜索引擎中,以提高检索效率。
3.2 利用语义网概念体系优化人工智能技术
人工智能是计算机科学的一个分支,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。“机器学习”是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,主要使用的是归纳和综合的方法,所以对于概念体系的构建需要足够重视。而机器学习技术的发展又为概念体系自动构建奠定了技术基础。
案例2:苹果公司的Siri是一款語音控制应用,可以实现编辑短信、拨打电话、查询天气等功能,还可以与用户进行文字与语音聊天。“活跃本体”(Active Ontology)是Siri整体架构中非常关键的成分,在活动本体内对用户输入进行解析,并将文本信息在这里解析为用户真正的意图,然后根据意图来调用外部的服务。而这就是语义网研究领域的Ontology,也就是概念体系[5]。
2015年,苹果收购英国语音技术初创公司VocalIQ,将语音处理和机器学习技术应用到可穿戴设备、家庭联网设备中,同时特别关注车载应用的开发。这次收购也可以帮助苹果Siri在未来迈入汽车领域,成为语音识别领域体验最好的产品。
案例3:自然语言处理在自动问答系统上的应用,如微软小冰、苹果Siri、IBM Watson的QA(question answering)系统,包括分词、词性标注、句法分析以及相关工具的使用,这些都离不开概念体系的建立。
语音识别技术最终目标是将人类发出的语音转化为计算机可理解的机器语言,实际应用时可以与现有技术结合。
3.3 案例分析小结
通过分析以上案例可以得出,语义网概念体系的应用领域十分广泛,给科技企业也带来不少机遇和挑战。机遇在于新型计算机技术的发展给科技企业带来了新的动力与方向,若能抓住先机将此类技术与产品进行融合,率先占有市場,就能成为语义网概念体系建设的领跑者。
4 结语
总之,语义网概念体系技术的应用的范围非常广泛,如语音翻译、语音识别、指纹识别等、听音识歌、图像识别、自动问答。以优化搜索引擎检索效果。语音识别与手机等移动设备的结合也是大趋势。
目前关于语义网概念体系的建设方法、建设工具和相关标准,国内起步较晚,研究成果不多,应用成果也多为国外应用成果的模仿,所以未来需要更多国内学者与行业从业人员的创新。
参考文献
[1] 杜勇1李曼1王大治2.语义网与Ontology研究综述[M]-计算机应用2004(10).
[2] Semantic Web Architecture. http://www.w3.org/2000/TaIks/1206-xm12k-tbI/sIide10-0.htmI.
[3] GRUBER CTR. A translation approach to portable ontologies[J]. Knowledge Acquisition,1993,5(2):199-220.
[4] Studer R, Benjamins VR, FenseI D. Knowledge Engineering, Principles and Methods. Data and Knowledge Engineering,1998,25(1-2):161-197.
[5] Siri.https://www.baidu.com/link?url=1BHRk5eemWzYhLI1_pNqBJB_GNaktkZOClRSDOYD-ghur5tg3Q79SwPmeKHKY4frl1_0cRmS9dPatlZbDciRb_&wd=&eqid=b7e6f0bf000488260000000356d01ac9.
作者简介
燕夕子(1990.12~),女,江苏徐州,天津外国语大学2015级硕士,研究方向:国际信息交流与管理。
王珊珊(1992.11~),女,河北邯郸,天津外国语大学2015级硕士 研究方向:国际信息交流与管理。