中英文核心期刊咨询网

当前位置:首页>>电子论文 > 正文

关联数据可视化研究进展分析

发布时间:2022-03-05

  摘 要:关联数据集的规模不断扩大,如何使用和消费关联数据逐渐成为研究的主要问题。 关联数据可视化可以直观、清晰地展示关联数据集,有较高的用户接受度。目前对关联数据可视化研究主要分布在本体可视化、关联数据可视化浏览和关联数据可视化应用三个方面。从技术原理和实现方法入手,对这三方面所涉及的工具和应用进行通用的关联数据可视化分析框架构建,可以发现:关联数据可视化研究呈阶梯状发展,从辅助性的本体可视化到关联数据的列表式和图形化浏览,进一步深入到关联数据的可视化应用;图形化浏览是关联数据可视化的发展趋势,通过简单配置就可以使用的工具将会逐渐受到青睐;在关联数据集上构建可视化 Web 应用以丰富的图形展示关联数据的知识,将会是未来关联数据可视化研究的重点。

关联数据可视化研究进展分析

  关键词:关联数据; 可视化; 关联数据消费;分析框架

  1 引言

  随着关联数据概念的提出和技术发展, 关联数据逐渐成为网络上发布结构化数据的一种普遍形式, 大量结构化数据以关联数据形式被发布到网络上, 使得关联数据成为全球数据空间中不可或缺的一部分。近十年来,关联开放数据云(Linked Open Data Cloud) 由 最 初 的 12 个 RDF 数据集发展到现今的 1163 个,数据规模不断扩大,数据类型不断丰富,涵盖生命科学、政府、媒体、出版、社会网络、地理等领域[1]。 关联数据的发展使得 Web 上分布着富含语义并相互关联的海量数据,目前面临的主要问题是如何消费这些数据、充分发掘关联数据的价值。 为了便于用户查询数据, 关联数据集通常都提供 SPARQL 查询端点, 但是构建 SPARQL 查询不仅需要具备语义网方面的专门知识还要对数据集的结构有深入了解,这对于普通用户显然是非常困难的。 自 2010年起,国际语义网会议(International Semantic Web Confer- ence,ISWC)每年都开设“关联数据消费”(Consuming Linked Data,COLD)讨论会,对关联数据的消费工具、平台及案例进行介绍, 也会涉及到关联数据可视化的相关技术[2]。 此外,从 2015 年开始 ISWC 增设了 “本体和关联数据的可视化与交互 (Visualization and Interaction for Ontologies and Linked Data,VOILA)”议题, 从本体和关联数据两个层次研究可视化用户界面和交互技术以及可视化分析, 主要目的是帮助用户更好的从关联数据中获取领域知识[3-4]。

  关联数据采用的数据模型是 RDF 图,它可以被看作是有向标记图( Directed Labeled Graph),每条有向边及其所连接的两个节点对应一个 RDF 三元组,再通过 RDF 链接把资源整合成为相互关联的 RDF 图[5]。 因此,关联数据可视化可分为数据模式(即本体)可视化和数据可视化两个层面:(1)本体主要用来描述实例数据的体系结构, 本体可视化采用有向标记图的形式,通过点、线和圆形展示其体系结构包含的类和类以及类和属性值之间的关系;(2)数据可视化主要是基于列表或图形的形式浏览关联数据集。 前者提供图形化界面帮助领域专家编辑本体,屏蔽 了 直 接 采 用 OWL 和 RDF 本体标记语言的复杂性,还能够以可视化的方式展示体系结构,对普通用户使用和理解本体有极大的帮助[6]。后者是采用列表和图形化的方式展示关联数据集, 便于用户浏览和发现知识。 一方面,基于列表的浏览以“属性-属性值”形式展示关联数据集,这种浏览方式充分展现了关联数据 RDF 链接的特性,使用户可以沿着有向边浏览整个数据集;另一方面,图形化的浏览以在线方式或者可视化插件提供关联数据集的可视化展示,用户可以简单地配置并构建 SPARQL 查询语句,将查询结果借助可视化工具图形化展示。 随着语义网技术和可视化技术的普及,关联数据集的可视化应用成为关联数据可视化研究的另一重要方向,基于 Web 的关联数据集可视化应用,通过对关联数据集的挖掘和分析,可从多个维度展示关联数据集隐含的知识。

  从以上分析可以看出,关联数据可以在多方面可视化展示:Schema 层面数据的结构、“属性-属性值” 列表形式的浏览、图形化展示查询结果以及语义层面的知识可视化。 通过对关联数据可视化相关文献和工具进行归纳和梳理, 发现成果主要集中在本体可视化、关联数据可视化浏览和关联数据可视化应用。

  2 本体可视化

  本体可视化主要有桌面本体可视化工具和在线本体可视化工具, 前者通过本地下载的方式将本体可视化应用安装在本地使用, 后者通过在线访问的形式提供本体的可视化编辑和可视化展示。

  2.1 桌面本体可视化工具

  桌面本体可视化的研究开始得比较早, 主要代表性工具有 Protégé、RDF Gravity 以及 IsaViz,至今在本体可视化编辑和浏览方面发挥着重要作用。 这些工具都是免费开源的,目前仅有 Protégé 提供更新维护服务。

  (1)Protégé[7]由斯坦福大学生物医学信息学研究中心开发设计,采用图形化的用户界面,屏蔽了本体描述语言的复杂性,提供本体中类、关系、属性和实例的构建。Protégé 是缩进列表展示本体的最佳代表,采用缩进的方式展示父类和子类的关系, 并且每一个节点只有一个单一的路径。

  (2)RDF Gravity[8]由奥地利萨尔茨堡研究所开发设计的,基于“node-link”图模式,面向 RDF/OWL 数据集的图形可视化工具,采用 Jung Graph(Java Universal Network /Graph Framework,Java 通用网络/图形架构)接口和 Jena 语义网络工具包来实现。 用户使用 RDF Gravity 可以对 RDF 文件进行全局、局部和自定义方式浏览,同时 RDF Gravity 提供了基于类、属性和实例的全文搜索功能,并支持多文件的同时可视化。

  (3)IsaViz[9]由 W3C 推出的,基于 Java 语言的本体可视化工具,提供 RDF 数据的可视化浏览和编辑功能。 此外,IsaViz 需要在本地部署 Java 环境,并且下载 AT&T 公司(美国电话电报公司)的 Graphviz(采用 Dot 语言脚本描述的图形) 辅助插件来构造可视化图形。 IsaViz 采用 GSS(Graph Stylesheet,基于 CSS 和 SVG 样式表语言)样式表以有向图的方式可视化本体的 RDF 图。

  2.2 在线本体可视化工具

  在线本体可视化工具可以直接通过 Web 浏览器使用,无需本地安装,减轻了用户安装配置可视化 工 具 的 负 担 。 代 表 性 工 具 有 WebProtégé 和 WebVOWL,其中 WebVOWL 基于 VOWL(Visual Notation for OWL Ontologies,OWL 本体的视觉符号)开发。

  (1)WebProtégé [10]是在 Protégé 本体编辑器的基础上开发的轻量级的在线服务, 它将基于桌面的本体编辑和可视化移植到 Web 环境中,同时支持部署到本地服务器。 WebProtégé 能够支持多用户的协同工作,用户注册登陆后会看到自己所拥有的本体,以及其它用户分享的本体。 用户使用 WebProtégé 编辑的本体也可以分享给其它用户, 通过在列表中添加协作者的登录姓名, 实现面向特定用户的本体可视化显示、编辑和评论。

  (2)VOWL 由德国斯图加特大学视觉和交互系统研究所开发, 主要是为了解决普通用户的本体可视化需求而设计的一套 OWL 语言的图形化描述符号。 该本体描述模型提供了 OWL 中元素的图形化描述, 采用不同形状和颜色的图形, 描述本体包含的类、类之间的关系以及属性,能更直观可视化展示本体的体系结构[11]。 目前采用该本体描述模型实现本体可视化的工具有两种——ProtégéVOWL 和 WebVOWL:①ProtégéVOWL 是 Java 编写的 VOWL 插件,需要拷贝插件 Jar 包到 Protégé 桌面应用中, 并在用户界面中配置后才能使用; ②WebVOWL 是 基 于 Web 的在线本体可视化工具,采用开放的 Web 标准(HTML、JavaScript、CSS 和 SVG)设计可视化页面,并以 VOWL 定义的图形描述本体。

  鉴于 ProtégéVOWL 实现的可视化功能与 WebVOWL 一致,这里以 WebVOWL[12]为例,介绍其具体实现方式和整体框架(见图 1)。

  WebVOWL 可视化本体的处理过程分四步:(1) WebVOWL 通过上传本体文件的方式获取数据,OWL API①负责解析加载的本体文件;(2)OWL2VOWL 转换 器 ②将本体文件的 解析结果转换成为 WebVOWL自定义的 OWL2-JSON 数据格式,该数据格式包括本体的类、属性以及数据类型等(如 owl:Class, owl:ObjectProperty,xsd:dateTime); (3)VOWL2 配 置文件定义了本体文件解析后每个元素的图形和显示样式,如图形的 SVG③代码和 CSS 样式;(4)通过力导向图(Force-Directed Graph)展示本体的体系结构,并支持简单的过滤,如子类显示与否、类的属性显示与否。

  2.3 本体可视化分析

  本文所调研的本体可视化工具主要从其类型、开发时间、当前状态、数据加载方式以及可视化方式五个方面进行对比(见表 1)。

  本体是用来描述类和类之间、 类和属性之间的关系,早期的本体可视化工具都是基于桌面,主要目的是帮助领域专家构建本体, 同时也提供图形化展示本体的体系结构, 如以树状图的形式展示本体中类与类之间的关系。 桌面本体可视化工具只有Protégé 提供更新服务, 其持续更新和维护以及良好的操作性使其成为目前本体编辑和可视化的主要工具。 此外,Protégé 还提供两种方式的功能扩展:插件和 Java 的 API,如 ProtégéVOWL 使 Protégé 实现了本体图形化的展示。

  在线本体可视化工具无需用户在本地安装 , WebProtégé 和 WebVOWL 是 典 型 代 表。 WebVOWL 仅提供本体的可视化服务, 并不支持本体可视化编辑,但是 WebVOWL 能从整体上概览本体,采用力导向图展示本体的类和类、类和属性的关系,并可统计本体中类和属性的数量。

  3 关联数据的可视化浏览

  3.1 基于列表的浏览

  基于列表的浏览是采用“属性-属性值”列表方式展示关联数据集,并允许用户沿着 RDF 链接探索并浏览整个关联数据集。 基于列表的浏览有在线远程服务和 Web 浏览器插件两种实现方式。

  (1)在线远程服务方式。 通过在线远程访问关联数据浏览器,然后在关联数据浏览器中输入关联数据集的 URL 或关联数据集中某个资源的 URI 地址,以远程方式浏览关联数据。早期提供关联数据远程浏览的工具有 Disco、Dipper 和 Marbles 等, 但这些工具目前基本处于停止服务状态,无法进行访问。 远程服务方式消失的可能原因是:当前许多关联数据集都提供 HTML 和 RDF 两种表示格式,通过 HTTP 协议的内容协商机制,采用传统的 HTML 浏览器用户在本地就可以列表的方式浏览 RDF 数据, 无需再通过这种远程服务来进行访问。 内容协商机制(Content Negotiation)是 HTTP 协议提供的对服务器端响应的资源内容进行协商的一种机制,服务器根据客户端信息请求的类型(text/html 或 rdf+xml 格式),以最适合的表示形式向其返回请求的资源, 通常是 Web 资源的 HTML 或 RDF 表示格式。

  (2)Web 浏览器插件方式。 通过安装在本地浏览器中的插件来访问关联数据集。 用户通过浏览器访问关联数据集时,利用插件间的切换实现资源的RDF 表示格式和 HTML 表示格式的浏览。 比较有名的插件有 Tabulator 和 Openlink Data Explorer(ODE)。

  Tabulator 是较早的关联数据浏览器插件, 但是 2008 年以后已经停止更新服务 , 且 仅 支 持 Firefox3.0。 Tabulator 以 RDF 表示格式展示用户要访问的关联数据时,支持 RDF/XML、Turtle 和 N-Triple 三种序列化显示格式。

  ODE 是 OpenLink 项目开发的关联数据浏览器插件, 支持的浏览器有 Internet Explorer、Firefox 和 Google Chrome 等[13]。 ODE 在浏览器中提供数据表示格式切换的选项, 在浏览发布为关联数据的网站时点击鼠标右键会出现“Openlink Data Explorer”选项,点击其中的“View data resource”选项会打开新的页面,以 RDF 表示格式展示资源(见图 2)。

  ODE 的主要工作原理是: 关联数据的解析工作是由 ODE 的服务器端 URIBurner 完成,用户在切换浏览方式的时候, 资源的 URI 地址通过 HTTP 协议传递到 URIBurner,待服务器完成解析后以“属性-属性值”对形式返回 OED 插件。URIBurner 是 OpenLink 项目开发的数据解析服务器, 通过“http://linkeddata. uriburner.com/sparql?query=resource_URI” 的 形 式 获取资源的 URI 地址,对关联数据集的语义标签(如采用 RDFa 格式或者 Pubby 发布的关联数据) 进行解析,同时提供 RDF/XML、N-Triple 和 JSON 多种序列化格式的显示[13]。

  3.2 图形化浏览

  关联数据的图形化浏览主要有可视化插件和远程服务两种方式。 可视化插件采用脚本嵌入的方式集成到 HTML 页面中实现关联数据的图形化浏览。在线远程服务主要采用 “客户端浏览器和远程服务器” 架构方式实现, 根据用户配置的关联数据集 SPARQL 端点或者上传的本地关联数据集, 采用内置的可视化图形实现关联数据集可视化。

  (1)可视化插件。 该可视化插件主要有两类,一类是针对专门的多维统计数据, 其描述词表必须是 RDF Data Cube Vocabulary(DCV)①;另一类是通用的可视化插件, 不受关联数据中所使用的词表或本体的限制。

  在发布的关联数据中, 语义化数据表是其中重要的一部分, 如欧盟委员会 “欧洲数字议程(Digital Agenda for Europe )” 行动进展和绩效统计数据就是以语义化数据表的形式存储[14]。 语 义 化 数 据 表可视化的典型代表是 CubeViz [15]。 该可视化插件是德国莱比锡大学计算机学院开发, 主 要 用 于 可 视化展示采用 DCV 描述的统计关联数据集。 CubeViz 以嵌入 HTML 网页的方式完成插件的配置, 采 用饼图、 曲线图和直方图对配置的关联数据集可 视化展示。

  通用的关联数据可视化插件比较有代表性的是 Sgvizler [16]。 该可视化插件集成了开源的 Googel Charts 图形类库,对 SPARQL 查询结果可视化展示。 Sgvizler 提 供 三 种 方 式 构 建 SPARQL 查 询[17]:①在 HTML5 页面中直接使用 Sgvizler 标 签和构造 SPARQL 查询式(见图 3);②在 HTML 页面中使用 JavaScript 其提供的 API 构建 SPARQL 查询, 该方式与第一种类似,即直接采用 Sgvizler 内置的“sgvizler.query”函数构造 SPARQL 查询式; ③在 HTML5 页面中添加 From 表单查询远程关联数据集,相比以上两种方式该方式实现较为复杂。

  (2)在线远程服务方式。 在线远程服务无需用户进行复杂的配置, 仅需用户在浏览器端进行数据源的配置,然后在浏览器上执行查询、选择和过滤等多种操作,远程服务器负责处理客户端的操作,最后将关联数据集解析结果返回客户端进行可视化展示。其代表性的工具有 RelFinder 和 RDF:SynopsViz。

  RelFinder 是 P.Heim 等人于 2009 年开发的一款可视化工具, 旨在帮助用户发现关联数据集中感兴趣资源实体之间的关系, 其前身是面向 DBpedia 数据集的对象关系 发现工具 DBpedia RelationshipFinder[18-20]。 RelFinder 发现关联数据集中对象间关系的原理为:①用户在 RelFinder 浏览器的查询框中输入要查询的两个对象, 输入的对象在数据集中被映射为唯一的实体或者按相关性排序的一组实体列表供用户选择;②确定要查找的实体后,RelFinder 根据实体间的 RDF 链迭代查找,发现两个实体间的所有关系; ③以可视化导向图的方式展示实体间的语义关系, 可根据用户预先设定的相关性策略自动过滤相关性较小的关系,仅显示最优关系。 Relfinder 用动态视图展示资源实体间关系,展示方式直观、生动,并提供关键词过滤, 能实现资源实体间关系的局部可视化。 除了在线服务,Relfinder 还支持本地下载,作为一个 Web 应用在应用服务器 (如 Tomcat 服务器)中运行,这种方式也是目前国内关联数据可视化采用的主要方式[3,21-22]。

  相关知识推荐:核心期刊论文投稿发表时有哪些注意事项

  SynopsViz[23]是一个分层展示和浏览关联数据的在线浏览器, 主要工作原理是采取层次模型展示关联数据,避免了数据集较大时的加载负担。 SynopsViz 将关联数据集按类(Class)和属性(Property)进行统计,并提供对数据集的过滤功能,过滤结果采用时间轴、图表和 TreeMap 进行可视化展示。 SynopsViz 的工作原理分为:关联数据集上传、数据集预处理、可视化分析模块和浏览器端可视化四个部分, 各部分主要功能为:①关联数据集上传:可以上传本地关联数据集的 RDF 文件或远程关联数据集的 URI 地址; ②数据集预处理:首先对数据集进行解析,生成类和属性的分面信息, 然后交由分层处理模块对分层信息进行存储;③可视化分析模块:根据浏览器端的分类过滤请求, 可视化分析模块调用相匹配的分层信息,如某个类的实例数据;④浏览器端可视化:根据用户的请求,从可视化分析模块获取相关数据,采用开源的 Google Charts 图形库对过滤结果进行简单的统计和分析[23]。

  3.3 关联数据可视化浏览分析

  所调研的关联数据可视化浏览工具主要从数据集参引方式、可视化展示方式、使用方式以及操作方式四个方面进行对比(见表 2)。

  (1)数据集参引方式:主要有配置 SPARQL 查询端点、上传本地关联数据集 RDF 文件、加载远程关联数据集 RDF 文件以及关联数据集的浏览页面。

  (2)可视化展示方式:主要有两类方式,一类是基于列表的浏览;另一类是图形化浏览。 前者以“属性-属性值”对形式展示关联数据集,后者以饼图、折线图或直方图展示关联数据集或 SPARQL 查 询 结果。 其中 Sgvizler 的可视化图形来源于 Google Charts 可视化类库,CubViz、RelFinder 和 SynopsViz 均内置可视化图形。

  (3)可视化工具使用方式:①以插件的形式安装到浏览器中,直接浏览关联数据;②以可视化类库的形式嵌入到 HTML 页面, 其中 CubeViz 针对专门的语义化数据表,Sgvizler 面向通用数据类型两种,但需要用户构建 SPARQL 查询表达式; ③通过浏览器访问的在线远程服务或者本地应用服务器内运行, Relfinder 通过关键词查询发现实体间关系 ,SynopsViz 可以直接图形化浏览关联数据。

  由于越来越多的关联数据集提供 HTML 和 RDF两种表示格式, 早期基于列表的可视化浏览器和插件工具逐渐停止了服务。 目前,只有 ODE 是以 Web 浏览器插件形式实现关联数据列表浏览, 对 采 用 RDFa、D2R 或 Pubby 发布的关联数据集有较好的可视化支持。

  从关联数据图形化浏览工具的易用性来说,按照其是否需要构造 SPARQL 查询分为两大类: 第一类可视化工具操作简单无需用户自行构造 SPARQL 查 询 式 ; 第二类需要用户将可视化工具 集成到 HTML 页面,且自行构造 SPARQL 查询式。 这两类关联数据图形化浏览工具分析如下: ①第一类可视化工具主要有 Cubeviz、RelFinder 和 SynopsViz。 Cubeviz 是封装的 JavaScript 类库,需要嵌入 HTML 页面才能使用,且用户需要具有一定的 HTML 网页设计技术,其可视化图形相对简单, 仅有饼状图和直方图。 此外,Cubeviz 仅支持采用 DCV 词表描述的统计数据,相对于其它工具来说其通用性较差。 SynopsViz 提供在线远程服务,将本地或远程关联数据集 RDF 文件上传服务器即可直接可视化浏览, 该工具根据用户的选择将过滤结果采用时间轴、图和表可视化展示。 RelFinder 主要目的是帮助用户发现关联数据集中两个实例对象的所有关系。 因此,有很多领域需要这种发现实体关系的可视化工具, 如在基因和疾病相关的生物医学领域关联数据中 Relfinder 可发现基因或者药物之间的关系; ②第二类可视化工具需要用户自行构造 SPARQL 查询表达式, 可视化效果完全依赖于 SPARQL 查询式,主要有 Sgvizler。 Sgvizler 是封装好的 JavaScript 库, 需要嵌入 HTML 页面才能使用,但其集成了 Google Charts 图形库,提供更丰富的图形展示查询结果。

  从所调研的关联数据可视化工具总体来看,基于列表的浏览工具逐渐会被淘汰, 其更新服务会慢慢停止,但是对于领域专家来说,这种简洁的浏览方式能更好地了解关联数据集的结构。 图形化浏览工具和插件中不需要用户构建 SPARQL 查询式, 通过简单配置就可以使用工具将会逐渐受到青睐,如 RelFinder; 需要用户构建 SPARQL 查询式的可视化浏览工具灵活性更好, 能更有针对性的可视化浏览关联数据集, 对专家用户来说是一种较好的关联数据可视化浏览方式,如 Sgvizler。

  4 关联数据可视化应用

  4.1 基于 Web 的关联数据集可视化应用实例

  除了前文所述的关联数据可视化工具, 还有一些语义网应用针对特定的关联数据集提供可视化分析,具有代表性的有:(1)开放存取期刊《语义网杂志(Semantic Web Journal,SWJ)》 论文投稿和审稿数据的语义化及可视化分析;(2)美 国 的 VIZ-VIVO 项目;(3)欧洲的关联高校项目。 这些关联数据可视化应用,面向用户提供可视化分析和浏览,一方面屏蔽了底层关联数据的复杂性, 为用户提供了友好的数据访问界面;另一方面,实现了对关联数据的深度分析,也为发掘关联数据集中有价值的知识提供了新方法。

  (1)SWJ Portal。 SWJ 是语义网领域的一个开放存储期刊, 该期刊的内容管理系统中采集了大量科学论文元数据、科学论文全文、学者信息和评审人信息, 同时也收集了评审人的审稿意见和论文的修改版本等信息[24]。 SWJ Portal 是加州大学圣塔芭芭拉分校 STKO 实验室(Space and Time Knowledge Organization, STKO)的研究人员在 SWJ 数据集上构建了可视化 Web 应用。 SWJ Portal 通过对原始的关系型数据库进行挖掘和语义转换, 构建了蕴含深度隐性关系的关联数据,采用 Highcharts 可视化类库分模块、分层次的展示论文作者的地域分布、 合作者网络以及论文主题的演化趋势等[25]。

  SWJ Portal 采 用 Jena 的 TDB 存 储 器 存 储 RDF 关联数据集,以 Fuseki 作为 SPARQL 查询终端,构建客户端和服务器端架构的可视化应用(见图 4)。SWJ Portal 的工作原理为: ①可视化界面采用 JavaScript的 ExtJS①类库设计可视化界面,结合 Highcharts 可视化类库展示关联数据分析结果; ②服务器端可视化模块由一系列封装好的 SPARQL 查询式组成, 负责与关联数据集查询终端进行交互; ③客户端与服务器端的交互采用 Ajax 来实现,根据不同的分析功能调用不同的可视化模块, 并将 SPARQL 查询结果以 JSON 数据格式返回客户端的图形。——论文作者:曲佳彬 1,2 欧石燕 1

回到顶部