大数据时代国外数据素养研究: 争议、类型及实践形态
发布时间:2019-08-16
摘要: 大数据技术革命中数据技能缺失、算法决策风险、数据参与差距等诸多问题引发国外学者对数据素养的关注。从理论层面而言,数据素养本身具有内在合法性的争议,即数据素养在大数据时代是否适用以及数据素养的技术维度与社会伦理维度的关系界定。从实践层面而言,数据素养主要包括工匠型数据素养、参与型数据素养和交互型数据素养,其实践形态以技术干预模式为主。为了规避数据驱动社会的各类风险,需超越技术性的数据素养,从人与数据交互的视角把社会伦理融入到数据素养中,以促进以人为本的大数据技术发展。
关键词: 工匠型数据素养; 参与型数据素养; 交互型数据素养
一、大数据时代数据素养的兴起: 技能、民主与伦理
大数据时代数据素养的兴起源于当前海量数据的使用及其影响。大数据时代,数据尤其是非结构化数据不仅成为新型经济资产,而且数据借助于算法以驱动决策的方式深刻影响每个人的生活世界。进一步而言,大数据也引发诸如隐私泄露、算法决策风险、数据不平等、参与差距等亟需解决的问题。数据素养则是解决这些问题的关键之一,因而成为大数据时代的重要问题。具体而言,大数据时代数据素养的兴起有以下三方面原因:
第一,作为专业技能的使用与分析数据能力的缺失。从传感器数据到手机、社交媒体和其他数字设备数据,大量数据的快速生成使政府、企业和社会开始在数据洪流中挖掘数据的巨大潜力。但当前已有的调查结果显示,大多数人并不具有专业所需的 使 用 与 分 析 数 据 的 能 力。 埃 维 诺 公 司 ( Avanade) 对此的调查结果显示,超过 60% 的受访者表示他们的员工需要学习新的技能,从而将大数据转化为洞察力和商业价值。
第二,民主参与要求公民具备数据素养。与大数据相伴而生的是政府开放数据运动,其基本前提假定为,每个人都有能力利用这些数据,因而政府只需将各类普查数据和通过其他间接活动获取的数据以电子形式提供给公民,从而促使公民参与和监督政府决策,同时鼓励公民作为积极行动者利用数据解决当地问题。〔1〕然而,现实却与政府开放数据运动的初衷背道而驰。一方面,随着数据越来越重要,权力流向能够理解和操作数据的群体。另一方面,无力理解与操作数据不仅造成数据文盲无法实质性地获取参与材料,更严重挑战了公众的民主参与能力,从而导致参与差距〔2〕。此困境的根源在于,增加公民对政府数据的访问本身并不会真正促使公众有效参与,相反,公民必须能够理解和有效地利用这些数据才能够真正地监督政府活动并参与公众决策,进而促使政府保持其应有的责任感和透明度。〔3〕3 换言之,开放数据的核心在于公民的“有效利用”,访问只是有效利用的前提条件。〔4〕因此,数据素养才是缩小参与差距,消除数据不平等,实现每个公民民主参与权的关键。也正基于此,西方大众媒体积极呼吁实施面向公民的广泛数据素养教育。
第三,大数据时代人与数据交互( Human - Data Interaction,简称 HDI) 的要求。随着生活中数据使用与影响的空前增长,个体行为或多或少都依赖算法的预测与干预而行动,并由此形成了个体数据与算法的交互循环,即个体数据—算法分析—算法干预—新的个体行为数据。对个体而言,此过程中个体数据的收集是非介入性的,算法分析与干预的过程更是不透明的。因而,数据洪流中的个体至少需要知道其行为是如何被干预的,行为的数据又是如何产生以及深刻影响个体行为与生活的算法是怎样建构的。〔5〕3 - 4更为重要的是,我们生活的数据世界因存在诸多风险而并不完美。这些数据风险可归纳为六类〔6〕 : “数据及其算法所得结论的不确定性; 数据与算法结论之间关系的不可理解与无法审查; 偏见进则偏见出的数据处理原则所导致的误导性结果; 以及由前三个认知上风险所导致的算法决策的不公正与不透明、伪合理性社会歧视出现、数据主体自主性的隐匿和算法责任界定的模糊。”
二、大数据时代数据素养概念的合法性争议
确定为什么需要数据素养较容易,但明确数据素养究竟是什么却具有更多的挑战。〔7〕233主要原因在于: 研究者和实践者多从不同视角理解数据素养,进而导致了数据素养概念的含糊和多义。技能视角下的数据素养以阅读、处理、分析、可视化等围绕使用与分析数据的能力为核心,从而构成以技能掌握为基础的一个动态循环过程。政治视角下的数据素养则认为,技能性数据素养试图悬置复杂且重要的政治问题,这不仅是对普通公众利益和权利的忽略,也使社会更不可能具有包容性和进步性。〔3〕6 因此,政治视角下的数据素养不再局限于将公众作为被动的数据贡献者和技术使用者,而是帮助他们成为有能力通过政府开放数据而实现民主参与的公众。在此意义上,数据素养是大数据时代公众民主参与能力的一种扩展。相比较对技能和民主参与的关注,伦理取视角下的数据素养转而立足于大数据时代由数据和算法所驱动社会中的人与技术的关系,聚焦于数据主体的隐私、知情同意权及自 主 性 等 问 题,试图探究人与技术的和谐共存。
基于上述原因,大数据时代数据素养概念的合法性争议主要有两个。
争议 1: 数据素养这一概念在大数据时代是否依然适用。存在两种观点,一种观点认为大数据时代数据素养这一概念仍然适用。持此观点的学者多从不同的学科和视角界定数据素养。例如,杰克·R·卡尔森( Jake R. Carlson) 认为,数据素养包括理解什么是数据,恰当地阅读各种图表,从数据中得出正确结论以及识别数据在何时被不恰当或错误的方式使用。〔8〕教育研究者艾伦·曼迪纳契 ( Ellen Mandinach) 则在上述定义基础上,结合教育领域的特点,将数据素养进一步扩展为将数据转化为信息进而最终转化为恰当教育实践的能力。〔9〕
另一种观点则认为数据素养这一概念在大数据时代是不充分的。麻省理工学院媒体实验室公民媒介中心的学者拉胡尔·巴尔加瓦( Rahul Bhargava) 认为,“数据素养”的概念在大数据时代是不充分的。具体而言,围绕着“使用和分析数据能力” 的各 种 数 据 素 养 概 念 在以下三个方面受到质疑〔3〕5 - 7 : 一是它们仅指如何从数据得到信息,而没有涉及经典知识层次理论的最终目标———智慧; 二是没有质疑数据收集水平,而是将数据作为给定的原材料一般静待提取和处理; 三是没有为政治和伦理的考量留下余地。因此,应从“数据素养”( data literacy) 概念走向“数据时代的素养”( literacy in the age of data) 。进一步而言: 现有的数据素养定义或是建立在传统信息素养和统计素养的基础上,或是关于如何转化数据以指导实践,因而不足以解决缺乏透明度、数据主体对数据采集的不知情、数据主体无法参与到对自身产生影响的数据驱动决策过程等社会与伦理等问题,进而需将数据素养定义扩展为大数据素养( big data literacy) 。其三个核心要点分别是: “理解关于你的行为和互动的数据是何时何地被收集的; 理解在大量数据分析中所使用的算法操作; 权衡数据驱动决策对个人和社会真实的与潜在的伦理影响。”〔10〕
争议 2: 伦理在大数据时代数据素养中的定位。不同学者对伦理与数据素养之间关系的考量并不一致。概言之,有两种不同的见解:
一是将伦理问题限定于数据素养的子集即道德地使用数据之中。持此观点的学者大多将数据素养概念局限在某一领域。如科研领域的数据素养分为理解数据、寻找与获取数据、评估数据、管理数据和使用数据五大核心能力。使用数据作为五大核心能力之一又包括数据处理、综合且适当地展示数据分析结果和道德地使用数据。在此,道德地使用数据所指涉的是数据使用者会引用数据源,如通过他人获得数据源时确保所使用的方法恰当、结果解释公正透明。〔11〕123 - 134
二是将伦理作为数据素养概念的背景和大前提,置于数据素养各子技能之上。持此观点的学者认为,数据素养是解决大数据时代参与差距、个人隐私安全、数据主体隐匿、数字鸿沟等政治与伦理问题的有效途径之一。例如,数据素养研究者安妮卡·沃尔夫( Annika Wolff) 明确地以伦理统帅数据素养概念 的 各 个 要 素。〔12〕15 大卫·克 鲁 索( David Crusoe) 则将伦理原则明确为安全与隐私。他认为, “数据素养是在安全与隐私的背景下关于数据是什么,它们怎样被收集、分析、可视化和共享的知识,以及对数据如何应用于产生利益或损害的理解。其中,安全描述了数据应怎样被存储以拒绝不希望出现的访问,隐私则描述了对谁能够看到关于数据的哪些内容的控制。因而,数据主体安全与隐私既不是大数据时代数据素养所包含五个要素之一,更不会成为其第六个要素,而是大数据时代数据素养得以可能的必要前提与背景。”〔13〕38 - 41在此意义上,数据素养本身就是伦理的要求。〔3〕17
三、大数据时代数据素养的主要类型
根据学者对数据素养阐释的不同视角和侧重点,大数据时代数据素养的类型可从总体上归纳为三种: 工匠型数据素养、参与型数据素养和交互型数据素养。
1. 工匠型数据素养: 数据工匠
工匠型数据素养仅关注与某一领域数据的使用和分析相关的知识与技能,它更多地具有工具性价值而较少涉及大数据所引发的社会与伦理问题。例如,科研数据素养主要包括在数据生命周期内访问、解释、批判性评估、管理、处理和道德地使用数据等能力〔11〕125,其主要目的是研究人员能将数据处理、数据管理、数据监护等融入科研工作流程。与科研数据素养密切相关的是图书馆数据素养,它以数字化监管能力为核心,主要包括了解不同组织背景与政治法律问题的管理能力〔14〕和专业技术能力。其中专业技术能力包括数据选择、保存和与用户交流的技能,数据处理、开发与存储方法等涉及计算机科学与工程专业知识,以及数据学科属性的专业知识。〔15〕图书馆员具备数据素养的目的在于承担大数据时代图书馆员的诸多新角色,如数据获取与权利咨询顾问,数据素养的教育者,研究数据生产者和使用者的人类学家,数据存储、管理与共享系统的制造者,数据管护者等。〔16〕
2. 参与型数据素养: 赋权与平等
参与型数据素养以开放数据为背景,以包容性社会为旨向,其核心目标是消除数据访问与数据素养之间的不平等,为每一个公众赋权。具体而言,参与型数据素养致力于克服数据使用技能与知识的不平等,从而使公众不仅能够平等地获取数据,更能将数据运用于个人所关注的当地问题的解决,同时能够让那些不懂数据语言的边缘人在政府创建规则与政策方面拥有更大的发言权,并从中受益。〔17〕52 - 53进一步而言,参与型数据素养以解决现实世界问题为目的,以道德地使用数据为前提,指的是能够从数据中提出问题、制定研究计划、收集与清洗数据、分析与可视化数据、解决问题并发现新的问题的能力。〔12〕14 - 17
由于公民已有的数据知识与技能水平参差不齐,因而,一方面参与型数据素养需超越数据素养与数据文盲的二元对立〔3〕16 ; 另一方面,参与型数据素养的界定也只是一个概念框架。换言之,依据公民在现实中需要使用数据解决问题的情景,参与型数据素养具有一个从简单到复杂的知识与技能层级。它们依次是: “能够理解关于数据的故事并讲述给他人的交流者; 能解释作为日常生活一部分的数据的阅读者; 能主动解决现实问题的数据创造者; 能将数据技能、沟通技能与专业知识深度结合的数据科学家。”〔12〕18
大数据时代国外数据素养研究: 争议、类型及实践形态相关论文期刊推荐:《计算机与网络》荣获2001-2002和2003-2004年度荣获河北省优秀期刊奖、1999-2000年度荣获信息产业部电子科技期刊出版质量奖、2003年度荣获河北省版权工作先进单位奖,中文核心期刊(1996,中文核心期刊(1992)