促进数据、信息和知识融通 ———2020年JCDL年会论文综述

时间：

　　[摘要][目的/意义]通过对2020年国际数字图书馆联合会议(JointConferenceonDigitalLibraries,JCDL)的录用论文进行整体回顾，梳理与分析当下数字图书馆的研究内容与研究发现，为我国相关领域学者把握学科前沿提供参考。[研究设计/方法]采用文献综述法，对本届年会论文所反映的研究热点与前沿进行归纳总结与提炼。[结论/发现]本届年会覆盖研究主题广泛，呈现出与数据科学协同合作的趋势，聚焦于用户信息活动的探索、未来图书馆的建设、细粒度化与精准化智慧服务的提供等方面，具有较明显的跨学科特性，且在新型冠状病毒肺炎的公共卫生危机下更加关注生物医学信息学的价值。[创新/价值]揭示了当前图书情报与信息科学的研究热点与趋势。

　　[关键词]国际数字图书馆联合会议数字图书馆图书情报学数据科学用户研究

　　1引言

　　ACM/IEEE数字图书馆联合会议(JointConferenceonDigitalLibraries,JCDL)是数字图书馆领域历史最悠久、学术性和影响力最大的顶级国际会议。

　　JCDL由国际计算机学会(ACM)和电气电子工程师协会(IEEE)联合主办，与欧洲数字图书馆会议(ECDL)、亚洲数字图书馆国际会议(ICADL)并称为全球数字图书馆研究领域的三大国际学术会议，重点讨论数字图书馆以及相关的技术、实践和社会问题[1]。

　　首届JCDL于2001年8月24日至28日在美国弗吉尼亚州罗阿诺克举办。自首届举办以来的二十年间，JCDL吸引了来自世界各地涉及数字图书馆研究与实践的学科和专业的人士参加，包括计算机科学、信息科学、图书馆学、档案科学与实践、博物馆研究与实践、医学、社会科学和人文科学等，为各国专家学者提供了一个多学科交融、思想交锋的平台，展示国际信息管理研究的最新前沿进展。

　　2020年8月1日至8月5日，由武汉大学信息管理学院和西北大学公共管理学院主办的第二十届JCDL会议在湖北武汉举行，这是JCDL首次在亚洲举办。由于新型冠状病毒肺炎(COVID-19)在全球肆虐，与以往历届JCDL会议不同，本次JCDL会议首次全部虚拟化，以线上形式召开。本次会议的主题为“加快创新、可持续发展与转型(SpeedierInnovation,SustainableDevelopment,SocietalTransformation)”，在COVID-19背景下该主题显得更加迫切与真实，同时会议的成功召开亦为武汉大学信息管理学院百年院庆系列活动书写了浓墨重彩的一笔。

　　本文主要对本次年会相关论文的内容进行分析和总结，重点介绍了各国学者的最新研究进展，探讨了数字图书馆领域的发展趋势，以期为国内图书馆领域的学者提供帮助，全面了解本次年会及其最新研究趋势，掌握国际数字图书馆研究领域的前沿热点问题。

　　2年会概况

　　2.1收录论文及作者国家(地区)分布

　　本届年会共收到来自5大洲35个国家的980名数字图书馆及相关领域的专家学者的380余篇论文，会议来稿数量为历届之最。论文保持JCDL一贯以来的严格录用标准，经程序委员会审查收录了长篇研究论文(FullResearchPaper)33篇(录用率31.1%)，短篇研究论文(ShortResearchPaper)28篇(录用率31.1%)，以及海报(Poster)40篇和演示(Demonstration)8篇。虽身处不同时区，但全球各地的与会者依然对会议保持了高度热情，共有来自全球20余个国家和地区的约380名与会者线上参会。

　　本届年会的作者国家(地区)分布如表1所示，相较于2019年，来自中国、美国、印度和德国的学者仍然是年会的核心。其中来自印度的学者有上升趋势，来自中国(含香港、澳门和台湾地区)的学者作为本届年会的主力军，其数量从2019年的43位增长为118位(占比32.69%)，充分体现了中国在图书情报与信息管理研究与人才培养方面日益国际化的发展趋势。另一方面，合著关系数据表明中国在领域内的学术合作对象相对局限，需加强跨国合作的广度和深度，增进学术交流发展和国际影响力提升。

　　2.2年会相关学术活动

　　在为期5天的议程中，除了18场论文会议(PaperSession)、2场专题讨论会(Panel)、5场培训会(Tutorial)、7场研讨会(Workshop)、1场海报和演示会议、1场博士生论坛(DoctoralConsortium)外，本届年会新增了实践案例(PractitionerTrack)模块。这一创新为图书馆、档案馆和博物馆的从业者和出版商以及数字内容行业的合作伙伴提供了学术舞台，展示了与数字图书馆实践和服务相关的前沿、探索性或有争议的想法和实践。

　　2.3收录文献关键词分布

　　对2020年JCDL文献的关键词分析显示(图1)，本届年会关注大数据时代下的数字图书馆如何建设。最高频次的关键词是DigitalLibrary(数字图书馆)和BigData(大数据)。除此之外，DeepLearning(深度学习)，WebArchiving(网络资源存档)，Bibliometrics(计量学)，DigitalPreservation(数字保存)均为出现频次较高的关键词。从关键词分布来看，低频关键词占主要部分，关键词间的频次差距较小，覆盖研究主题宽广，具有较明显的跨学科特性。

　　结合关键词分析与文献内容分析,本届年会收录文献涵盖了与数字图书馆有关的广泛主题，展现了核心研究领域、传统研究领域和新兴研究领域的研究进展,为数字图书馆的创新与应用创造更多技术形式，为图书馆体系结构未来发展提供建议。下文将从互联网技术下的未来数字图书馆探索、新环境下以人为本的用户研究探求、大数据背景下的信息计量与科学评价优化三个维度综述本届年会在不同研究领域所取得的最新进展。

　　3互联网技术下的未来数字图书馆探索

　　3.1数字图书馆服务———提高现代公共服务的普及程度和便利性

　　互联网的出现和相关技术的发展,不仅增加了信息量,也改变了传统图书馆和信息服务的性质。数字图书馆已成为现代数字信息系统的重要组成部分。学术数据集和在线学术文献检索平台,如IEEE/IEE电子图书馆、Wiley在线图书馆、施普林格LINK、谷歌学术检索等,可以视为现代数字图书馆的代表。本届年会，学者们研究的图书馆范围不仅限于存储库，还包括新形式的信息机构、具有各种数字内容的领域信息系统、数据项目与信息媒体等。

　　(1)着眼未来数字图书馆构建，加快传统服务改进与转型。Fox[2]强调了5S框架(Societies,Scenarios,Spaces,Structures,Streams)对数字图书馆搜索、浏览、推荐和可视化等服务的建立与应用的简化。Zhou[3]探讨数字图书馆的数字生命周期程序，期望建立跨学科研究的平台和大型聚合数字内容的存储库，确保数字图书馆的广大用户能够有效地获取不同领域和平台的聚合内容。Liao[4]对图书馆智能服务的核心学术理论进行梳理，整合为图书馆智慧服务核心要素的理论框架，有助于数字图书馆传统服务向创新驱动发展转型。

　　(2)加强数据项目建设，开辟应用支持新途径。匹兹堡大学图书馆系统(ULS)的东亚图书馆(EAL)启动了当代中国村落数据(CCVD)项目[5]，建立了一个对中国人文和社会科学研究具有重要价值的数据集，包括政治、经济、社会学、环境科学、历史和公共卫生等领域的定量和定性数据。Jean-Caurant[6]的NewsEye项目访问和调查了大量多语言报纸数据，促进学者和公众对历史报纸的研究。Ostendorff等人[7]致力于开放式法律数据平台的开发，为透明处理和开放访问法律信息提供支持。

　　(3)重视医疗数字化，探索数字图书馆医疗健康服务。Mohd[8]展现了基于医疗保健的COVID-19相关出版物如何随着时间的推移而变化，服务医疗一线、科学家、立法者等利益相关者对抗病毒。Wawrzinek等人[9]为药物与疾病之间的复杂关系生成可直观理解的短句解释，能够在药物再利用等医疗任务中发挥核心作用。Zhenni等人[10-11]探讨了基于电子病历的疾病诊断、预测和筛选等热点问题,通过健康档案的数字化、网络化与信息化提高护理质量。

　　(4)聚焦信息媒体，协助个人和社会形成意见与决策。社交媒体账户已逐渐成为普及信息和公众沟通的主要平台，同时也带来了假新闻和媒体所有权集中等社会问题。Spinde[12]团队创建了具有政治倾向标签的媒体数据集，并借助可视化手段传达媒体偏见，帮助新闻消费者意识到偏见的存在。Hamborg等人[13]通过词汇选择和标签(WCL)分析偏见的目标依赖情绪，有助于对新闻文章倾向性和真实性的正确认识。

　　相关期刊推荐：《图书与情报》(双月刊)创刊于1980年，是由甘肃省图书馆、甘肃省科技情报研究所、甘肃省图书馆学会、甘肃省科技情报学会合办的专业刊物。设有：理论园地、学术方阵、文化沙龙、信息法学、实践平台、人物与书林、珍藏撷英、图苑时空等栏目。

　　3.2交叉融合图书馆开发技术创新———促进数字资源的长期保存和长期可用性

　　大数据具有大量、高速、多样、低价值密度、真实性的特点。管理由不同来源聚合的多模式数据集，以确保数字资源的可用性，是一个日益严峻的数据管理挑战。新一代信息技术如机器学习、深度学习，特别是语言技术与数字图书馆的融合，已成为数字图书馆研究领域和本届年会学者的重点研究课题。

　　(1)将网络资源存档作为大数据源进行统计和分析研究的势头正稳步上升。相较于传统网络档案，如何从网络资源存档数据中识别出高质量的文档被Patel等人[14]关注，以对原始数字材料提供更有意义的访问。Adewoye等人[15]提供了一种使用图像查询在网络资源存档中快速找到相关图像的方法。Ruest等人[16]介绍了始于2017年的档案释放项目，该研究成果也适用于推特、电子邮件、电子文档和演示文稿，以及大量的原始数字记录。WARC是Web存档广泛使用的文件格式，Wang等人[17]的研究表明其对批处理工作量具有重大的性能损失，呼吁网络资源存档社区考虑用更有效的网络资源存档格式代替WARC。

　　(2)增强更多样化数据集成的可伸缩性与灵活性，使多模式数据能够符合与主流数字图书馆类似的馆藏要求。不同来源的数据可能包含关于实体的不明确、互补或重复信息，消歧是分析和探索馆藏的必然选择之一。Linhares等人[18]描述了一个可实现多语言消歧的跨语言命名实体链接(XEL)系统，能够适应任何源语言对的跨语言扩展。Jhawar等人[19]对比随机森林和决策树的性能，研究基于集成分类算法的PubMed著者姓名消歧。Repke和Krestel[20]结合数字图书馆文本和网络的二元性，提出了一个可伸缩的多目标降维算法MODiR，在二维画布上实现大型文档集合的可视化。

　　(3)促进数字图书馆语义上的可持续性。本届会议专门开展了主题为“语义可持续数字图书馆的概念模型与本体模式”的讨论会[21]。在会议中，卢布尔雅那大学MajaŽumer、武汉大学XiaoguangWang教授、四川大学WeiFan教授、雪城大学JianQin教授对如何促进数字图书馆语义上的可持续发展进行了探讨，并在实践社区，特别是在瞬息万变的数字社会和新兴应用领域中达成共识。

　　(4)通过分类技术促进对知识的理解与组织。数字图书馆得益于文本分类策略的使用，除了标准分类，本届年会学者拓展探究了短文本小数据集[22]，层次分类[23-24]，甚至非文本内容(如数学元素)的分类任务[25-26]，针对特殊问题设计适合的分类策略，有助于促进数字图书馆下游文档管理任务，如信息检索的执行。

　　3.3数字人文———通过数字化手段开放和保护世界文化遗产的全球趋势

　　在数字时代，数字人文已经成为运用数字媒体和计算机技术对人文资料进行发现、保存和解读，以便更好、更深入地了解当前社会的术语。而数字图书馆已经成为数字人文学科(DigitalHumanities，DH)和文化分析研究的重要实验室。本届年会的学者也关注着图书馆在数字人文背景下的数据组织与重构服务，并通过多元化方法和数字化手段，如数据扩充、神经网络等，对人文历史资源展开研究。

　　(1)改善数据集数字化输出与保存质量。尽管数字图书馆馆员和学者都提倡基于数字图书馆规定的DH研究，但在部署DH研究的数据集时仍然存在许多问题。现代OCR技术的局限性限制了电子数据转化质量，Nguyen等人[27]采用深度学习的方法，在OCR纠错方面取得了大幅改进。Hu等[28]指出文献数据集中普遍存在重复文献、数据分布不均、OCR错误等问题，建议数字图书馆的利益相关者标记并解决这些局限性，以提高数字人文研究背景下数据集的代表性和可用性。

　　(2)文化遗产数字图书馆的需求与主流数字图书馆技术的发展同步。本届年会关注书法、文学、民族音乐、篆刻[29]等传统文化及历史人物作品的保存和欣赏。文化遗产由于数据量小的特殊性，面临着网络训练的问题，Pang等[30]提供了一种以字形和笔画特征扩充书法图像数据的方法，最终搭建了数字书法知识服务系统。Chudy等人[31]提出了基于dLibra数字图书馆的传统音乐研究平台MIRELA，可以支持音乐内容的检索。Adak等人[32]通过将甘地文学数字化并构建时空社交网络，在Gandhipedia人工智能门户网站形象地展示了圣雄甘地的生平事迹。虚拟现实(VR)技术被推荐为呈现文化遗产信息的一种创新媒介，Ng等人[33]通过对用户报告和眼动数据的分析，表明VR内容中文本注释有助于促进用户对文化遗产的理解，探讨数字图书馆中文化遗产VR展示的最佳实践。

　　4新环境下以人为本的用户研究探求

　　4.1精准化理解用户搜索行为———设计面向通用访问的数字图书馆

　　数字图书馆已成为用户检索信息的关键信息检索系统。目前的搜索系统在为用户寻找相关信息方面做得很好，但如何设计出能更好地支持用户完成任务的搜索系统，尤其是当用户面对复杂的搜索任务时，还需要更多的研究[34]。本届会议中Huang[35]与Wang团队[36]采用比较研究的方法，分析任务的主、客观难度对用户搜索行为的影响，其他学者们从用户学习过程和个性化的角度进行了研究。

　　(1)用户信息搜索中的学习行为及过程探究。信息检索并不是一个寻找特定问题答案的过程，而是一个探索和学习的过程[37]。为了帮助提高知识获取率，Zhang等人[38]将参与者绘制的思维导图作为表示用户知识的工具，从词汇的视角研究用户在信息搜索过程中的知识使用和变更，结果表明用户的先验知识通过提供解决问题的结构和制定查询的词汇库来影响信息搜索。Liu等人[39]通过对不同领域用户的定性研究，提出了探索性搜索中知识构建过程的概念模型，该模型基于知识节点、知识社区和知识网络等一系列核心过程。

　　(2)将个性化技术用于用户信息搜索领域，提高信息搜索效率。随着个性化技术的进步，基于偏好的web搜索成为可能。Hu等人[40]分别基于关联规则与二部图方法开发了两种个性化图书推荐原型，将自动个性化推荐服务整合到面向青少年读者(尤其是小学学生)阅读的在线学习平台中。然而个性化技术也会导致泡沫过滤，不断向用户提供强化先验信念的信息，阻碍学习过程。针对此问题，Yamamoto等人[41]研究了一个网络搜索界面PESONALITYFINDER，能够将个性化程度可视化，揭露和管理隐藏在个性中的网络搜索结果，旨在使用户意识到网络搜索结果往往带有偏见，进而推动关键信息搜索。——论文作者：吕思妤吴丹