分类:电子论文 时间:2022-03-06 热度:858
摘 要 在当今这个信息爆炸的大数据时代,图书馆如何利用自身信息系统内的数据资源并通过数据分析挖掘产生新的效益,是我们应该重视与努力的方向。本文介绍了上海图书馆适应全媒体多平台的数据可视化展示的潮流,通过对图书馆业务数据多维度分析、采集与挖掘,利用数据可视化方法多平台展现图书馆自身信息系统内的大数据资源,藉此进行图书馆创新型数据展示服务的应用。
关键词 数据可视化 数据展示 全媒体
0 引言
当今的社会正处于一个信息爆炸的时代,随着图书馆信息技术的发展,图书馆内部产生了大量的信息,表现为海量的统计数据。在保障用户隐私的基础上,上海图书馆一直在尝试激活系统中沉睡的海量读者数据和读者信息行为数据,发挥它们的价值。
“上海图书馆、上海市中心图书馆即时数据展示屏项目”(以下简称“展示项目”)正是基于对海量数据的分析与挖掘,利用数据可视化手段进行创新服务的一次尝试应用。“展示项目”采用新颖的多媒体交互展示方式展现上海图书馆、上海市中心图书馆阵地服务、流通业务等的实时数据情况,通过不同的载体将图书馆一些统计数据以创意展示的形式提供交互展示服务。
1 数据可视化
1.1 数据可视化的概念、作用
随着互联网的发展,海量信息和数据得以发布,并借助网络迅速大范围得传播。相关业界的领先者们多次预言,大数据(Big Data)将引发新的“智慧革命”:从海量、复杂、实时的大数据中可以发现知识、提升智能、创造价值 [1]。数据可视化(data visualization)是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。数据可视化是可视化技术在非空间数据领域的应用,他改变了传统的通过关系数据表来观察和分析数据信息的方式,使人们能够以更直观的方式看到数据及其结构关系,发现数据中隐含的信息。数据可视化的基本思想是将数据库中的每个数据项作为一个图形元素表示,例如,点、矩形条、扇形片等,大量的数据构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析 [2]。
1990 年以来,数据可视化的迅速发展和互联网的发展联系在一起,面对海量信息的互联网,信息传播媒介形式的改变和快节奏的生活方式,使人们的阅读习惯由“阅读”向“浏览”转变,人们更依赖于视觉刺激直观地对信息进行快捷、准确捕捉。[3] 从商业到医疗,从政府到教育,处处可见数据可视化的身影。无论是哪种类型,可视化的宗旨都是以简洁易懂、省时高效的方式来呈现数据内容。[4]
1.2 数据可视化在国外图书馆的应用
西雅图公共图书馆(Seattele Public Library, SPL)的“Making Visible the Invisible”的项目 [5] 采用 6 个 LCD 的屏幕拼接组成一个大屏幕,其循环展示的可视化数据内容分别是:第一屏,显示该馆当天和前一小时所有借阅数量、杜威分类借阅数量、非杜威分类借阅数量、图书借阅、DVD、CD 借阅数量,屏幕背景颜色每天变化一次。第二屏,显示过去一小时的该馆所借载体的标题、借阅的时间、书名和分类号,同时空间上按杜威分类法通过连线的方式显示所借载体的远近程度和关系。第三屏,显示过去一小时该馆借阅图书的书名。第四屏,显示当天该馆借阅载体的关键词 词频指标和马克相关关键词,根据杜威分类次序和不同的颜色编码在屏幕空间上绘制展现出所借图书的关键词图谱。这套可视化方案突出了即时性、动态性、真实性、准确性及持续性特征。
2 全媒体时代的可视化整体规划
普通人越来越多的开始阅读数据信息,形成了庞大的“数读”族群,同时,进行数据可视化应用的设计人群也迅速被关注,促进数据可视化的视觉表现,为“数读”族群提供了易于阅读与优美的视觉体验。全媒体多平台的数据可视化展示大数据时代不仅处理着海量的数据,同时也加工、传播和分享它们。数据可视化在不知不觉之中已经遍布我们生活的每一个细节。人们开始对单调保守的讲述方式失去兴趣,期待更加直观、高效的信息呈现方式,数据可视化正好提供这样的需求。
本项目面对图书馆资源产生的复杂或大规模数据,比如对象数据、用户数据、运营数据等(见图 1),如何利用这些数据,用什么方式和平台展示给读者,发挥其价值正是我们所要研究的方向。“展示屏”以读者最感兴趣的图书流通数据为主要采集对象,从人、书、地三个实体理解数据。通过数据采集、 数据分析、数据治理、数据管理、数据挖掘在内的一系列复杂数据处理,然后由设计师设计一种表现形式,是立体的、二维的、动态的、实时的,还是允许交互的。然后由工程师创建对应的可视化算法及技术实现手段。包括建模方法、处理大规模数据的体系架构、交互技术、放大缩小方法等。动画工程师考虑表面材质、动画渲染方法等,交互设计师也会介入进行用户交互行为模式的设计,最后通过不同的终端展现出来。展示的手段突破了物理空间的限制,规划采用了所谓“大中小”结合的展示模式呈现给使用者,其中大屏是指在上海图书馆“创·新空间”主题阅览室内的大屏,中屏指的是普通的电脑屏幕,小屏指的是 IPAD 平板电脑和智能手机屏,通过不同的载体将图书馆一些统计数据以创意展示的形式提供交互展示服务。
本项目的总体建设目标:运用新技术,全媒体全平台,为读者提供一个全新的数据阅读体验,为管理部门提供新颖的数据发布展示,为馆所领导提供服务管理的决策支持辅助信息,形成创新公共文化服务的有效尝试,贴合读者的实际需求从而吸引更多的读者。
3 上海图书馆数据展示项目的设计
3.1 可视化展示系统设计框架
可视化展示系统包括数据采集、数据管理、数据分析与挖掘、数据展现等几个部分配合实现的。数据采集模块通过数据转换、数据清理、数据抽取三个子模块,分析计算后将采集信息写入数据库。数据管理模块通过数据组织、数据存储构建信息资源的保存体系,确保现时产生的各种数字资源都能得到保存且可以随时提取。数据展现模块通过数据分析与挖掘取得分析数据资料,以找出不同的客户或市场划分,分析出读者喜好和行为,做出归纳性的推理,从中挖掘出潜在的模式,然后根据需要进行加工计算和判别,得到希望展示的数据和对应图形界面上的坐标颜色等可视化信息,最后用专业设计手段显示在不同的终端界面上,如图 2 所示。
3.2 数据采集与分析
挖掘一条原始的流通数据采集信息在人、书、地三个实体的基础上,加上时间构成。数据采集的范围包括图书馆自动化管理系统、读者信息管理系统和图书馆读者门禁系统。由于图书馆自动化管理系统内的图书编目不涉及封面,为了可视化呈现更具体、直观的效果,我们与第三方机构豆瓣网合作来自动获取图书封面,借助 ISBN,通过开放接口(API)的方式进行数据交换,自动采集图书封面数据。
大数据分析面临的另一个问题就是隐私性。在综合考虑数据安全性、读者隐私的前提下,上海图书馆自主研发了一套数据自动采集系统,利用该系统自动采集,隐去读者标识,在统计分析的基础上,通过提供 WebService 接口的方式,形成一套标准的数据输出。我们现在每天采集流通信息 120000 册次以上,每分钟采集一次数据,每天的数据采集完毕后,进入历史库,以日期为单位进行切片保存。
有了以上采集数据的基础,我们就可以通过研究目前数据的趋势,分析未来趋势,发现与正常期望不相符的数据,发现背后的原因和结论。
3.3 数据输出
经 过 整 序 处 理 的 数 据, 通 过 标 准 的 WebService 接 口 输 出, 数 据 接 口 同 时 提 供 XML、JSON 两种格式的输出结果。由于 XML 的结构规范要求严格,而书名等文字信息中可能包含一些特殊的字符格式,这些字符可能会导致程序无法正确解析整个 XML 文件,因此采取 JSON 返回方式具有更高的稳定性。[6]JSON 是一种轻量级的数据交换格式,文件不具有明显的强结构特征。
在复杂的 JSON 对象中,因为它不像 XML 文件用规范的标签形式标记有效的内容,虽然对于人来说较难整理,但因为 JSON 文件结构简单,因此通过电脑分析 JSON 文件具有强大的处理能力。另外,JSON 文件中因为不再具有用于标记内容属性的说明性标签,因此相比承载相同内容的 XML 文件,返回文件占用空间更小,也更适合作为海量数据获取中的文件传输形式 [6]。
3.4 可视化的前端展示技术
前端展示指的是展示的前台部分,包括展示的表现层和结构层。因此前端技术一般分为前端设计和前端开发,前端设计一般可以理解为展示项目的视觉设计,前端开发则是 展 示 项 目 的 前 台 代 码 实 现, 包 括 基 本 的 HTML、 CSS、 JavaScript/ajax 以及目前比较高级的 CSS3、HTML5 和 SVG 等。目前数据可视化前端展示主要以 Web 展示为主,除了 HTML/ CSS/Javascript 之外,我们还可以运用 Flash 等技术实现我们的设计,表 1 是常用的前端技术特性对比。
综合上述分析,采用 HTML5+css3 构建互动可视化项目是较为适合的方案,它是互联网前端技术发展的主流方向,其开放性、各种丰富的 Javascript 工具库为开发者提供了各种便利,降低了开发的难度。
本展示项目中,我们最早采用 Adobe Flash 开发技术,完成了项目的前端展示开发,随后由于 Flash 不适合触摸设备,技术封闭,为了适应跨平台全媒体的展示需要,最后我们采用了 HTML5+CSS3 技术,对该项目进行了升级,利用 HTML5 的跨平台技术的优势,在大中屏中展示服务中,完成了 HTML5 版本的开发工作。
为了适应移动展示的需要,我们在小屏数据展示项目中,我们采用了苹果公司的 Xcode 开发工具,开发了苹果手机 APP 版本“馆长工作站”,该项目采用了 Cocoa 开发技术,Cocoa Framework 简 称 Cocoa, 它 是 Mac OS X 上 的快 速 应 用 程 序 开 发(RAD, Rapid Application Development) 框 架,一个高度面向对象的(Object Oriented)开发框架。该项目适用的移动设备是苹果手机,运行环境需要 IOS 系统。
3.5 全媒体多平台的数据可视化展示
大数据时代不仅处理着海量的数据,同时也加工、传播、分享它们。不知不觉中, 数据可视化已经遍布我们生活的每一个细节。例如我们手中的智能手机, 既是数据采集工具, 同时也是一个多媒体的数据可视化展示平台。人们开始对单调保守的讲述方式失去兴趣, 期待更加直观、高效的信息呈现方式, 数据可视化正好弥补这项需求。在智能手机平板电脑和车载电脑等平台日渐普及的当下, 新的交互手段将成为数据可视化的趋势。[7] 诚如上海图书馆馆长吴建中在《世博启示录》中指出的那样: “范式转换指的是一种革命性的变化,不是单纯的相加或减少。今天的图书馆正处在范式转换过程中,正在从一个纸质媒体时代进入一个全媒体时代。这两种模式的图书馆之间不只是量的差异,而是质的根本变化。”[8]
上海图书馆、上海市中心图书馆即时数据展示屏项目中,我们开发了适合不同屏幕不同平台的的数据展示版本,以适合全媒体多平台的数据可视化展示的潮流。“展示项目”可以在电视机大屏、普通的电脑屏幕,IPAD 等平板电脑和手机客户端上都可以以创意展示的形式交互展示出图书馆的各类业务数据和读者信息。
为了更直观地展现本项目不同终端的展示模式,本文用表格对比的方式呈现此内容(见表 2)。
3.5.1 电视机大屏
上海图书馆将馆内一个原有的 800 平方米的专利标准检索工具阅览室改造成以“激活创意、知识交流”为主题概念的全新开放式的创意设计展览空间(Idea Display Space) ,于 2013 年 5 月 27 日正式启用。[9] 该项目展示屏幕位于改建后的创意设计展览空间主咨询台上方,利用可视化技术将分析结果展现在 3 个 46 寸 LCD 的屏幕上。
第一屏显示上海图书馆即时到馆流通人数,图 3 所示,最醒目的右侧的圆圈内,显示的今日到馆总人次的数字,该数字会实时动画跳跃变化,展示了阵地服务的热度。而左下角区域又利用上海图书馆楼层平面图的形状,展现不同楼层今日进入读者数的变化,娓娓道来上海图书馆阵地服务的情况,屏幕左上方显示前一小时到馆人次和前一天到馆总人次,分别用不同的颜色加以区分。务时间为横轴,每 5 分钟采集汇总的借还数据的柱状图会动态绘制,表达了流通量随时间流逝的变化情况,配色采用了对比强烈的绿色和橙色,在冷色调的蓝色背景上,跃动效果感强,而衬底的灰色图形则显示了前一日的流通情况,右侧显示的上海图书馆 上海市中心图书馆的书刊借出总册次和还书总册次。通过左上的图标按钮,可以切换到整个上海市地图界面,通过选择相应的图书馆,可以实时显示该图书馆的书刊流通即时数据。
第三屏显示上海图书馆、上海市中心图书馆今日借出 / 归还图书封面,如图 5 所示,该屏呈现的是当前正在外借 / 归还书刊的图书封面,不断向外扩散 / 向内聚集的图书封面,极具视觉冲击力。
3.5.2 普通的电脑屏幕
为了解决如何将数据展示大屏三屏在普通电脑一个屏幕上显示的问题,我们在屏幕的右侧增加了一个页面导航按钮,点击 + 号,就会动画弹出导航菜单,便于使用者在各个数据展示页面之间进行快速的切换。这样在开发上我们做了很小的改动,既满足了页面的美观,也保留了原有系统的全部功能,效果见图 6。
3.5.3 IPAD 平板电脑
由于前端展示技术我们采用了 HTML5 的开发技术,利用其跨平台的优势,在后台接口数据不变的情况下,我们在 PC 的版本上,对页面做了显示尺寸的优化,以满足 IPAD 平板上的展示效果,经过简单的页面改写后在平板电脑上就可以正常进行数据可视化的展示服务了。
3.5.4 智能手机
不同屏幕下,显示尺寸的不同,展现的方式的也有所不同,在数据展示设计开发中都需要设计人员来综合考虑。原来在书刊流通即时数据中展示的飞入和飞出的图书借还封面为 JPG 格式,考虑到移动用户数据流量的问题,移动用户的碎片化应用,在移动环境下调用 JPG 图片比较消耗数据流量,因此我们在手机 APP 版本开发中,我们采用了将文字显示图书信息替换图片封面显示的方法,加快了用户调用页面的时间,节约用户的数据流量,效果如图7所示。
此外,手机 App 展示服务版本中,我们还增加了业务统计报表的功能,通过条形图形式,在智能手机上可以实时呈现图书馆近五年的业务统计数据。原来图书馆业务统计工作是运用统计学原理对工作中的各种现象、状态等进行量化描述与分析研究, 出来的是一个个报表数字,而通过可视化分析展示则使枯燥难懂的表格以形式活泼的图形展现出来, 让决策者一目了然。
4 结论和展望
数据可视化的主要目的是借助图形化手段,更高效和清晰地交流信息。但这并不意味着数据图表会因实用而枯燥,因华美而繁复。通过了解业务,理解数据,把握设计与功能之间的平衡,设计让思想能有效地传递,实现可视化信息服务传播信息的主要目的。利用可视化的方式来展示从数据中抽取出的信息,通过给观众讲故事的形式,使读者能在数字之外有所启发 [10]。本系统展示应用也还存在很多可以进一步改善的地方,比如页面展示如何做到全平台自适应,如何有效地展示更多的读者行为信息和业务统计信息等这些问题还有待进一步研究。未来我们也打算在上海图书馆的总咨询台入口处,做一个 3×3 的数据可视化大屏,将信息和数据即时展示给每一位到馆的读者,利用新的可视化技术手段,在不断深入对采集数据的分析的基础上,数据可视化“展示屏” 应用服务还能讲述更多的故事。——论文作者:赵 斌
本文来源于:《图书馆杂志》(月刊)创刊于1982年,由上海市图书馆学会与上海图书馆合办。设有:理论探索、工作研究、新技术应用、各类型图书馆、海外眺望、文史天地等栏目。