摘要:在简化数据量和降低大数据应用的复杂性中,大数据分析发挥着关键的作用。可视化是其中一个重要的途径,它能够帮助大数据获得完整的数据视图并挖掘数据的价值。大数据分析和可视化应该无缝连接,这样才能在大数据应用中发挥最大的功效。这篇文章将介绍一些常规的数据可视化方法以及在大数据应用领域突破常规的可视化手段,也会讨论大数据可视化带来的挑战,同时介绍大数据可视化领域新的方法、应用程序以及其技术的进步。
关键词:大数据 可视化 交互式可视化 虚拟现实 网络 云计算 信息技术 电信系统
一、引言
数据可视化是将数据以不同形式展现在不同系统中,其中包括属性和变量的单位信息[1]。基于可视化发现数据的方法允许用户使用不同的数据源,来创建自定义分析。先进的分析集成了许多方法,为了支持交互式动画在台式电脑、笔记本电脑或平板电脑、智能手机等移动设备上创建图形桌面[2]。根据调查,表1[3]显示了数据可视化的好处。
表1.数据可视化工具的好处
对于可视化有以下几点建议[4]:
(1)不要忘记元数据。这种关于数据的数据有很强的说服力;
(2)参与性很重要。可视化工具应该是互动的,用户参与非常重要;
(3)鼓励用户互动。静态数据工具在发现数据方面无法做到像动态数据工具那样好。
大数据是大容量、高速度并且数据之间差异很大的数据集,因此需要新的处理方法来优化决策的流程。大数据的挑战在于数据采集、存储、分析、共享、搜索和可视化[5]。可视化被认为是大数据的“前沿”,但它也有许多误区[4],比如:
1、“所有数据都必须可视化”:不要过分依赖可视化,一些数据不需要可视化方法来表达它的消息。
2、“只有好的数据才应该做可视化”:简便的可视化可以便于找到错误就像数据有助于发现有趣的趋势一样。
3、“可视化总是能做出正确的决定”:可视化并不能代替批判性思维。
4、“可视化将意味着准确性”:数据可视化并不着重于显示一个准确的图像,而是它可以表达出不同的效果。
可视化方法可通过创建表格、图标、图像等直观地表示数据。大数据可视化并不是传统的小数据集。一些传统的大数据可视化工具的延伸虽然已经被开发出来,但这些远远不够。在大规模数据可视化中, 许多研究人员用特征提取和几何建模在实际数据呈现之前大大减少数据大小。当我们在进行可视化大数据时,选择合适的数据也是非常重要的[5]。
本文的目的是通过介绍传统可视化方法及其在处理大数据时的扩展方法,来展现大数据可视化的前沿技术。同时讨论大数据可视化的挑战,并其取得的进步。
在研究过程中,笔者首先寻找了近几年通过大学图书馆系统发表的数据可视化相关论文。此阶段笔者主要总结了传统的数据可视化方法和该领域的新进展。随后笔者搜索了相关大数据可视化的论文,因为大数据是一个较新的领域,所以大多数的论文是在过去三年里发表的。同时笔者发现大多数传统的数据可视化方法并不适用于大数据,用一些从传统的可视化中发展而来的方法来处理大数据也是远远不够的。笔者着重关注大数据可视化的新方法、技术的进步和大数据可视化的工具开发以及随之而来的挑战。
二、常规数据可视化方法
许多传统的数据可视化方法经常被使用,比如表格、直方图、散点图、折线图、柱状图、饼图、面积图、流程图、泡沫图表等以及图表的多个数据系列或组合像时间线、维恩图、数据流图、实体关系图等。此外,一些数据可视化方法经常被使用,却不像前面那些使用的广泛,它们是平行坐标式、树状图、锥形树图和语义网络等[1]。
平行坐标被用于绘制多维度个体数据。平行坐标在显示多维数据时是非常有用的。图1就是平行坐标;树状图则是一种有效的可视化层次结构方法。每个子矩形的面积代表一个测量,而它的颜色常被用来代表另一个测量的数据。图2显示了一个选择流媒体音乐和视频的树状图,是在一个社交网络社区获得的数据;锥形树图是另一种显示分层数据的方法,如三维空间中的组织体,它的树枝是锥生长的形式;语义网络是一个表示不同概念之间的逻辑关系的图形。它生成有向图,组合节点或顶点,边或弧,并在每个边上做标记[1]。
图1:平行坐标
图2:用树图跟踪查看社交网络流媒体服务的选择
可视化并非仅仅是静态形式,而应当是互动的。交互式可视化可以通过缩放等方法进行细节概述。它有如下的步骤[1]:
1、选择:交互式根据用户的兴趣选择数据实体或完整的数据集,以及它的子集。
2、链接:在多个视图找到有用的信息,如图3所示。
3、过滤:帮助用户调节显示的信息量,减少信息数量并且专注于用户感兴趣的信息。
重排或再映射:空间布局是最重要的视觉映射,重排信息的空间布局对产生不同的见解非常有效。
图3:直方图(上)和地理图(底部)的数据集之间的互动和连接
新的数据库技术和前沿的网络可视化方法可能是减少成本的重要因素,也有助于完善科研的进程。随着网络时代的到来,数据时时都在更新,大大减小了可视化的时效性。这些“低端”可视化通常用于商业分析和政府数据的开放,但它们对科研没有太大的帮助。许多科学家使用的可视化工具都不允许连接这些网络工具[8]。
三、大数据可视化面临的挑战
拓展性和动态分析是可视化的两个最主要的挑战。根据数据量的大小,表2显示了静态数据和动态数据的研究现状。对大型动态数据,原本A问题的答案和B问题的答案也许在同时应对AB两个问题时就不适用了。
表2:可视化分析的研究现状和挑战
基于可视化的方法迎接了四个“V”的挑战,并将它们转化成以下的机遇[2]。
?体量(Volume):使用数据量很大的数据集开发,并从大数据中获得意义。
?多源(Variety):开发过程中需要尽可能多的数据源。
?高速(Velocity):企业不用再分批处理数据,而是可以实时处理全部数据。
?质量(Value):不仅为用户创建有吸引力的信息图和热点图,还能通过大数据获取意见,创造商业价值。
大数据可视化的多样性和异构性(结构化、半结构化和非结构化)是一个大问题。高速是大数据分析的要素。在大数据中,设计一个新的可视化工具并具有高效的索引并非易事。云计算和先进的图形用户界面更有助于发展大数据的扩展性[3]。
可视化系统必须与非结构化的数据形式(如图表、表格、文本、树状图还有其他的元数据等)相抗衡,而大数据通常是以非结构化形式出现的。由于宽带限制和能源需求,可视化应该更贴近数据,并有效地提取有意义的信息。可视化软件应以原位的方式运行。由于大数据的容量问题,大规模并行化成为可视化过程的一个挑战。而并行可视化算法的难点则是如何将一个问题分解为多个可同时运行的独立的任务[10]。
高效的数据可视化是大数据时代发展进程中关键的一部分。大数据的复杂性和高维度催生了几种不同的降维方法。然而,他们可能并不总是那么适用。高维可视化越有效,识别出潜在的模式、相关性或离群值的概率越高[11]。
大数据可视化还有以下几点问题[12]:
?视觉噪声:在数据集中,大多数对象之间具有很强的相关性。用户无法把他们分离作为独立的对象来显示。
?信息丢失:减少可视数据集的方法是可行的,但是这会导致信息的丢失。
?大型图像感知:数据可视化不仅受限于设备的长宽比和分辨率,也受限于现实世界的感受。
?高速图像变换:用户虽然能观察数据,却不能对数据强度变化做出反应。
?高性能要求:在静态可视化几乎没有这个要求,因为可视化速度较低,性能的要求也不高。
可感知的交互的扩展性也是大数据可视化面临的挑战。可视化每个数据点都可能导致过度绘制而降低用户的辨识能力,通过抽样或过滤数据可以删去离群值。查询大规模数据库的数据可能导致高延迟,降低交互速率[13]。
在大数据的应用程序中,大规模数据和高维度数据会使进行数据可视化变得困难。当前大多数大数据可视化工具在扩展性、功能和响应时间上表现非常糟糕。可视化分析过程中,不确定性是有效的考虑不确定性的可视化过程巨大挑战[5]。
可视化和大数据面临许多的挑战,下面是一些可能的解决方法[14]:
1. 满足高速需要:一是改善硬件,可以尝试增加内存和提高并行处理的能力。二是许多机器会用到的,将数据存储好并使用网格计算方法。
2. 了解数据:请合适的专业领域人士解读数据。
3. 访问数据质量:通过数据治理或信息管理确保干净的数据十分必要。
4. 显示有意义的结果:将数据聚集起来到一个更高层的视图,在这里小型数据组和数据可以被有效地可视化。
5. 处理离群值:将数据中的离群值剔除或为离群值创建一个单独的图表。
四、大数据可视化的一些进展
在大数据时代,可视化操作究竟是如何进行的呢?首先可视化会为用户提供一个总的概览,再通过缩放和筛选,为人们提供其所需的更深入的细节信息[15]。可视化的过程在帮助人们利用大数据获取较为完整的客户信息时起到了关键性作用。而错综的关系是众多大数据场景中的重要一环,社交网络或许就是最显著的例子,想要通过文本或表格的形式理解其中的大数据信息是非常困难的;相反,可视化却能够将这些网络的趋势和固有模式展现地更为清晰[7]。在形象体现社交网络用户之间的关系时,通常使用的是基于云计算的可视化方法。通过相关性模型来描绘社交网络中用户节点的层次关系,这种方法能够直观地展示用户的社会关系。此外,它还能借助利用云技术的海杜普软件平台(Hadoop)将可视化过程并行化,从而加快社交网络的大数据收集[16]。
大数据可视化可以通过多种方法来实现,比如多角度展示数据、聚焦大量数据中的动态变化,以及筛选信息(包括动态问询筛选,星图展示,和紧密耦合)等等[12]。以下一些可视化方法是按照不同的数据类型(大规模体数据、变化数据和动态数据)来进行分析和分类的[12]:
树状图式:基于分层数据的空间填充可视化方法。
圆形填充式:树状图式的直接替代。它使用圆形作为原始形状,并能从更高级的分层结构中引入更多的圆形。
旭日型:在树状图可视化基础上转换到极坐标系统。其中的可变参量由宽和高变成半径和弧长。
平行坐标式:通过可视化分析,将不同帝乡的多重数据因素拓展开来。
蒸汽图式:堆叠区域图的一种,数据围绕一条中轴线展开,并伴随流动及有机形态。
循环网络图式:数据围绕一个圆形排列,并按照它们自身的相关性比率由曲线相互连接。通常用不同的线宽或色彩饱和度测量数据对象的相关性。
表格3和表格4 [12]
展示了以上五中可视化图式的分类情况。由表格3我们可看出哪一种上述可视化方法能够用来分析大规模体数据、变化数据和伴随时间改变的动态数据。表格4按数据种类将以上方法进行了区分。
表格3:可视化工具概览
表格4:可视化工具的区分
传统的数据可视化工具不足以被用来处理大数据。以下列举了几种将交互式大数据可视化的方法。首先,利用一个由可扩展的直观数据摘要群组成的设计空间可以将多种类型的变化数据可视化,这些直观的数据摘要通过数据简化(如聚合或抽样)的方法得出。被应用于特定区间的交互查询方法(比如关联和更新技术)因此通过结合多元数据块和并行查询而被开发出来。而更先进的方法被运用在一个基于浏览器的视觉分析系统——imMens上,来处理数据以及对GPU(图像处理器)进行渲染[13]。
很多大数据可视化工具都是在Hadoop的平台上运行的。该平台里的常用模块有:Hadoop Common, HDFS(Hadoop Distributed File System),Hadoop YARN和Hadoop MapReduce。这些模块能够高效地分析大数据信息,但是却缺乏足够的可视化过程。下面将介绍一些具备可视化功能并实现交互式数据可视化的软件[3]:
Pentaho:一款支持商业智能(BI)功能的软件,如分析、控制面板、企业级报表以及数据挖掘;
Flare:实现在Adobe视频播放器中运行的数据可视化;
JasperReports:拥有能够从大数据库中生成报告的全新软件层;
Dygraphs:快速弹性的开放源Java描述语言图表集合,能发现并处理不透明数据。
Datameer Analytics Solution and Cloudera:同时使用Datameer和Cloudera两个软件能使我们在Hadoop平台时更快捷、更容易。
Platfora:将Hadoop中的原始大数据转换成交互式数据处理引擎。Platfora还有把内存数据引擎模块化的功能。
ManyEyes:IBM公司开发的可视化工具。它可供用户上传数据并实现交互式可视化的公共网站。
Tableau:一款商业智能(BI)软件,支持交互式和直观数据分析,内置内存数据引擎来加速可视化处理。
Tableau系列软件在处理大规模数据集时主要是依靠以下三种产品:Tableau Desktop,Tableau Sever和Tableau Pubilc。此外,Tableau还能内嵌入Hadoop的基础设备之中,利用Hive(基于Hadoop的一个数据仓库工具)将查询结构化并为内存分析缓存信息。通过缓存信息,Hadoop集群延迟的可能性会大大减小。因此,Tableau软件为用户与大数据应用提供了一个交互互动机制[5]。
大数据分析工具可以轻而易举地处理ZB(十万亿亿字节)和PB(千万亿字节)数据,但它们往往不能将这些数据可视化。如今,主要大数据处理工具有Hadoop,High Performance Computing and Communications,Storm,Apache Drill,RapidMiner和 Pentaho BI。数据可视化工具有NodeBox,R,Weka,Gephi,Google Chart API,Flot,D3,and http://Visual.ly等等。一种在RHadoop基础上形成的大数据可视化算法分析整合模型已经被提出,用来处理ZB和PB数据并以可视化的方式为我们提供较高价值的分析结果。它还与ZB和PB数据并行算法的设计相切合[17]。
交互式可视化集群分析是我们用来探寻集群模式最直接的方法。其中最具有挑战性的一点是可视化多维数据,以便用户交互式分析数据和认识集群结构。如今我们已经开发出优化的星型坐标可视化模型,来有效分析大数据交互集群,它与其他多维可视化方法(如平行坐标和散点图矩阵)相比,极可能是最具备扩展性的大数据可视化技术[18]:
l 平行坐标和散点图矩阵通常被用来分析十个维度以内的数据,而星型坐标则可以处理数十个维度。
l 在基于密度代表的帮助下,星型坐标式可视化自身得以扩展。
l 基于星型坐标的集群可视化并非是用于计算数据记录中的两两距离;而是利用潜在映射模型的性能部分地保持这个位置关系。这一点在处理大数据上十分有用。
将大数据源直接可视化既不可能也不有效,因此通过分析数据减少大数据的量和降低其复杂程度就显得十分重要。所以将可视化和分析相互整合才能使效能最大化。IBM公司开发的RAVE软件已经能够将可视化运用到商业分析领域去分析并解决问题。RAVE和可拓展的可视化性能让我们能够利用有效的可视化更好地理解大数据[7]。同时,其他的一些IBM产品,例如IBM? InfoSphere? BigInsights?和IBM SPSS? Analytic Catalyst,也同RAVE一起,利用交互可视化丰富用户对大数据的洞察。例如InfoSphere BigInsights能够帮助分析并发现隐藏在大数据中的商业信息,SPSS Analytic Catalyst使得大数据的准备工作自动化,加之选取合适的分析过程,最后通过交互式可视化呈现最终结果[7]。
在沉浸式VR(虚拟现实)平台上进行科学数据可视化当下还在研究阶段,其中包括软件和便宜的商品硬件也在研究阶段。这些具备潜在价值和创新力的多维数据可视化工具无疑为合作式数据可视化提供了便利。沉浸式可视化与传统的“桌面式”可视化相比具备明显的优势,因为它可以更好地展现数据景观结构并进行更直观的数据分析。它还应是我们探索更高维度、更抽象大数据的基点之一。人类固有的认知模式(或者说是视觉认知)技能能够通过使用与沉浸式VR相关的新型数据实现最大化[11]。
表格5是对以上大数据可视化软件的SWOT分析总结,其中的竞争优势(Strengths)和机遇(Opportunities)是积极因素;竞争劣势(Weaknesses)和威胁(Threats)是消极因素。
表格5:对现今大数据可视化软件的SWOT分析
五、结论
可视化既可以是静态的,也可以是动态的。交互式可视化通常引领着新的发现,并且比静态数据工具能够更好的进行工作。所以交互式可视化为大数据带来了无限前景。在可视化工具和网络(或者说是Web浏览器工具)之间互动的关联和更新技术助推了整个科学进程。基于Web的可视化使我们可以及时获取动态数据并实现实时可视化。
一些传统的大数据可视化工具的延伸并不具备实际应用性。针对不同的大数据应用,我们应该开发出更多新的方法。本文介绍了一些最新的大数据可视化方法并对这些软件进行了SWOT分析,以帮助我们能够再此基础上创新。大数据分析和可视化,二者的整合也让大数据应用更好地为人们所用。此外能够有效帮助大数据可视化过程的沉浸式VR,也是我们处理高维度和抽象信息时强有力的新方法。
参考文献:
[1] M. Khan, S.S. Khan, Data and Information Visualization Methods and Interactive Mechanisms: A Survey, International Journal of Computer Applications, 34(1), 2011, pp. 1-14.
[2] Intel IT Center, Big Data Visualization: Turning Big Data Into Big Insights, White Paper, March 2013, pp.1-14.
[3] V. Sucharitha, S.R. Subash and P. Prakash , Visualization of Big Data: Its Tools and Challenges, International Journal of Applied Engineering Research, 9(18), 2014, pp. 5277-5290.
[4] P. Simon, The Visual Organization: Data Visualization, Big Data, and the Quest for Better Decisions, Harvard Business Review, June 13, 2014, pp. 1-8.
[5] C.L. P. Chen, C.-Y. Zhang, href=”https://link.zhihu.com/?target=http%3A//pubs.sciepub.com/dt/1/1/7/” target=”_blank” rel=”nofollow noreferrer”>Big Data and Visualization: Methods, Challenges and Technology Progress
原作者:Lidong Wang 工程技术部门,美国密西西比州谷州立大
Guanghui Wan 国家严峻天气重点实验室,中国气象科学院
Cheryl Ann Alexander美国技术和医疗保健公司