提到数据可视化,大家脑海里面可能会出现下面这些图表。的确,在很多人的印象里,数据可视化就等于制作美丽的图表,但其实数据可视化远不如此:“It’s not just about making pretty pictures”。

那么接下来就给大家简单地介绍一下数据可视化这个年轻却又古老的领域,希望大家“宝山一游,不会空手而归”。
# 数据可视化是什么?
首先我们来通过一个经典的挑战来认识数据可视化:观察下面的表格数据,你能在短时间内判断出每一组数据的关系吗?

相信直接看这些数据,大家内心或多或少都会有点崩溃;如果大家碰巧懂得统计学的一些知识,估计会更加崩溃:它们的单维度均值、最小二乘法回归线方程、误差的平方和、方差的回归和、均方误差的误差和、相关系数等统计属性均相同!
但如果我们将上面的数据分布情况用下面这张图表示的话,相信大家可以迅速的从数据中发现它们不同的模式。

上面这种“将不可见或难以直接显示的数据转化为可感知的图形、符号、颜色、 纹理等,增强数据识别效率,传递有效信息”的手段就是数据可视化。
浙江大学陈为教授的《数据可视化》这部书中是这样定义数据可视化的:利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术 。接下来我们就深入了解一下定义中的“人眼的感知能力”和“增强认知”。
# 人眼的感知能力
“人眼的感知能力”,也就是我们平常说的视觉。不知道大家会不会和我有相同的疑问:视觉只是我们众多感觉中的一种,是什么让它脱颖而出,可以用来分析数据呢?这里列出两点比较重要的原因。
第一,在几种感官系统中,视觉系统获得信息是最高效的。 因为它可以并行处理视觉信息,比如你可以很迅速地从一片蓝色的点中找到一个红色的点。相比之下,耳朵只能线性地获得信息,而我们也从来没有听说过人的鼻子和嘴巴可以感知大量的复杂信息,对它们的探索还在一个很初始的阶段。

第二,图片可以加速人们查找和识别信息,因为信息会和空间信息相关联。 比如说,如果将有关联的事物放在一起,在不借助任何标签的情况下,我们也能轻易找到和识别这些事物,下面提到的元素周期表就是很好的例子。同时图片也很易于理解,就像很少有人能一眼看出一组数据的模式,但是小孩都能看懂条形图。

# 增强认知
基于这两个特点,我们可以把数据和视觉元素关联起来,通过视觉去高效获得视觉元素的特点,从而了解对应数据的特点,达到增强认知的效果。
提到增强认知,这里就不得不注意了:不是所有的数据可视化都能到达增强认知的效果。比如下面两张图都是用折线图可视化任天堂游戏销售趋势,但是第一张图给人的感觉是他们的趋势异常稳定,第二张图却反映出在2016年6月左右他们有极高的提升。

出现这个问题的原因就是第一张图的 y 轴的范围设置的远远超过了数据的范围,出现了视觉上的偏差,这种可视化设计就是不好的:不仅仅没有达到增强认知的效果,还给大家带来了错误的认知。
所以到底什么样的数据可视化才是能帮助我们增强认知的呢?更形象一点:什么样的数据可视化才能算的上是美丽的?在《Beautiful Visualization》里面将归纳了美丽的数据可视化的四个特点:新颖,充实,高效和美感。下面我们将用下面伦敦地铁图这个经典的案例来解释这4个特点:

伦敦地铁图的最大改变就是:把地图从准确代表地理特征的束缚释放出来了,线条不再是歪歪扭扭的,只有简单的直线和角度。 从传统歪歪扭扭的线条这种旧的风格,到直线和角度这种新的角度看数据,就是新颖。着重展示地铁站之间相对的逻辑关系,弱化地理关系,让人们弄明白下一步自己怎么走,而不是这条地铁线路到底是如何修的,简介的突出关键信息,这就是充实和高效。 合理利用简单的直线和角度来引导用户,揭示关系,这就是“美感”。
当然上面的原则也不是绝对的。根据上面的高效原则我们需要尽量避免过多的装饰,但是信息图(Infographics) 的出现,让大家意识到装饰能提高用户的参与感,让用户更难忘。
比如在下面展示世界上最高的建筑的信息图中,用建筑的图片替代了本来的条,虽然降低人们获得信息的效率,但是能让大家感到更有意思,印象更加深刻:也许多年以后你在回忆起这本小册子的时候,你啥都忘了,但是这张图还深深的印在你的脑海里!

# 为什么要学习数据可视化
聊了这么多数据可视化是什么,那么我们为什么要学习数据可视化呢?数据可视化到底对我们的生活,工作和世界的发展到底有什么用?
# 时代背景
了解任何一个东西的作用都不应该脱离它的时代背景,毕竟俗话说的好:“时势造英雄”,所以我们首先在了解一下我们的时代背景。
随着科技的发展,更多的数据被收集、存储和感知,我们真正进入了大数据时代。而大数据时代最值钱的是什么?当然是数据,更准确地说:应该是数据背后的信息,这些信息进行整理,又会形成知识和经验,从而帮助我们做决策。
这个时候,也许就有人就要问了:在人工智能家喻户晓的时代,直接把数据分析交给机器不就好了吗?为什么还需要人的参与?这是因为在大多数情况下,人们面对数据不知道提出什么样的问题,甚至不能提前知道自己提的问题是否正确。这种时候,统计学和机器学习也无能为力。
因此,在数据分析中,我们首先可以通过可视化提出需要研究的问题。在分析过程中,再用可视化去发现算法的问题以及参数对结果的影响,从而改进算法和任务。最后,我们还可以用可视化去展现分析结果,并且判断根据这个结果做的决策是否正确。
在大数据时代的背景下,针对不同的数据类型和研究目的,数据可视化分为了三个主要分支:科学可视化、信息可视化和可视化分析学。
接下来我们就分别来了解一下它们,看看我们日常生活中主要是在哪个分支上以及每个分支在工作中的主要应用场景,从而了解更多学习数据可视化的理由。
# 科学可视化
首先我们来看看可视化领域最早、最成熟的一个跨学科研究与应用的领域:科学可视化(scientifc visualization)。
科学可视化主要可视化的是自然科学领域中一些具体的、非抽象的东西,比如医学领域的骨骼等影像数据,气象气候的洋流流动数据等。这些数据主要带有几何和空间信息,比如形状、位置等,重点探索如何有效地呈现其中的几何、拓扑和形状特征。

在日常生活中,我们都接触的比较少,接触它的更多是一些科学家和相关研究人员。
# 信息可视化
相对于科学可视化面向抽象数据数据,信息可视化(information visualization) 处理的对象是抽象的、非结构化数据。这些数据往往来
