不知道有多少人跟我以前一样,对处理数据会有点不太自在的感觉。数据量比较多的时候,批量操作时常常会有不知道是否存在误删数据之类的操作失误。因为这些原因,我感觉做excel表耗费了不少时间,而且持续地在消耗精力,真是一件麻烦事。为了把自己从这种持续掉血的状况解救出来,我踏上了数据管理的求生之路。

我学习了伍昊老师的excel课程,通过持续的实践,对excel数据处理有了比较清晰完整的认识。下面将对这种改变进行复盘,把遇到的问题以及改进做一下对比。

图1:最初的设备委托表


图2:修改后的设备委托表


图3:利用原数据表生成的数据透视表

我其中一项工作,要把设备委托给厂家进行维修,把每个月的清单发给厂家,并根据清单来结算费用。这份委托表表面看起来似乎没什么问题,每个站点对应的设备一目了然,而且也把每个月数据独立开来,想看哪个月就点对应子表。我在设计这个表的时候给同事看过,同事也觉得看上去挺直观清晰。

这样的设计其实是不规范的,问题主要有2个:按照日期分表、按每个设备名称设置了单独的列。这种看起来很正常的表格,也许是很多人都会犯的典型错误。反思自己分表的原因,是觉得这样方便处理,不用担心对其他月份的数据误操作,而且看每月数据的时候比较方便。往深一层思考,是自己面对数据不断增加感到不踏实,而为了应对这种不踏实感,人为把数据进行分隔,控制在一定范围内,目的是为了降低处理难度。这是一种被动的应对方法。真正有用的做法是去了解批量处理的规则,通过清晰认知来消除不安。另一个问题,其实是理解角度不同导致的。

这种表拿给别人看是没有问题的,而问题恰恰出在这里,这是把源数据表糅合进了一部分的数据分析,仅仅是符合了人们阅读习惯,导致源数据表不规范,真正用于数据处理并不方便。举例来说,如果要统计一整年不同设备的委托数量、每个季度的委托情况、不同月份不同设备的数量变化,这些都是很简单的需求,但这样的表格就没法直接分析,需要把所有要用到的月份进行合并。另外,给每个设备名称都新增一列,填表的时候得找到特定的单元格,而且后面如果增加更多不同设备,导致列的增多,这工作将变得更加麻烦。

除了上面提到的两个问题,一些常见的设计问题还包括且不限于:做了多个标题行,合并了部分单元格,对表格增加了各种的汇总行、没有填写日期数据项。

这些问题都表明,原始数据表跟分析汇总表是两个不同的表格,目的不同,面向的对象也不同。符合人们阅读习惯,不等于符合数据录入规范。人们容易把表格设计成分析表或汇总表,往里面填数据然后直接在这个表里面作为数据展示。这是一个相当重要的认知误区,只有对“数据录入”与“数据分析”这两个概念有清晰认知,把这两件事情区分开,才能从根本上解决表格设计问题。

或许需要先把“做表”的心态放下,思考数据的意义。

数据的本质,是记录事件。

我们看到的所有数据结论,由一条条小小的数据叠加汇聚组成。看到的一个统计金额为0,这是一个结论,它可能是之前有进项后来有支出然后汇总成0,也可能仅仅只是没有进出。如果要了解具体情况,需要知道数据明细。真正的好数据,应该是完整的、可回溯的。基于这一点,对源数据的录入就应该只做增减,不做修改。用伍昊老师的表述就是,对源数据的修改,是毁尸灭迹。

数据,需要进行管理。

比较常见的情况是,人们接手了某件事情以及之前用来记录数据的表格,只要这个表格看起来不是太差,很容易就照着前人的方式填数据。只要把数据录入就完事了吗?为什么要对数据进行管理?这是值得思考的问题。数据只是数据,如果不能被有效记录与分析整合,其实毫无意义。最重要的,是明确我的目标。从想要的汇总表推导出源数据表。我想了解什么东西,就设定与之对应的数据项目,并与能够获取到的数据进行匹配,梳理出规范的原始数据表。

关于源数据的规范。

规范原始数据表,有两个目的:1、让我们能够很方便地录入,用伍昊老师的表述就是“见单录入”,录入数据的时候,不需要去寻找特定行插入,直接从最后一行开始;2、让程序能够识别,实现自动化分析。这些意味着需要设计出符合excel规范,而不是我们认为看起来“美观”、“一目了然”的表格。

规范,应该怎么做?我的理解是,拆解事件的构成要素。需要把关键信息提炼出来,而不是用一连串的文本表达。这其实很简单,就像小学语文教的那样,时间、地点、人物、做什么。比如做文具库存管理表,2020年1月1日花费6元购买了一只三菱的签字笔,又花3元买了真彩的签字笔,就可以拆分为“日期”、“进出“、“品牌”、“单价”、“数量”。其中“三菱”与“真彩”都属于“品牌”,不需要单独新增列标签,在原始数据表中应该做两行记录,分别记录三菱和真彩。而记录两行,遵循的原则是:相同属性归类到一列。前面也提到了这样做的好处。

所有的数据分析,都基于原始数据。只有把源数据表做好做规范,处理excel数据的时候才不会越做越累。只要对数据管理有清晰的认识,面对一百条数据还是一万条数据,其实没有什么区别。数据对你而言多多益善,因为你已经把它们纳入了有效的管理中,这就是具备了数据管理思维与停留在被动的“做表“之间的重要区别。以前如临大敌般的数据统计,谈笑间,樯橹灰飞烟灭。

“源数据表,天下第一表。”

——by 伍昊老师