数据简史
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

隐藏在数据背后的真相

数据是怎样产生的?数据表达了什么?

原始社会末期,人们为了分配剩余产品,需要把口头的和手头的信息定量地记录下来,于是出现了计算和文字。《周易·系辞》中写道:“上古结绳而治,后世圣人易之以书契。”人们先是笼统地记事,继而又进化出文字,出现楔形文字、象形文字、拼音文字,后来书写替代了言传,又渐渐产生了更复杂的文学、艺术。

这里的“结绳记事”,其实也是“结绳计数”,记下事情的同时也记下并计算出事情里面的数字,这就是数据最早的来源。有了“精确”数字,就有了数据,原始人打猎归来,再也不是把猎物粗略地拢成一堆,而是要数一数有几头,几只猎物,再用绳结清楚地记录下来。可以想象一下,某个英明的早期部落首领,通过准确了解自己部落收获的食物数量,能够合理地进行分配,实现了初步的“公平、公正”,既维护了部落的团结,又避免了“饥一顿、饱一顿”的窘况,最终让部落兴旺发达起来。这跟今天那些企业管理者是不是有异曲同工之妙?

数据的本质源于其客观性,它不会被人的主观意愿所篡改,因此,数据中隐藏了大量的真相。魏、蜀、吴三国争霸,那时的战争比拼的是人口数量,据历史学家不完全考证,当时魏国有504万人,吴国有256万人,而蜀国只有128万人。显然,仅有128万人的蜀国,去掉老人、妇孺和残疾人,能够征用的青壮年士兵不会超过20万人,在争霸中率先败下阵来似乎也是一种必然。

还有一个有趣的故事。17世纪到18世纪前半期,英国在北美洲陆续建立了13个殖民地,到1775年,这13个殖民地的人民开始掀起推翻英国殖民统治的独立战争,组成了“大陆军”,由乔治·华盛顿任总司令。1776年7月4日,殖民地代表在费城召开了第二次大陆会议,通过了《独立宣言》,正式宣布建立一个新国家,这个国家的名字叫作“The United States of America”。

从字面上看,美国可以是一个国家,也可以是很多个州的联合体。美国建立初期,美国民众内心是怎么看待这个国家的?国家和州的意识是怎样的?对此,没有人做过调查和统计。不过,真相却一直存在,只是隐藏在数据中。

2004年,美国一家公司开始提供一项新服务,即通过与图书馆和出版商合作,推出大量扫描图书,欲打造世界上最大的数字图书馆。同时,该公司还提供了一个名为全球书籍词频统计器的工具,使用它可以查询任意一个或几个词过去500年里在书籍中的出现频率。这项数据不受个人或者个别组织的影响,也很难有意识地去造假,所以人们的一些无意识的倾向性行为被表现得一览无遗。如果我们在软件中对比美国建立至今“The United States are”(州联合体)和“The United States is”(一个整体的国家)这两个词在书籍中的出现频率,会发现一些有趣的现象。

书籍中出现“The United States are”,复数的“are”,其实代表的是人们潜意识中的“州联合体”的意识,同样,“The United States is”,单数的“is”,则代表对“一个国家”的认同。图中趋势很明显,美国建立早期,人们将美国看作“州联合体”的意识(图中细线)要远大于将美国看作“一个国家”(图中粗线)的意识,但是,“一个国家”意识也一直在增长,并在1876年一举超过“州联合体”的意识,而这正是美国南北战争时期,代表统一的北方势力获胜。下一个急剧上升趋势则出现在1910年前后,这是美国南北战争后重建,国家开始强大的时候。此后,美国作为一个完整国家的意识逐步占据主流,而“州联合体”的意识则渐渐式微。

也许,当年写文章的人在表述心目中的美国时并没有刻意地去选择用“are”还是“is”,而只是潜意识的一种习惯使然,但是这些隐藏在人们习惯用法中的数据的变化则真切地反映了人们潜意识的变化。

数据不会撒谎,数据会揭示真相,这就是数据的魅力。

书籍中“The United States are”与“The United States is”出现频率对比