图片

数字时代的浪潮滚滚向前,我们曾一度被“大数据”(Big Data)的宏大叙事所席卷,仿佛不拥抱大数据,就意味着被时代抛弃。然而,就在这股浪潮似乎要吞噬一切之时,一些清醒的声音开始浮现,质疑这股热潮的真实性与普适性。

时间回溯到2023年2月,一篇题为《大数据已死》(Big Data is Dead)  的文章(原文见:https://motherduck.com/blog/big-data-is-dead/ )在技术圈和商业界激起了不小的涟漪。这篇文章的作者乔丹·蒂加尼 (Jordan Tigani),曾是谷歌BigQuery的创始工程师之一,一个曾站在大数据神坛上振臂高呼的“信徒” 。他的“倒戈”无疑为这场关于数据规模与价值的讨论,投下了一颗重磅炸弹。蒂加尼以其十余年在数据领域摸爬滚打的深厚经验,特别是调试BigQuery客户问题、合著两本相关书籍以及后续转向产品管理与客户和产品指标打交道的经历,得出了一个令人颇感意外却又引人深思的结论:大多数使用“Big Query”的人并没有真正意义上的大数据 ,而数据规模本身,或许从来都不是问题的核心 。

这篇文章的出现,恰逢全球对数据价值的认知从盲目崇拜规模转向理性追求实效的关键节点。彼时,企业在经历了数年“买买买”的“军备竞赛”,购置了大量宣称能处理海量数据的“新奇技术”后 ,却发现自己在从数据中获取可行动洞察方面依然步履维艰 。这不禁让人反思,我们是否一开始就“诊断”错了方向?

本文将深入剖析蒂加尼的核心论点,结合最新的行业洞察与权威研究,探讨“大数据已死”这一论断在当前语境下的深刻含义。我们将一同回顾那段对数据规模的狂热崇拜,审视其背后的逻辑与现实的差距,并最终思考,在后大数据时代,我们应如何更智慧地与数据共舞,发掘其真正的价值,而非仅仅迷失在“大”的幻影之中。

01、被误读的“数据洪流”:那场声势浩大的“规模恐慌”真的名副其实吗?

曾几何时,“大数据来了!”的呼声如同狼来了的警告,响彻在每一个会议室和每一个行业报告中 。各大供应商不遗余力地描绘着一幅数据即将淹没一切的可怕图景,而他们所销售的,正是那艘能载我们渡过“劫难”的方舟 。这种营销策略的核心,正如蒂加尼所描述的,就是那张经典的“恐吓幻灯片”(the “scare” slide) :一条陡峭上扬的曲线,预示着未来几年数据量将达到“深不可测的程度”(unfathomably large amount) 。蒂加尼坦言,无论是在谷歌还是后来在SingleStore,他都见过类似图表的变种 。其潜台词清晰而急迫:“旧的数据处理方式已经行不通了!你需要购买我正在销售的产品!” 。

这种叙事的强大之处在于,它利用了人们对未知的恐惧和对错失机遇的焦虑。它宣称,数据生成的加速将使昨日的数据系统陷入泥潭,而拥抱新思想的人则能够超越竞争对手 。一时间,企业仿佛陷入了一场关于数据规模的“军备竞赛”,唯恐在数据积累上落后于人。然而,蒂加尼一针见血地指出:“当然,仅仅因为正在生成的数据量在增加,并不意味着它会成为每个人的问题;数据并非平均分配的。大多数应用程序不需要处理海量数据。” (“Of course, just because the amount of data being generated is increasing doesn’t mean that it becomes a problem for everyone; data is not distributed equally. Most applications do not need to process massive amounts of data.”) 。

事实也确实如此。虽然全球数据总量的确在飞速增长——根据Statista在2023年底的预测,到2025年,全球创建、获取、复制和消耗的数据总量预计将超过180泽字节 (ZB),这一数字相较于几年前已是天文数字——但这并不等同于每个企业、每个应用都面临着泽字节级别的数据处理挑战。正如信息管理领域的专家道格拉斯·莱尼 (Douglas Laney) 在其著作《Infonomics》中提出的“3V”定义(Volume, Velocity, Variety)那样,大数据的特征不仅仅在于“体量大”,还在于“速度快”和“多样性”。然而,许多企业的数据困境,并非源于这三个V同时达到了极致,而更多的是在于如何从现有规模的数据中提取价值。

蒂加尼认为,这场被预言的数据灾难并没有真正发生 。他观察到:“数据规模可能略有增长,但硬件的增长速度更快。” (“Data sizes may have gotten marginally larger, but hardware has gotten bigger at an even faster rate.”) 。这是一个至关重要的观察。我们不妨回顾一下计算机硬件的发展史。摩尔定律虽然近年来有所放缓,但在过去几十年里极大地提升了计算能力。与此同时,存储技术也经历了翻天覆地的变化。例如,机械硬盘的存储密度不断提升,而固态硬盘 (SSD) 的价格则持续下降,性能大幅跃升。根据一些行业分析,硬盘的每GB成本在过去十年中显著降低,而单盘容量则大幅增加。这意味着,在同样的预算下,企业能够获得的存储空间和计算能力远非昔日可比。

《经济学人》曾在相关报道中指出,技术进步的步伐往往会改变我们对“大”的定义。过去被认为是“海量”的数据,在今天的硬件条件下可能只是“中等规模”。蒂加尼的观点与此不谋而合。他提到,在2004年谷歌MapReduce论文发表时,数据工作负载不适合单台商用机器的情况非常普遍,纵向扩展成本高昂 。2006年AWS推出EC2时,唯一的实例大小只有一个核心和2GB内存,很多工作负载都无法适应 。但如今,“AWS上的标准实例使用具有64核和256GB内存的物理服务器。这仅仅是内存就增加了两个数量级。如果你愿意为内存优化型实例多花一点钱,你可以再获得两个数量级的内存。有多少工作负载需要超过24TB的内存或445个CPU核心呢?” (“Today, however, a standard instance on AWS uses a physical server with 64 cores and 256 GB of RAM. That’s two orders of magnitude more RAM. If you’re willing to spend a little bit more for a memory-optimized instance, you can get another two orders of magnitude of RAM. How many workloads need more than 24TB of RAM or 445 CPU cores?”) 。

这种硬件能力的飞跃,实际上大大削弱了单纯以“数据量大”作为核心挑战的论据。如果一台机器就能轻松处理TB级别甚至数十TB级别的数据,那么对于绝大多数企业而言,“大数据”的门槛实际上是在不断后退的 。这并非否认确实存在拥有PB乃至EB级别数据的“大数据巨头”,而是强调这种规模并非普遍现象。

因此,当初那场声势浩大的“规模恐慌”,在很大程度上是被过度渲染了。它成功地推动了新技术的销售,但也可能误导了许多企业,使其将过多的精力投入到应对一个并不存在的“数据怪兽”上,而忽略了更根本的数据管理、数据分析和数据驱动决策能力的建设。Vendor们依旧在鼓吹他们的扩展能力,但从业者们已经开始反思,这些能力与他们面临的实际问题究竟有多大关联 。

02、数据的真实面貌:大多数情况下,它并没有你想象的那么“大

在“大数据”概念铺天盖地的宣传攻势下,人们很容易形成一种错觉:仿佛每个企业都坐拥金山银山般的海量数据,等待着被挖掘。然而,乔丹·蒂加尼用他在谷歌BigQuery的亲身经历和细致观察,为我们揭示了一个更为贴近现实的情况:绝大多数用户和企业,其数据规模远未达到“大数据”的量级 。

蒂加尼坦诚地分享道:“我学到的最令人惊讶的事情是,大多数使用‘Big Query’的人并没有真正的大数据。” (“The most surprising thing that I learned was that most of the people using ‘Big Query’ don’t really have Big Data.”) 。他进一步透露,尽管相关数据非常敏感无法直接分享具体数字 ,但“绝大多数客户的总数据存储量不到一个太字节 (terabyte)。” (“the vast majority of customers had less than a terabyte of data in total data storage.”) 。当然,确实存在拥有海量数据的客户,但即便是相当大的企业,其数据规模也往往是适中的 。

更有趣的是,他发现客户数据规模遵循一种幂律分布 (power-law distribution) 。这意味着,最大的客户拥有的存储量可能是第二大客户的两倍,而第二大客户又是再下一个客户的两倍,以此类推。因此,尽管确实有客户拥有数百PB的数据,但这个数字会迅速下降 。一个颇具说服力的数据点是:“有成千上万的客户每月为存储支付的费用不足10美元,这相当于半个太字节。” (“There were many thousands of customers who paid less than $10 a month for storage, which is half a terabyte.”) 。而在那些重度使用该服务的客户中,“中位数数据存储大小远低于100GB。” (“Among customers who were using the service heavily, the median data storage size was much less than 100 GB.”) 。这与许多人对“大数据时代”的普遍认知形成了鲜明对比。

这种观察不仅限于BigQuery内部。当蒂加尼团队向行业分析师(如Gartner、Forrester等)吹嘘其处理海量数据集的能力时,对方往往不以为然 。分析师们的反馈是:“这很好,但绝大多数企业的数据仓库都小于一个太字节。” (“This is nice,” they said, “but the vast majority of enterprises have data warehouses smaller than a terabyte.”) 。行业内的普遍反馈是,100GB是数据仓库规模的正确数量级,而这也正是他们进行基准测试时重点关注的范围 。

为了进一步验证这一观点,蒂加尼还提到了一位投资者的调研。这位投资者调查了其投资组合中的公司,其中不乏已经上市或被大型机构收购的科技公司——这些公司的数据规模理应偏大 。结果发现:“他投资组合中最大的B2B公司的总数据量约为1TB,而最大的B2C公司的数据量约为10TB。然而,大多数公司的数据量要少得多。” (“He found that the largest B2B companies in his portfolio had around a terabyte of data, while the largest B2C companies had around 10 Terabytes of data. Most, however, had far less data.”) 。这些来自一线的真实数据,无疑为“大多数人没有大数据”这一论点提供了有力支撑。

为什么海量数据规模如此罕见?蒂加尼通过一些简单的例子进行了说明,这些例子帮助我们从数据的实际来源理解这个问题 。他设想了一个中型企业,拥有一千名客户,每个客户每天下一张包含一百个项目的订单 。即便如此相对频繁的交易,每天产生的数据可能还不到1MB。三年下来也才1GB,要达到1TB则需要数千年 。再比如,一个市场营销数据库中有一百万个潜在客户线索,同时运行着数十个营销活动 。其潜在客户表格可能仍小于1GB,而跟踪每个潜在客户在每个营销活动中的数据,总共也可能只有几个GB 。在合理的规模假设下,很难看出这些场景如何能累积成所谓的海量数据集 。蒂加尼甚至以自己曾在2020-2022年工作过的SingleStore为例——这是一家快速增长的E轮公司,收入可观,估值达到独角兽级别——将其财务数据仓库、客户数据、营销活动跟踪和服务器日志加起来,可能也只有几个GB 。用任何标准来衡量,这都不是大数据 。

这些观察与近年来的一些行业报告不谋而合。例如,一些针对中小企业的调查显示,它们的数据管理挑战更多地在于数据质量、数据集成和缺乏分析技能,而非数据量过大。即使在大型企业中,虽然某些部门(如研发、物联网)可能会产生巨量数据,但核心业务系统的数据仓库规模往往比宣传的要小得多。根据一些咨询公司的报告,例如KPMG或Deloitte在探讨数据策略时,也越来越强调“智能数据”(Smart Data)而非单纯的“大数据”,即关注数据的相关性、质量和可操作性。

蒂加尼的这些揭示,并非要否定大数据的存在,而是要打破一种普遍的迷思:即认为所有企业都必须以处理“谷歌级别”的数据为目标。事实是,大多数企业的数据规模是可控的,其核心挑战在于如何从这些“恰到好处”的数据中提炼洞察,驱动业务增长。这种认知的转变,有助于企业将资源更有效地投入到真正能产生价值的数据活动中,而不是盲目追逐硬件和平台的无限扩展能力。

03、架构的智慧演进:重要的不是无限扩展,而是“恰到好处”的灵活性

当“大数据”的警钟敲响时,许多讨论都围绕着如何构建能够无限横向扩展的系统。然而,乔丹·蒂加尼在其文章中提出了一个深刻的观点:过去20年数据架构中最重要的变革,并非规模的无限扩展,而是“存储和计算分离”(separation of storage and compute) 。这一架构上的演进,使得企业能够更灵活、更经济地应对真实世界的数据挑战。

蒂加尼指出:“现代云数据平台都将存储和计算分离,这意味着客户不再受限于单一的形态因素。” (“Modern cloud data platforms all separate storage and compute, which means that customers are not tied to a single form factor.”) 。与以往难以在实际环境中管理的“无共享”(shared nothing)架构不同,共享磁盘架构允许存储和计算独立增长 。S3和GCS等可扩展且速度尚可的对象存储的兴起,极大地放宽了数据库构建的约束条件 。

这种分离的核心优势在于,它承认并适应了一个普遍现象:“在实践中,数据规模的增长速度远快于计算需求的增长速度。” (“In practice, data sizes increase much faster than compute sizes.”) 。尽管存储和计算分离的好处常被描述为可以随时独立扩展任一方,但这两个轴并非完全等同 。蒂加尼强调,对这一点的误解导致了许多关于大数据的讨论,因为处理大规模计算需求的技术与处理大规模数据的技术是不同的 。

为什么会存在这种“存储偏向”呢?蒂加尼解释道,所有大型数据集都是随时间生成的,时间几乎总是数据集中的一个轴 。新的订单、新的出租车行程、新的日志记录、新的游戏数据每天都在产生 。如果一个业务是静态的,既不增长也不萎缩,数据会随时间线性增加 。这意味着存储需求会线性增长(除非决定修剪数据)。但计算需求呢?“但计算需求可能不怎么需要随时间变化;大多数分析都是针对近期数据进行的。扫描旧数据非常浪费;它不会改变,那你为什么要花钱一遍又一遍地读取它呢?” (“But compute needs will likely not need to change very much over time; most analysis is done over the recent data. Scanning old data is pretty wasteful; it doesn’t change, so why would you spend money reading it over and over again?”) 。诚然,企业可能希望保留旧数据以备不时之需,比如回答新的问题,但构建包含重要答案的聚合数据其实相当简单 。

一个极具说服力的例子是,当数据仓库客户从没有存储和计算分离的环境迁移到有这种分离的环境时,“他们的存储使用量大幅增长,但他们的计算需求往往没有真正改变。” (“Very often when a data warehousing customer moves from an environment where they didn’t have separation of storage and compute into one where they do have it, their storage usage grows tremendously, but their compute needs tend to not really change.”) 。蒂加尼分享了BigQuery一个全球最大零售商客户的案例:他们本地数据仓库约有100TB数据,迁移到云后,数据量达到了30PB,增长了300倍 。如果他们的计算需求也以类似幅度扩展,他们将在分析上花费数十亿美元 。然而,他们实际的花费远低于此 。

这种存储规模优先于计算规模的偏向,对系统架构产生了深远影响 。它意味着,如果使用可扩展的对象存储,企业可能只需要远低于预期的计算资源 ,甚至可能根本不需要使用分布式处理 。这与早期大数据解决方案强调的“节点越多越好”的理念形成了鲜明对比。

与此相呼应的是,蒂加尼观察到传统数据库架构的复兴:“SQLite、Postgres、MySQL都在强劲增长,而‘NoSQL’甚至‘NewSQL’系统则停滞不前。” (“SQLite, Postgres, MySQL are all growing strongly, while “NoSQL” and even “NewSQL” systems are stagnating.”) 。他展示的图表也表明,MySQL等关系型数据库的受欢迎程度持续稳定在高位,而曾经被寄予厚望的NoSQL代表MongoDB虽然有过一段增长,但近年来略有下降,并未真正撼动MySQL或Postgres这些坚固的单体数据库的地位 。他认为:“如果大数据真的在主导一切,那么这么多年后,你应该会看到不同的景象。” (“If Big Data were really taking over, you’d expect to see something different after all these years.”) 。

这并不是说NoSQL或NewSQL系统没有其用武之地,尤其是在需要极高并发写入或特定数据模型的场景下。然而,对于大多数分析型工作负载,传统关系型数据库结合现代云架构(如存储计算分离)所提供的灵活性和成本效益,往往更具吸引力。学术界和行业分析也注意到了这一趋势。例如,DB-Engines网站的数据库流行度排名持续显示,PostgreSQL和MySQL等开源关系型数据库的受欢迎程度在稳步上升。许多分析指出,这些系统通过引入对JSON等半结构化数据的支持、改进查询优化器、以及更好地与云原生服务集成,已经能够满足更广泛的应用需求,包括那些曾被认为是NoSQL专属的领域。

AWS的Aurora(兼容MySQL和PostgreSQL)以及Google Cloud SQL等托管数据库服务,正是利用了存储与计算分离的架构优势,提供了高可用性、可扩展性和成本效益。它们允许用户根据实际需求独立调整存储容量和计算实例,避免了传统一体化架构中常见的资源浪费。

因此,数据架构的智慧演进,更多地体现在这种适应真实需求的灵活性上。企业不再需要为应对想象中的“数据海啸”而过度配置昂贵的计算集群,而是可以借助云平台提供的弹性,让存储自由增长,同时将计算资源精确匹配到实际的分析负载上。这不仅大大降低了成本,也使得更广泛的企业能够从数据中获益,而无需成为“大数据专家”。

04、工作负载的真相:我们实际查询和分析的数据远少于存储的总量

“我们存了很多数据,所以我们需要强大的计算能力来分析所有这些数据。”这似乎是一个合乎逻辑的推论。然而,乔丹·蒂加尼通过对实际查询行为的深入分析,揭示了这个逻辑链条中一个经常被忽视的关键环节:我们为分析工作负载实际处理的数据量,几乎总是比我们想象的要小得多 。这就像一座冰山,我们只看到了浮出水面的巨大存储量,却忽略了水下实际被频繁访问和分析的数据只是其中的一小部分。

蒂加尼指出,即使客户拥有庞大的数据集,他们执行的工作负载也往往只触及这些数据的一小部分 。一个典型的例子是仪表盘 (Dashboards):“仪表盘通常是基于聚合数据构建的。人们关注的是过去一小时、过去一天或过去一周的数据。” (“Dashboards, for example, very often are built from aggregated data. People look at the last hour, or the last day, or the last week’s worth of data.”) 。较小的表更容易被频繁查询,而巨大的表则更有选择性地被查询 。

为了证实这一点,蒂加尼几年前对BigQuery的查询进行了分析,特别关注了每年花费超过1000美元的客户 。结果令人惊讶:“90%的查询处理的数据量少于100MB。” (“90% of queries processed less than 100 MB of data.”) 。他反复从不同角度切割数据以确保这不是少数客户运行大量小查询造成的偏差,并且排除了那些只查询元数据而不读取任何实际数据的查询 。图表显示,查询处理的数据量要达到GB级别,已经需要到非常高的百分位,而TB级别的查询则非常罕见 。

更有趣的发现是:“拥有巨量数据的客户几乎从不查询海量数据。” (“Customers with giant data sizes almost never queried huge amounts of data.”) 。当他们这样做时,通常是为了生成报告,此时性能并非首要考虑因素 。他举例说,一家大型社交媒体公司会在周末运行一些非常大的查询,为周一的高管会议做准备,但这些大型查询只占他们一周内运行的数十万次查询中的极小一部分 。

这种现象背后,其实是数据分析的普遍规律和现代数据库技术的共同作用。首先,大部分分析的价值集中在近期数据上。蒂加尼强调:“绝大多数被处理的数据都是24小时内产生的。当数据达到一周的‘高龄’时,它被查询的可能性大约是最新的数据的二十分之一。一个月后,数据基本上就静静地躺在那里了。” (“A huge percentage of the data that gets processed is less than 24 hours old. By the time data gets to be a week old, it is probably 20 times less likely to be queried than from the most recent day. After a month, data mostly just sits there.”) 。历史数据通常只是在运行罕见的报告时才会被触及 。他给出的数据访问模式估计是:“最近一年可能只占30%的数据,但占了99%的数据访问量。最近一个月可能只占5%的数据,但占了80%的数据访问量。” (“The most recent year might only have 30% of the data but 99% of data accesses. The most recent month might have 5% of data but 80% of data accesses.”) 。这意味着数据的“工作集”(working set)大小,即被频繁访问和处理的数据子集,比我们预期的要小得多且更易于管理 。例如,一个拥有10年数据的PB级表,可能很少访问当天(压缩后可能不到50GB)之前的数据 。

其次,现代分析型数据库通过各种技术手段,极大地减少了查询时实际需要处理的数据量 。即使是查询巨大的表,也很少需要处理大量数据 。这些技术包括:

  • 列式存储与列裁剪 (Column Projection): 分析查询通常只关心表中的少数几列,列式存储使得数据库只需读取相关列的数据,而非整行数据。
  • 分区裁剪 (Partition Pruning): 许多大型表按时间或其他关键字段分区。查询如果带有对这些字段的过滤条件(例如,只查询特定日期范围),数据库就可以跳过不相关的分区,只读取所需数据 。
  • 段消除 (Segment Elimination): 通过数据聚类或自动微观分区,利用数据的局部性进一步减少扫描范围 。
  • 其他优化技巧: 如在压缩数据上进行计算、投影下推 (Projection Pushdown)、谓词下推 (Predicate Pushdown) 等,都是在查询时减少I/O的方法 。更少的I/O意味着更少的计算需求,从而降低成本和延迟 。

这种“工作负载远小于存储总量”的现象,在许多数据分析的实际应用中都能得到印证。例如,在零售行业,分析师可能每天都会查看当天的销售额、库存周转率等指标,这些通常基于最近的数据。而季度或年度的趋势分析,虽然可能涉及更长时间跨度的数据,但其执行频率远低于日常查询。在网站分析领域,实时仪表盘主要关注当前的用户活动、页面浏览量等,历史数据的深入挖掘往往是特定研究项目的一部分。

这一洞察对于系统设计和成本优化具有重要意义。它意味着我们不必为存储的每一字节数据都配备等量的即时计算能力。通过智能分层存储(将热数据放在高性能存储,冷数据放在低成本存储)、高效的索引策略、查询优化以及构建预聚合的物化视图或数据集市,可以极大地提升分析性能并控制成本。这正是“恰到好处”的智慧,而非盲目追求“多多益善”的规模。

05、数据留存的经济账与责任链:你真的是“数据收藏家”还是“数据价值挖掘者”?

在数字时代,数据被誉为“新石油”,于是许多组织倾向于尽可能多地收集和保留数据,生怕错失了未来的潜在价值。然而,乔丹·蒂加尼提醒我们,这种“数据囤积症”背后,隐藏着不容忽视的经济成本和法律责任 。他提出了一个关于大数据的另类定义:“当保留数据的成本低于弄清楚该扔掉什么的成本时”,大数据就出现了 。这个定义精辟地指出了许多组织最终拥有“大数据”的原因:“并非因为他们需要它;他们只是懒得删除它。” (“It isn’t because they need it; they just haven’t bothered to delete it.”) 。那些庞大而混乱、无人真正了解其内容或是否可以安全清理的数据湖,正是这种现象的完美写照 。

首先,我们来看看经济账。蒂加尼强调,存在着强烈的经济压力促使人们减少处理的数据量 。仅仅因为你能横向扩展并快速处理某些东西,并不意味着你能廉价地做到这一点 。如果你用一千个节点来获得结果,那可能会花费你一大笔钱 。他以自己曾经在台上演示的BigQuery查询为例:“我过去在台上运行以炫耀BigQuery的PB级查询,按零售价计算需要5000美元。很少有人愿意运行如此昂贵的东西。” (“The Petabyte query I used to run on stage to show off BigQuery cost $5,000 at retail prices. Very few people would want to run something so expensive.”) 。这种减少数据处理以降低成本的财务动机,即便在非按扫描字节付费的定价模型中也同样适用 。例如,如果你使用的是Snowflake实例,通过缩小查询范围,就可以使用更小的实例,从而支付更少的费用,查询也会更快,并发能力更强,长期来看总成本更低 。

除了直接的查询成本,保留数据的成本远不止存储物理字节那么简单 。日益严格的数据保护法规,如欧盟的《通用数据保护条例》(GDPR) 和美国的《加州消费者隐私法案》(CCPA),要求组织必须跟踪特定类型数据的所有使用情况,并且某些数据需要在特定时间段内删除 。如果你数据湖中某个Parquet文件里的电话号码存放时间过长,就可能违反法规要求 。近年来,因违反GDPR而被处以巨额罚款的案例屡见不鲜,这足以警示所有企业,数据合规不再是可有可无的选项。例如,根据CMS Law的GDPR执法跟踪报告,自GDPR生效以来,罚款总额已达数十亿欧元,涉及从数据泄露到非法数据处理等多种违规行为。

数据还可能成为对你不利的法律证据 。正如许多组织为了减少潜在责任而执行有限的电子邮件保留策略一样,数据仓库中的数据同样可以在法律诉讼中被用来对付你 。蒂加尼提到:“如果你有五年前的日志,显示你的代码中存在安全漏洞或错过了服务等级协议 (SLA),保留旧数据可能会延长你的法律风险暴露期。” (“If you’ve got logs from five years ago that would show a security bug in your code or missed SLA, keeping old data around can prolong your legal exposure.”) 。他甚至听说过一个可能是杜撰的故事:某公司为了防止其数据分析能力在法律发现过程中被利用而将其保密 。

此外,数据也会像未经维护的代码一样遭受“腐烂”(bit rot) 。人们会忘记特定字段的精确含义,或者过去的数据问题可能已从记忆中淡去 。例如,可能存在一个短暂的数据错误,导致所有客户ID都设置为空值 ,或者一次巨大的欺诈性交易使得2017年第三季度的业绩看起来比实际好得多 。从历史时期提取数据的业务逻辑可能会变得越来越复杂 。例如,可能会有这样的规则:“如果日期早于2019年,则使用收入字段;在2019年至2021年之间,使用revenue_usd字段;2022年之后,使用revenue_usd_audited字段。” (“For example, there might be a rule like, “ if the date is older than 2019 use the revenue field, between 2019 and 2021 use the revenue_usd field, and after 2022 use the revenue_usd_audited field.””) 。数据保留时间越长,跟踪这些特殊情况就越困难,尤其是在数据丢失的情况下,并非所有问题都能轻易解决 。

因此,在决定保留旧数据时,理解保留的原因至关重要 。蒂加尼提出了一系列值得深思的问题:

  • 你是否一遍又一遍地问同样的问题?如果是这样,仅存储聚合结果在存储和查询成本方面不是会便宜得多吗? 
  • 你是为了未雨绸缪而保留它吗?你是否认为将来可能会有新的问题需要解答? 
  • 如果是这样,它有多重要?你真正需要它的可能性有多大? 
  • 你真的只是一个数据囤积者吗? 

这些问题,尤其是在试图弄清楚保留数据的真实成本时,都非常重要 。有效的做法是建立明确的数据生命周期管理策略,定期评估数据的价值和风险,并根据业务需求和法规要求主动进行数据归档或清除。正如《麻省理工学院斯隆管理评论》中的一些文章所强调的,强大的数据治理不仅仅是技术问题,更是组织文化和战略优先级的体现。与其盲目地收集一切,不如有选择地收集和管理那些真正能够驱动洞察、优化决策并符合伦理与法规要求的数据。

06、不断后退的“大数据边界”与那稀有的“百分之一”

“大数据”的定义本身就颇具流动性。乔丹·蒂加尼引用了一个定义:“大数据”就是“任何无法在单台机器上处理的数据” (“whatever doesn’t fit on a single machine”) 。按照这个定义,他犀利地指出,符合“大数据”标准的工作负载数量每年都在减少 。这背后是计算机硬件性能,特别是单机处理能力的惊人飞跃。

回溯到2004年,当谷歌发表关于MapReduce的里程碑式论文时,一个数据工作负载无法在单台普通商用机器上处理的情况非常普遍,而向上扩展(即购买更强大的单机)的成本又极其高昂 。2006年,亚马逊网络服务 (AWS) 推出了EC2云服务器,当时你能获得的唯一实例配置仅为单核CPU和2GB内存 。在这样的硬件条件下,有大量的工作负载会轻易超出单机处理的极限。

然而,时至今日,正如蒂加尼在2023年所观察到的:“如今,AWS上的一个标准实例使用的是配备64个核心和256GB内存的物理服务器。这仅仅是内存就比2006年时增加了两个数量级。如果你愿意为内存优化型实例多花一点钱,你甚至可以获得再增加两个数量级的内存。有多少工作负载真的需要超过24TB的内存或445个CPU核心呢?” (“Today, however, a standard instance on AWS uses a physical server with 64 cores and 256 GB of RAM. That’s two orders of magnitude more RAM. If you’re willing to spend a little bit more for a memory-optimized instance, you can get another two orders of magnitude of RAM. How many workloads need more than 24TB of RAM or 445 CPU cores?”) 。

截至2024和2025年,这一趋势仍在延续。主流云服务提供商(如AWS、Azure、Google Cloud)持续推出性能更强、内存更大的虚拟机实例。例如,AWS的内存优化型实例(如X2iezn系列)可以提供高达12TiB的内存和数百个vCPU。即使不考虑这些顶级的“巨无霸”实例,普通的高性能计算实例也足以应对绝大多数企业的数据分析需求。这种单机能力的指数级增长,实质上是在不断“蚕食”曾经属于“大数据”范畴的领地。

更重要的是,过去那种大型机器成本远高于小型机器的局面也发生了改变。蒂加尼指出:“然而,在云中,使用整个服务器的虚拟机仅比使用服务器八分之一的虚拟机贵8倍。成本与计算能力成线性关系向上扩展,直至非常大的规模。” (“However, in the cloud, a VM that uses a whole server only costs 8x more than one that uses an 8th of a server. Cost scales up linearly with compute power, up through some very large sizes.”) 。这种线性的成本扩展性,使得企业在需要时可以经济高效地获得强大的单机处理能力,而无需过早地投入到复杂的分布式系统中。

一个极具说服力的例证是,蒂加尼提到:“事实上,如果你看看最初Dremel论文(BigQuery的前身)中发表的使用3000个并行节点的基准测试,你会发现如今在单个节点上就能获得类似的性能。” (“In fact, if you look at the benchmarks published in the original dremel paper using 3,000 parallel nodes, you can get similar performance on a single node today (more on this to come).”) 。这充分说明了单机性能的巨大进步是如何改变我们对“规模”的认知的。

基于这些观察,蒂加尼提出了一个发人深省的问题:你的企业真的属于那需要担心“大数据”的“百分之一”吗? 。他给出了一系列自检问题,帮助组织判断自己是否真的面临大数据挑战,或者只是被时代的焦虑所裹挟:

  • 你真的在产生海量数据吗? 
  • 如果是,你真的需要一次性使用海量数据吗? 
  • 如果是,这些数据真的大到一台机器装不下吗? 
  • 如果是,你确定你不是一个数据囤积者吗? 
  • 如果是,你确定进行数据汇总不是更好的选择吗? 

蒂加尼的结论是:“如果你对这些问题中的任何一个回答‘否’,那么你可能适合新一代的数据工具,这些工具可以帮助你处理你实际拥有的数据规模,而不是人们试图吓唬你让你认为某天可能会拥有的数据规模。” (“If you answer no to any of these questions, you might be a good candidate for a new generation of data tools that help you handle data at the size you actually have, not the size that people try to scare you into thinking that you might have someday.”) 。

这种“恰如其分”的数据处理理念,与近年来强调“精益数据”(Lean Data)或“正确数据”(Right Data)的思潮不谋而合。例如,一些行业分析师开始倡导企业应关注数据的质量而非数量,确保收集的数据与业务目标紧密相关,并且能够被有效地分析和利用。与其追求无休止的数据扩张,不如优化现有数据的价值密度。

当然,这并非否定确实存在需要处理超大规模数据集的场景,例如在基因组学研究、高能物理实验、全球气候模拟或大型互联网公司的用户行为分析等领域。这些领域的“大数据”是真实存在的,并且对专门的分布式处理技术有着刚性需求。但关键在于,这些场景并不代表所有企业或所有应用的普遍情况。将这些极端案例的需求泛化为所有人的标准,本身就是一种误导。

因此,当“大数据”的边界因技术进步而不断后退时,绝大多数组织或许应该将目光从遥不可及的“数据地平线”收回,聚焦于脚下这片更真实、更具潜力的“数据沃土”。识别自己是否真的属于那稀有的“百分之一”,是做出明智数据战略决策的第一步。

07、尾声:超越规模的迷思,拥抱数据的真实价值与智慧未来

乔丹·蒂加尼以其在数据领域前沿的深厚积淀,为我们揭示了“大数据”喧嚣背后更为冷静的现实。他的核心论点——“大数据已死”,并非宣告数据不再重要,而是宣告那种对数据规模的盲目崇拜和由此引发的普遍焦虑已不合时宜 。当技术的飞轮不知疲倦地向前滚动,曾经被视为难以逾越的数据鸿沟,在硬件性能的指数级提升和架构模式的不断创新面前,其“天险”属性已大大削弱 。

正如蒂加尼所指出的,我们更应该关注的是如何利用数据做出更好的决策 。这一观点在当前的数字化转型浪潮中显得尤为重要。企业和组织面临的真正挑战,往往不是数据不够“大”,而是缺乏从数据中提取“大智慧”的能力。根据Gartner等咨询机构近年来的报告,数据素养、分析能力、数据驱动的文化以及将洞察转化为行动的敏捷性,仍然是许多组织在数据价值实现道路上的主要瓶颈。

放眼全球,对数据价值的认知正在经历一场深刻的变革。2024年欧盟《数据法案》(Data Act) 的全面生效,进一步强调了数据的公平访问、使用和共享,旨在打破数据孤岛,释放工业数据的潜力。这标志着政策层面也开始从单纯关注数据保护(如GDPR)向促进数据流动和价值创造拓展,但其核心依然是“有价值的数据”而非“海量但无序的数据”。该法案鼓励企业间(B2B)和企业对政府(B2G)的数据共享,特别是在物联网等领域,这无疑会产生更多数据,但其背后的驱动力是应用和价值,而非数据本身的堆积。

与此同时,人工智能,特别是生成式AI的崛起,为我们提供了前所未有的数据处理和洞察提炼工具。AI既是数据的“饕餮食客”,也可能成为帮助我们摆脱“数据泥潭”的“智慧向导”。一方面,训练先进的AI模型确实需要大量高质量数据;但另一方面,AI技术本身也在赋能更高效的数据管理、更智能的查询优化(例如,自然语言查询接口使得非技术用户也能与数据对话),以及从复杂数据集中自动发现模式和洞察。正如一些科技思想领袖所预见的,未来的数据战略可能不再是“越大越好”,而是“越聪明越好”。AI可以帮助我们识别哪些数据是真正有价值的“黄金”,哪些只是需要妥善管理的“矿渣”。

蒂加尼对“数据囤积”的警示也与当前对数据伦理和可持续性的日益关注相呼应。无限制地收集和存储数据,不仅带来了前文所述的经济和法律风险 ,也可能加剧数字鸿沟,并引发关于隐私和监控的伦理担忧。负责任的数据管理,意味着在数据的整个生命周期中都要审慎权衡其潜在价值与潜在风险,做到“取之有道,用之有度”。

因此,当我们告别“大数据”的喧嚣时代,并非是数据的旅程结束了,而是开启了一个更成熟、更聚焦价值的新篇章。企业需要从对规模的迷恋中解脱出来,转而投资于提升自身的数据理解能力、分析能力和治理能力。培养一支能够提出正确问题、解读数据含义并将结果应用于实际业务场景的团队,远比拥有一个号称能处理无限数据的平台更为关键。

未来的数据图景,或许不再是少数“数据巨头”的独角戏,而是更多组织能够基于自身“恰到好处”的数据,运用日益普及和智能化的工具,创造出独特的价值。这需要一种务实的态度,一种对数据真实面貌的清醒认知,以及一种将技术作为实现商业目标和解决现实问题的手段而非目的本身的智慧。正如蒂加尼在其文章末尾所期望的,新一代的数据工具将帮助我们处理实际拥有的数据规模,而非被虚幻的恐惧所驱动 。而我们,作为数据的驾驭者,更应以清明的心智,驶向那个数据真正为我们赋能的未来。这不仅关乎技术的选择,更关乎我们如何在这个信息爆炸的时代,保持独立的思考和清醒的判断,让数据真正服务于人类的福祉与进步。