记一次大数估算

Random Access

记一次大数估算

2018-09-14 ｜

之前在一次电话面试之后，对方提了一个估算的问题：

2017 年 25-35 男性在服装上的整体消费市场有多大（GMV）？

下面是我的计算过程：
整体的公式其实很简单，人数×人均频次×客单价=GMV。接下来需要的就是逐步拆解，去找到能用的信息源。

关于人数

依据国家统计局给出的人口年龄、男女比例的数据，估算2017年25-35的男性人口比例为 0.087，以14亿人口总数（2017年估算），该年龄段的人口数目约为 1.218 亿。

以上数据源来自国家统计局，估算的方式的话使用的是之前几年数据的拟合。当然拟合的相当粗糙，不过应该不存在数量级的差异。

关于人均频次×客单价

依据国家统计局给出的季度居民人均衣着消费支出，估算出 2017 年人均衣着支出约为 3400 元。
人均衣着支出关于年龄的分布，可以猜测是正态分布，25-35 的居民很可能落在正态分布的峰值附近，其平均值与整体的平均值不存在数量级的差异，故可以认为 25-35 的居民 2017 年人均衣着支出也是 3400 元。
25-35 的男女服装消费的比例有待确认，我这边没有可靠的估算数据来源，不过猜测不会有数量级的差异，故暂定假设是男女消费比例为 2:3。

数据源同样来自国家统计局。其中关于平均值的计算可以看一下正态分布的曲线就能明白。

最后的结果

依上，可得出 25-35 男士的 2017 年总消费额约为 1.218 x 3400 x 2/5 = 1,656.48 约 1700 亿

Last but not least

这类问题，泛一点归类的话，可以归为所谓的费米问题，Wikipedia 中的解释如下：

在科学中，尤其是在物理和工程教育中，费米问题或费米估算是一个用来做量纲分析，估算和清晰地验证一个假设的估算问题。命名自恩里科·费米。这类问题通常涉及对于只给定有限的已知信息，而似乎是算不出来的量，作出合理的猜测。

本质上，这类问题考验的不是实际的准确度。如果了解量纲分析的就知道，这个过程追求的是合理性，而不是准确的数值结果。那么考验的是什么呢？其实就是建模的能力，也就是对于实际问题抽象出模型并验证的能力。举例来说，上面这个问题本质上就考验了一个模型，人数×客单价=GMV，后续的步骤只是依据这个模型找各种数据源来拼接出来结果；再举一个 Wikipedia 上的一个例子：

在芝加哥有多少钢琴调琴师？
大约有9,000,000 人生活在芝加哥。
在芝加哥平均每个家庭有2个人。
大约在20个家庭中有1个家庭有定期地需要调钢琴。
定期调琴的钢琴每年需要调整一次。
每个调琴师大约需要2小时调琴，包括路上时间。
每个调琴师每天工作8小时，一周5天，一年50周。
通过这些假设我们可以计算出每年在芝加哥需要调整的钢琴数量是
(9,000,000 人在芝加哥) / (2 人/家) × (1 架钢琴/20 家) × (1 架钢琴调整/1年) = 225,000 架钢琴在芝加哥每年被调整。
类似地计算出平均每个调琴师
(50 周/年)×(5 天/周)×(8 小时/天)/(1 架钢琴/2小时) = 1000 架钢琴每年/1调琴师。
做除法得到
(225,000 架钢琴在芝加哥每年被调整) / ( 1000 架钢琴每年/1调琴师) = 225 个调琴师在芝加哥。
事实上，一共有大约290名调琴师在芝加哥。

上面的整个计算过程，核心其实是最后一步，需要被调整的钢琴数÷每个钢琴师能cover的钢琴数=钢琴师的数目。这个也是解决这个问题时建立的模型。当然拆解之后还有其他的模型，例如计算钢琴数目的时候，使用的是人均数目×总人数等等。
这类模型里面有一个挺出名的德雷克公式，用来推测可能与我们接触的银河系内外星球高智文明的数量。有趣的是，这个模型也可以用来解释为什么你找不到女朋友（滑稽

标签： / lifestyle / product