按平均值溺水:ABS是否错误估算了人口普查负荷?

作者:易焘

在介绍性统计类中使用了一个旧的比喻来说明当最大值感兴趣时,平均值可能会产生误导。这个比喻是一个在河边散步时溺水的人。这个人不会游泳,但不关心,因为河流的平均深度只有20厘米。问题是河流的平均深度在这里没有用处;我们需要的是有关最大深度的信息,以便它们不会超过他们的头部。河流平均只有20厘米深,但中间深几米。与河流交叉一样,各种网络负载也是如此。虽然昨晚澳大利亚统计局(ABS)在线人口普查系统崩溃的确切原因仍不清楚,但仍有一个关于负载测试的教训。在8月9日星期二的人口普查日之前,ABS宣布系统无法在人口普查之夜处理负荷。为什么?因为它已经测试了系统。或者,相反,ABS向外部方支付了相当多的钱来测试系统。对某些给定的规格进行负载测试,在这里我们发现ABS测试过程中可能存在严重问题。为了让那些对新的在线人口普查越来越担心的公众放心,ABS做出如下声明:在线人口普查表每小时可处理1,000,000份表格。这是我们预计需要的容量的两倍。从这个声明来看,似乎ABS负载测试每小时100万次提交,同时预计每小时50万次。但澳大利亚有900万到1000万户家庭,ABS总共预计提交了大约1500万次人口普查,其中65%是在线提交的。当然,并非所有这些提交都将在8月9日发布,但大多数会提交。此外,绝大多数提交的作品预计将在傍晚的高峰时段(东部标准时间下午6点至晚上10点之间)进行。 ABS每小时提交的50万次提交的预期负载仅作为当天大部分时间的平均负载而有意义。例如,如果在8月9日的12小时内平均分配了50万份提交内容,那么我们将在此期间提交600万份提交内容。但很明显,负荷不会均匀分布。并且,为了强调显而易见的,它是我们感兴趣的峰值负荷。对傍晚时期峰值负荷的任何合理估计都是在每小时几百万附近。更糟糕的是,没有理由期望负载在这段时间内均匀分布。例如,正好是下午7点10分,有3到4百万人试图登录系统,这并非超出合理范围。当然,所有这些都与8月9日每小时提交的平均负载量为50万次相符。但从ABS所说的内容来看,目前尚不清楚它是否测试了这样的峰值。因此,我们应该注意不要过于严肃地对待平均值。正如任何统计学家所知,平均值是总结数据的一种(非常粗略的)方式。其他摘要包括有关最常见数据(模式),数据中间(中位数)和数据传播(方差)的信息。在某些情况下,例如在穿越河流的比喻和计算网络负荷时,要使平均值过于严重,等于将平均值与峰值混淆(即将河流统一为20厘米深或者人口普查提交率为统一每小时50万)。建议昨晚在ABS网站问题背后出现这样一个基本的统计错误似乎是不合理的 - 特别是在谈论一个充满统计学家的组织时。今天早上ABS的故事是它故意关闭系统以保护它免受许多分布式拒绝服务(DDoS)攻击。这就像在关键时刻遭遇山洪袭击的河道。但是有充分的理由怀疑,即使没有这种DDoS攻击,系统也面临着超载的严重危险。这意味着即使是水位的小幅上升,也可能足以造成灾难性的失败。事实上,我们勇敢的河流穿越者可能会被意外的山洪淹没。但鉴于他们没有认识到平均值的局限性作为统计摘要,他们在他们脚趾浸入水中的那一刻就陷入了困境。....

上一篇 : Kelly E Matthews
下一篇 : 金合欢Pepler