< 返回新闻公共列表

瑞幸：数据背的锅总会以数据的方式还回来

发布时间：2020-04-05

今年1月份，浑水研究发布了一份瑞幸咖啡的做空报告，声称该报告是基于92个全职和1400个兼职调查员，在瑞幸咖啡各大门店卧底搜集到瑞幸咖啡的核心数据写成。据说为了监测到瑞幸咖啡门店每天的客流量，调查员们甚至偷偷在店面安装了摄像头。

面对这份铁证，瑞幸咖啡不得不承认自己财务数据造假的事实，但除了这种耗费人力、物力的方式，就没有其他方法看清真相吗？近几年被寄予厚望的大数据风控为什么没有预警？

瑞幸财务造假被数据实锤

4月2日，瑞幸咖啡发布公告，公开承认瑞幸咖啡存在22亿元销售造假。消息一出，2个月前关于瑞幸咖啡的做空报告再次被拿出来。在公众看来，瑞幸的公告是直接承认了做空报告提到的财务数据造假。

公开消息显示，今年1月底，浑水研究收到了一份长达89页的做空报告，报告直指瑞幸咖啡捏造公司财务数据和运营数据，并列举了详细的数据证据。

报告称，瑞幸咖啡“在2019年的第三季度和第四季度，每店每日商品数量分别夸大了至少69%和88%”。报告调研得出数据显示，瑞幸咖啡平均每家门店的日销量只有263件，这比瑞幸咖啡自称的495件少了将近一半。与此同时，瑞幸咖啡同一个门店，同一天的线上订单量夸大34至232单，平均值为106笔/天，是线下平均订单数量的72%。

不仅如此，报告还提到，瑞幸咖啡在给股民看的报告中，声称他们的平均售价已经提高到11.2元，但调查显示，瑞幸的平均售价只有标价的46%，每单销售额还不到10元。

做空报告认为，单店销售数量、线上订单数量和平均售价这几项数据造假，就充分证明了瑞幸存在财务造假行为。当然，报告中还列举了调查员卧底获取的其他证据，比如店长把取餐码从自然数变成随机数列等。

对企业来说，单店销售数量、客单价等数据往往是内部经营数据，浑水这份报告的数据真实度有多少？调查者又是如何获得了瑞幸的内部经营数据？

关于这一点，报告中提到，这些数据是调查机构雇佣了92名全职员工和1418名兼职人员，通过拍摄视频的方式，线下追踪了981个瑞幸咖啡门店经营，其中包括620家店铺开门到关门全部经营时间的数据，拍摄总时长11260小时。

通过视频记录，调查机构算出了瑞幸咖啡的到店人数。并通过视频记录的外卖人员进店取餐情况，算出了线上订单数量，进而计算出了单店的日销售数据。

关于客单价的数据，调查机构是通过从45个城市的2213家门店收集了一共25843张小票收据，一张一张拍照存档，进而分析得出。

一位从事统计工作的工作人员告诉《数据》记者，这份调研报告获取数据的方式，就是传统统计工作会采用的调研方式：依靠人力、抽样采集。

数据显示，截至2019年底，瑞幸咖啡的门店数量是4500家，分布在全国27个省份、166个城市。

数据拆穿数据的谎言

目前，我们还无从得知瑞幸咖啡财务数据造假真的只是COO带领下的小团队行为，还是有更大内情。但不得不承认的是，在大数据算法面前，瑞幸的财务数据问题显然无处遁形。

这也是为什么瑞幸咖啡会发公告承认财务数据造假，多位投资人提到，“瞒不住了”。

可以看到，浑水这份报告是通过大量人力调研获取数据，进而分析得出结论。从这个角度来说，似乎想要提前发现瑞幸咖啡的财务数据问题并不容易。

但只要稍微分析就会发现，从每日订单量到人均客单价，再到年度营业额这些数据，系统性的做假不是一项小工程。

依据瑞幸咖啡已公布数据显示，2019年后三个季度瑞幸咖啡的营业收入大约46亿元人民币，此次造假涉及金额22亿元，接近一半的业务数据做假。

如此大规模数据做假，9个月的时间里，瑞幸咖啡内部竟然一点异常都没有，这对一个号称“有深厚技术背景的强运营公司”来说，实在无法理解。

关于瑞幸的技术和数据能力，2018年一篇专访文章中，瑞幸咖啡(中国)有限公司联合创始人、高级副总裁郭谨一曾介绍，“依靠后台大数据系统，瑞幸咖啡所有订货系统全是自动的，系统自动会算，全是机器学习的，会预测第二天卖多少，不断调整订货的量。”

为了便于远程监控机器的运行状态，瑞幸要求供应商同时开放接口，通过物联网的方式来管理未来全国几千家咖啡店里的咖啡机。在店面运营中，瑞幸还开发出了自动排班系统。什么时候是高峰，什么时候是低谷，由系统来配备人力、自动预测对接外卖系统。

此时，瑞幸咖啡这套由机器、数据和物联网构成的后台自动化系统，为这个品牌镀了很厚一层金。郭谨一甚至放话，“这个市场不管是卖给我，还是卖给其他人，你都要改机器，为什么呢？因为我是市场领导者，至少是新零售咖啡市场的领导者和规则制定者，你杯型这些都得按照我的规则来”。

一位大数据行业从业者告诉《数据》记者，浑水报告中的数据其实可以有更快、更准确的方式获取，只要拿到瑞幸的支付数据和运营商数据，很容易就能掌握瑞幸的实际客流数量和经营情况。“这些数据外部公司拿不到，但对瑞幸都是日常运营数据，一家技术运营公司不可能发现不了这些数据异常”，显然，这是一场具有主观意识的“骗局”。

大数据风控正在迈的坎

瑞幸咖啡事件带来的一系列连锁反应还在发酵，这家拥有5256家门店的品牌是否会昙花一现我们不得而知。值得反思的是，为什么瑞幸的事情一直没有被发现，近几年被热议的大数据风控也没有给出任何预警？

金融风控大数据企业迪科数金金融产品部副总经理朱全日告诉《数据》记者，通过运营商数据和支付数据能比浑水这份报告更快、更准确，但鉴于当下依然存在的数据壁垒和数据隐私保护问题，外人想要拿到瑞幸的运营商数据和支付数据并不容易。

再看浑水这份匿名报告的调查方式：员工卧底、潜入内部核心交流群、偷偷安装摄像头，私下搜集客流数据和小票数据。

“严格来说，这些数据源均涉及用户个人信息等隐私数据，大数据公司没有办法直接拿到这些数据进行挖掘分析，所以必须是在数据打通的情况下才能入手去做这件事”，朱全日表示，当前大数据风控面临的主要瓶颈就是数据割裂和数据质量无法保证，囿于这两大难题，大数据公司能掌握到的有效数据非常少。

这也就是说，现在大数据公司所做的大数据监测，只能基于对外公开的数据，那就意味着，只要公开的数据是假的，那么大数据技术所做的分析结果也会不准确，这也是为什么瑞幸的财务数据造假难以被大数据发现。

不过，技术公司也想出了新办法，朱全日提出了一种叫安全计算的方式，就是围绕某个企业主体在各分散平台中产生并留下的数据，包括经营数据、客流数据、工商数据、股市数据等等，在不必拿到原始数据，不必发生数据流通的情况下，通过安全计算得到一个总的分析结果。

换句话说，通过这种大数据分析方法，完全可以在不触及数据隐私保护问题的情况下，更早的发现瑞幸咖啡财务数据中潜藏的问题。

朱全日表示，大数据行业的数据困境已持续多年，五年前，整个行业还是云平台模式，只有把所有数据都汇总到云中心的平台上，才能进行数据的挖掘分析。但现在应该是分布式协同智能模式，数据不需要做集中汇总，它们可以独立分布于一个个不同的地方，通过协同智能的方式，在非原始数据的层面上进行协同。