干了三年数据,只会接需求:写给所有感觉自己像个工具人的你

轮子 数据 SQL 纸糊 Excel
发布于 2026-06-09
2

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

AI认为:没有这些东西,你谈什么数据基建?口径不统一同一个指标出来的数都不一样;语义不明确,GMV减没减退货都说不清;没有达成共识,说个屁的配合?

这话有道理么?有道理!我当然知道有道理,但是呢?就是感觉差点什么;

我问到:这个事情对一个公司来说真的很重要么?对所有公司都很重要么?对每个阶段的公司都很重要么?

我自己的答案是:生存期不重要,扩张期越来越重要,成熟期极其重要;

这里边有一个很重要的问题:数据人真的是中立的么?

我的结论是:数据会向强势一方倾斜;财务强势,那GMV就是净的;业务强势那GMV就是成交的;

你会发现你永远在妥协,向老板妥协,向业务妥协,向财务妥协;这无可厚非,这是常态,美其名曰数据服务于业务;

这就引出另外一个问题,你的价值在哪里?

所以我决定先写这一篇。

请大家先记住下边的三句话:

“每个人都有自己的一套做事框架,我们吸取到的经验都应该融入到自己的框架当中,使其完善,或者开枝散叶。”

“从0到1比从1到10要更先开始。先迈步子再说走起来、跑起来的事。”

“我们需要一个粗糙但是贯穿的全流程,而不是一个相对完美的半程。”


先问大家一个问题

为什么你的经验应该长成一棵树,而不是堆成一堆沙

再问大家两个问题:

“今年你觉得最有价值的事是什么?”

接了业务部37个数据需求?写了将近两万行SQL?维护了十几张报表,还处理了不知道多少次“这个数不对”的临时追问?

“举个例子,你做的哪件事真正改变了业务的决策方式?”
你会不会卡住?
然后你看到那些比你晚入行的人,干了不到两年就能和业务方平等对话,敢在会议上说“这个指标口径不对,应该这么定”,甚至能拉着产品和研发开需求评审会,讨论的不是“这个数怎么取”而是“这个数应该怎么设计”。
你有没有过自我怀疑:我是不是就是那种“只会接需求”的工具人?
问题从来不是你不够努力,而是你没有一套把经验变成框架的方法。
想象一下两种积累经验的方式。
第一种像堆沙子。今天接一个需求,写一堆SQL,明天接另一个需求,又写一堆SQL。每次都从头来,每次都靠人脑记。三年下来,你面前堆了一座沙山。风一吹,散了。问你做了啥,你指着沙堆说:每一粒沙砾都是我的骨血心血
第二种像种树。你做的第一件事是埋下一颗种子,然后每一次新的工作,都在让这棵树长出新的枝干。第一年树干还细,第二年有了分支,第三年枝繁叶茂。风来了,吹不动。有人问你的经验是什么,你拍着树干说:这就是。
大部分数据人的三年,都是在堆沙子。只有少数人,在种树。差距在哪?差在一套属于自己的做事框架。
这套框架不是什么玄乎的理论,它是一套你从工作的第一天就可以开始搭建、每一次干活都能往上添砖加瓦的方法论。更关键的是,它的“最小可用版本”简单到你明天上班就能动手。
我把它叫做:数据人的“四个轮子”

数据人的“四个轮子”

聊一个很多人对数据工作的误解。
很多人以为,数据基建是个线性工程。先搭底层,再做中间层,最后搞应用层。先建数仓,再治理指标,然后做报表,最后赋能业务。听起来很有逻辑,但这么干的人,十个有九个死在半路上。
为什么?因为真实的工作场景不是写代码可以一次编译通过。业务不会等你把地基打完再提需求,老板不会等你把口径全部对齐再要结果,你自己的成长更不会等你把体系搭完美了才开始。
数据能力的建设从来不是一条流水线,它是一辆车。一辆需要四个轮子一起转的车。
这四个轮子是:
第一个轮子:动手做
这是最本能的轮子。业务说要一个数,你就去把数跑出来。需求说要看趋势,你就去画一张图。这个轮子的核心任务是:把数据从无到有地跑起来。没有这个轮子,一切都是空谈。
第二个轮子:简单规范
这是最容易被人跳过的轮子。跑出来的数叫什么名字?这个指标到底怎么算的?包含哪些不包含哪些?这个轮子的核心任务是:把已经跑起来的东西约定口径和命名。很多人觉得这事不急,先欠着,结果欠成技术债山。
第三个轮子:固化标准
这是让经验变成资产的轮子。同样一个归属逻辑,你第一次算的时候花了半天和人讨论,第二次算又花了半天,第三次你烦了,直接写死一个规则。这个轮子的核心任务是:把约定沉淀成可复用的规则。写死在SQL里也好,固化成Excel公式也罢,总之下次别让我再想一遍。
第四个轮子:初步赋能
这是最容易被误解的轮子。很多人觉得赋能是要搞一个完美的数据产品、一个炫酷的BI看板,然后隆重发布。错了。赋能的本质是:把结果给出去,让业务方用起来。哪怕只是一张Excel截图,只要对方拿去做了决策,就是赋能。
好了,现在最关键的问题来了。
这四个轮子是什么关系?是不是我先把“动手做”搞好了,再搞“简单规范”,再搞“固化标准”,最后“初步赋能”?
不是。这是最致命的误解。
这四个轮子不是四个阶段,是从第一天就同时存在的四个线程。
什么意思?我举一个最真实的场景。
你入职第一周,接了第一个需求:业务想看最近一个月的销售额趋势。
只动轮子一的人会怎么做?写个SQL,把每天的销售额拉出来,粘到Excel里,画个折线图,截图发群里。完事。
四个轮子一起转的人会怎么做?
动手跑数(轮子一)的同时,他顺手在飞书文档里记了一句话:“销售额取的是订单表里状态为‘已完成’的实付金额,不含退款。”(轮子二)
他在Excel里写公式的时候,发现有个渠道归属的问题今天先按订单创建时的渠道算,于是他顺手在公式旁边加了个批注:“渠道归属规则:按订单创建时的渠道ID,不考虑后续变更。”(轮子三)
他把趋势图发出去的时候,附了一句话:“这是最近一个月的日度销售额,目前口径不含退款,已知可能有XX活动期间的数据波动,我接下来会补上退款数据。”(轮子四)
你看出来区别了吗?
第一个人完成了一个任务。第二个人除了完成任务,还多做了三件事:定义了一个词、固化了一个规则、发出了一个可用的结果并说明了边界。这三件事加起来花了多久?可能不到五分钟。
但这五分钟,是他开始种树的五分钟。三个月后,当他需要回答“销售额到底怎么算的”这个问题时,他不用去翻半年前的SQL,不用在群里和业务方吵三年前的口径,他有一篇文档,上面清清楚楚写着定义和记录。
更重要的是,他的轮子二、三、四都已经有了一个“纸糊的”雏形。纸糊的不结实,但能转。能转就比没有强一万倍。
为什么四个轮子必须一起转?
因为只有四个轮子都转起来,你才能拿到全局的反馈。你才知道哪个轮子最该升级。
轮子一跑出来的数总被人质疑,说明轮子二该加固了——口径没定义清楚。轮子二定义的词没人看,说明轮子四该升级了——文档发出去的方式不对,没嵌入工作流。轮子三固化的规则每次都要重新解释为什么这么定,说明规则不够显性化,该写到更靠前的位置。轮子四发出的报表没人回,说明你赋能的方式有问题——也许对方根本不知道这表能帮他干啥。
如果只转一个轮子,你永远拿不到这些反馈。你会陷在“我SQL写得越来越快”的虚假成长里,直到某一天被一个叫“业务理解能力”或者“架构设计能力”的门槛绊倒。
现在你应该明白了,这套框架不是让你做更多的事,是让你在做同一件事的时候,顺便多踩三脚油门
接下来,我们进入最实操的部分。每一个轮子的0到1到底怎么做。放心,没有一个是需要你花一周时间准备的。每一个的起点,都是纸糊的。

每个轮子的0到1怎么做

先给你吃一颗定心丸:每一个轮子的0到1版本都是纸糊的。纸糊的不丢人,能跑起来才重要。
纸糊的车有什么好处?第一,做得快。第二,坏了不心疼。第三,跑起来之后你才知道哪个轮子受力最大,哪个轮子该优先换成铁的。
所以不要追求完美。追求完美是0到1最大的敌人
我们一个一个轮子拆解。
轮子一(动手做)的0到1:只接三张表,只算三个指标
动手做的0到1版本长什么样?
不是一套完整的数据仓库,不是一个自动化的ETL流程,甚至不是一张复杂的BI报表。是一张Excel趋势图。对,你没看错。一张你手工跑数、手工粘贴、手工画图的Excel。具体怎么做?
第一步:只接三张表。
你入职第一天或者接手一个新业务的第一周,别想着把所有数据源都摸清楚。你只需要找到三张表:一张记录核心业务发生的表(比如订单表、交易表),一张记录主体的表(比如用户表、商品表),一张记录时间的表(通常第一张表里就有时间字段)。就这三张。多了不看。
第二步:只算三个指标。
从这三张表里,你只算三个数:发生了多少次、涉及多少金额、覆盖多少主体。用数据术语说就是:订单量/访问量/事件量、交易金额/GMV/收入、用户数/商家数/商品数。就这三个。多了不算。
第三步:手工跑出第一版趋势图。
写三行SQL,把最近30天这三个数按天拉出来。复制到Excel,插入折线图。检查一下横轴是不是日期,纵轴是不是数值。完事。你可能会问:这也太简单了吧?这算什么数据基建?
我告诉你这是什么。这是你在这个业务里埋下的第一颗种子。
当你能拿出一张包含核心指标的趋势图时,你已经做到了三件事:你知道了数据在哪、你知道了怎么取出来、你有了一个可以和业务方对话的起点。
别小看这张手工图。它让你从“我还在熟悉数据”的阶段,直接跳到“我有一个初步结果可以看”的阶段。前者是被动的,后者是主动的。
轮子一0到1的产出物:一张Excel趋势图,截图也行。
轮子二(简单规范)的0到1:定义三个最近吵过的词
简单规范的0到1版本长什么样?不是一套完整的数据字典,不是一个指标管理平台,甚至不是一份正式发布的公司级规范文档。是一篇只定义了三个词的飞书文档。具体怎么做?
第一步:找到最近开会吵过的词。
闭上眼回忆一下,过去一周的会议上,有没有人说过类似的话:“这个转化率和我看的怎么不一样?”“你们说的GMV含不含退款?”“这个活跃用户到底怎么定义的?”如果有,恭喜你,你找到了轮子二的第一批原材料。
第二步:写下来。
打开飞书文档(或者任何你公司用的在线文档),创建一个新页面,标题就叫《数据口径记录》。然后写下第一个词。格式极其简单,就五行:
词名:比如“销售额”
约定含义:取订单表状态为已完成的实付金额
不包含什么:不含退款订单、不含货到付款未支付的订单
记录人:你的名字
记录时间:今天日期
没了。就这五行。
第三步:重复三次。
别贪多。第一篇文档只定义三个词。三个最能解决当前争吵的词。
为什么只定义三个?因为你的目标不是编字典,是建立一个能转起来的轮子。三个词的文档,你花15分钟就能写完。写完之后,它的身份就变了——它成了“我们团队的数据口径记录”。
下一次再有人问“销售额怎么算的”,你不用打字解释,直接把文档链接甩过去。对方点开一看,清清爽爽,你记录的时间还是上个月的,专业感拉满。
轮子二0到1的产出物:一篇只定义了三个词的飞书文档。地址放在你的收藏夹里。

轮子三(固化标准)的0到1:写死一个规则
固化标准的0到1版本长什么样?不是一套灵活可配置的规则引擎,不是一个参数化的计算框架,甚至不是一个单独的配置文件。是一个写死在SQL或Excel里的规则。具体怎么做?
第一步:找到第一个需要分摊或归因的场景。
这是数据工作中最让人头疼的问题之一。一个订单算谁的业绩?一个用户从哪个渠道来的?一次转化归因给哪个触点?你不需要一开始就解决所有归因问题。你只需要找到一个场景,一个你在最近两周内至少被问了两次的场景。
比如:“这个订单算北京大区还是上海大区?”、“这个用户算抖音渠道还是小红书渠道?”
第二步:定一个最简单的规则。
别搞复杂的。什么“按最后一次点击归因”、“按时间衰减模型”、“按协商比例分摊”——这些是以后的事。0到1阶段,你只需要一个最粗暴、最没有争议、或者最有共识的规则。
比如:“按订单创建时填写的所属大区,不处理后续变更。”
比如:“按用户首次访问的来源渠道,不覆盖。”
比如:“按五五分。”
对,五五分也是一种规则。它不精确,但它是一个标准。有标准就比没标准强一百倍。
第三步:写死在SQL或Excel里。
如果是在SQL里,你就把这个规则写成CASE WHEN。如果是Excel,你就把公式锁死,或者在表头用大红字标注计算逻辑。
关键动作是:下次再用到这个场景时,你别再想一遍,直接用这个写死的规则。
轮子三0到1的产出物:一个写死的规则,下次直接调用的那种。
轮子四(初步赋能)的0到1:发出一封邮件
初步赋能的0到1版本长什么样?不是一个数据产品发布会,不是一个培训专场,甚至不是一个正式汇报。是一封邮件,或者一条消息。具体怎么做?
第一步:把你轮子一跑出来的那张Excel趋势图,放进邮件里。
不是放进BI系统里发个链接,是直接截图放在邮件正文里。让对方打开邮件就能看到图,不用再点一下。
第二步:附上三段说明。
第一段:这张图是什么(比如“最近30天销售额日度趋势”)。
第二段:这个数的口径是什么(直接复制你轮子二里写的定义)。
第三段:目前已知的问题是什么(比如“本周三的数据波动是因为大促活动,正常现象”、“退款数据暂未剔除,下周版本会补上”)。
三段,每段不超过两行。
第三步:发出,然后等。
发给你认为最需要看这个数的人。可能是你的直属领导,可能是提需求的那个业务方,可能是一个相关的小群。发出之后,你的任务就完成了。你可能会紧张:数据还不完美,口径还有问题,图也不好看,人家会不会觉得我不专业?我告诉你一个反直觉的事实:主动暴露已知问题比藏起来更显得专业。
当你主动说“这个数目前不含退款,下周补上”的时候,你传递的信息是:第一,我清楚这个数的边界;第二,我知道下一步怎么迭代;第三,我对自己交付的东西有掌控感。
这比闷头做一个“完美”的版本再发出去要靠谱得多。因为完美的版本永远不会来。更重要的是,轮子四真正的价值,是帮你拿到反馈。老板回你一句“退款数据要尽快补”,这是轮子一的升级信号——你得去接退款表了。业务方回你一句“能不能切到商品维度看”,这是轮子三的升级信号——你得固化物品种类归因了。
没人回你?这也是信号。说明你赋能的方式或者对象不对。要么人家根本不关心这个数,要么你的呈现方式没让他感知到价值。轮子四该换个方向转了。
轮子四0到1的产出物:一封邮件或一条消息,内容是一张图加三段说明。
好了,四个轮子的0到1版本都摆在你面前了。
你会发现一个共同点:每一个的完成标准都不是“完美”,而是“能用”。
轮子一不是自动化的,是手动的。能用。
轮子二不是完整字典,只定义了三个词。能用。
轮子三不是灵活引擎,是一个写死的规则。能用。
轮子四不是产品发布会,是一封邮件。能用。
这就够了。
纸糊的车也是车。它能跑。
当你把四个纸糊的轮子都装上,你会发现一个神奇的现象:你的车开始跑了。虽然颠簸,虽然慢,虽然吱嘎作响,但它在跑。而那个还在旁边画图纸、准备造一辆完美汽车的人,至今还没离开原地。

四个轮子怎么一起转

现在你的车跑起来了。四个轮子都是纸糊的,但确实在往前挪。
下一个问题自然就来了:我该先升级哪个轮子?
这个问题我几乎每次和同行聊都会被问到。大家的本能反应是:我应该制定一个升级路线图,先加固轮子一,再优化轮子二,然后迭代轮子三,最后放大轮子四。
听起来很有计划性。但我劝你别这么干。因为真实的路况不会按你的计划来。你可能正打算花一周时间优化轮子二的指标字典,结果周一早上业务方丢过来一个紧急需求,要你三天内出一份渠道ROI分析。你的计划瞬间被打乱,然后你就会焦虑,觉得自己又偏离了“正确”的轨道。
听我一句:你没有偏离轨道。处理那个紧急需求,恰恰就是轨道的一部分。四个轮子的生长逻辑不是计划驱动的,是反馈驱动的。具体怎么理解?我给你模拟几个最真实的场景。
场景一:老板在群里@你,说“这个数和我印象中不太一样”。反馈来了。老板觉得数不对,意味着你的数据可信度受到了挑战。这个反馈指向哪个轮子?轮子二(简单规范)
你该做什么?不是回去闷头重跑一遍数,而是去检查口径。销售额到底含不含退款?活跃用户的定义是什么?你上次定义这三个词的时候,是不是漏了老板关心的那个场景?于是,轮子二获得了升级动力。你去把那个引起争议的词定义得更清楚,补充一个“不包含什么”的场景,更新你的飞书文档。
这个动作可能只需要你花20分钟,但做完之后,下次同样的问题就不会再出现了。轮子二从纸糊的变成了木头的。
场景二:业务方看了你的报表,说“ROI这么低,是不是渠道归属有问题”。反馈来了。业务方质疑的是计算逻辑的合理性。这个反馈指向哪个轮子?轮子三(固化标准)

随风的数据分析