沸腾的春晚和烧焦的CPU|技术,

阿多 2024-02-12 1393 0 0 0 0

技术,今年春节格外晚，立春之后又一周。本以为到了“律回岁晚冰霜少，春到人间草木知”的时节，没想到，南方遭遇了雨雪冰冻天气。春节回家的路，漫长而坎坷。为了给春晚拉人气，央视在2月初专门举行发布会。关注发布会人…

今年春节格外晚，立春之后又一周。

本以为到了“律回岁晚冰霜少，春到人间草木知”的时节，没想到，南方遭遇了雨雪冰冻天气。春节回家的路，漫长而坎坷。

为了给春晚拉人气，央视在2月初专门举行发布会。关注发布会人不多，但在影视行业打拼多年的斌哥一眼看到了亮点——今年春晚首次引入VP电影制作。

春晚的VP不是副总裁（Vice President），而是虚拟制片（Virtual Production）。它用计算机生成图像、实时渲染等技术，将虚拟场景与现实拍摄相结合。“VP电影就是造梦，你知道原来搞VP电影得花多少钱？”

看着斌哥故弄玄虚的神情，笔者知道VP电影一定很贵。斌哥说《阿凡达》是2009年VP电影巅峰之作，成本大约是2.37亿美元。“你觉得央视春晚用VP做视觉，能花多少钱？”

笔者一脸茫然。斌哥得意洋洋地说，VP电影需要实时渲染引擎、LED墙、混合虚拟制作，还需要高性能GPU，支持实时光线追踪技术。“原来这些技术只能靠外国公司，贵得不得了。现在很多中国公司都能支持了。所以春晚才会用VP做视觉,总价不会太贵。中国技术擅长从跟随到超越。”

看着搞电影的斌哥给笔者这个写IT的头头是道地讲GPU，竟一时语塞。“那你知道，做好一台春晚，需要多少核CPU?” 笔者反问道。

现在轮到斌哥哑口无言了。其实春晚和CPU的历史，也是中国技术的故事。

CPU都烧焦了

春晚和CPU深度绑定，始于2015年。那一年春晚首次引入红包互动。那年春晚，人们目光不再只聚焦电视屏幕上五彩斑斓的晚会，而是盯紧手机，摇啊摇，仿佛每个人都在与时间赛跑。

全民抢红包的热情带来了海啸山崩般巨大流量。除夕当晚20点到凌晨零点48分，互动总量达到110亿次。互动峰值达到了每分钟8.1亿次。人们隔着屏幕瓜分喜悦，然而抢红包的热情也“烧焦”了服务器。由于大量用户在同一时间参与抢红包，红包系统出现了短暂宕机。

2018年，春晚红包迎来了新的合作方。尽管有了前车之鉴，还是没想到春晚登录实际峰值超过了2017年双十一的15倍，3倍扩容的服务器资源依旧不够。宕机使得部分用户无法正常登录，红包功能无法使用。

合作方换了又换，2019年，又一家公司再次挑战春晚红包项目。要知道，抢红包的人每一年都在增加，经计算，当晚需10万台服务器支持春晚互动，其中5万台服务器需要外部采购。虽然这一年，合作方成功地支撑了高达208亿次互动，没有出现明显的服务中断，但也付出了巨大投入。

至此，在春晚舞台上，互联网企业们轮番登场。虽然红包互动越来越稳了，但红包互动保障成本却居高不下。

以2019年春晚为例，当年合作的互联网企业额外采购了5万台服务器，根据公开数据，2018年，全球服务器市场销售额达到了867.75亿美元，中国服务器市场出货量达到了330.4万台。当时服务器市场价格在3~5万之间，所以5万台服务器，大概是15~25亿元。

在全球华人的节日里，互联网企业都希望呈现最完美的自己，最诱人的奖品和最丝滑的体验。在大厂日进斗金的日子里，25亿不过是一次昂贵的品牌营销。时至今日，大家都要打打算盘。毕竟，成本和收益是颠扑不破的商业规律。没人真的想赔本赚吆喝。

你要当显眼包啊

互联网企业给春晚合作打了样，按理说同行都会按照这个剧本把春晚互动保障演下去，没想到，2022年的画风变了。

那一年，直到倒数19天，央视才正式官宣与京东合作。然而，疫情对全球供应链造成了严重影响。芯片生产和运输出现延迟；远程工作、在线教育、电商购物需求暴增，使得服务器供不应求，京东云本想大量采购服务器保障春晚，但却买不到。

负责人开了几天会，最终拍板通过“云舰”调度计算资源保障春晚互动体验。当年参与春晚保障的春江对笔者说，技术保障团队拼死拼活、没日没夜大战了19天，办公室挤满了行军床，平均两天一次压测做了七轮，直到最终保障成功。

京东人欣喜之余发现了一个秘密，不买服务器，也能接住春晚“泼天的流量”。于是仅仅隔了一年，京东又合作春晚了。

2024年1月24日，京东成为总台春晚独家互动合作平台。一回生，两回熟。春江说，技术团队靠着肌肉记忆也能把春晚保障做下来，没想到负责人提出了新要求——在确保观众互动体验的前提下，再完成两个目标，一是团队全面应用大模型技术，借机推进智能应用的大规模实践；其次希望通过先进技术把保障工作的IT成本降下来，向技术要效益，相较于虎年春晚，综合成本要降低50%以上。

换句话说，别家大厂保障春晚是增加服务器，京东这架势不仅不增加，还要减少服务器。笔者不知道当时保障团队的内心感受，但春江表示，经过这两年的技术捶打，大家觉得这个目标似乎也是大概率可行的。

看来这一次，京东云是铁了心要当显眼包。

科学地预测未来

1月24日春晚官宣后，京东云迅速对外亮相了基于大模型的AI指挥官，即春晚保障Agent。这个Agent集成了京东商业大促和保障虎年春晚、湖南卫视跨年晚会相关数据，输入到保障成本降低50%的目标后，Agent“口吐莲花”，一下子生成了八、九个策略。

项目备战组开会精简了下，确定了五步走战略：即流量预测、算力压榨、军演压测、智能监控、安全防护。当然，春晚互动保障涉及的工作非常多，步骤繁杂。这五步和保障工作的IT成本息息相关。

其实春晚保障工作的起点，是“预测”。

预知未来本是一门玄学，但流量预测，则是实打实的科学。正如京东负责智能运营的张杰所说，即便是春晚泼天的流量，也有迹可循。

用户即流量，用户多则流量大。所以，根据大厂APP的活跃用户数，就能预测出每日流量。但春晚流量预测有点特殊：第一，京东提供了1亿实物礼品和30亿红包，可能会吸引新用户在当晚注册登录抢礼品；第二，京东设置了红包裂变玩法，还会再叠加部分新用户；第三，京东购物券会引发用户购物下单，这是电商公司的独有场景；第四，每个用户从红包互动到商城购物，场景越多流量计算越复杂。

如果不讲究精准，大可估算一个超大流量，计算资源Buff足够，系统就能抗下洪峰。但这种方式缺点也很明显，一个字，贵。京东云要降低保障成本，就得测得准。张杰说，在书画界，临摹代表着100%再现原作。事后看，京东云通过AI模型精准预测流量，最终实现了“临摹需求”，即计算资源和高并发流量的精准匹配。

从字面上看着“临摹需求”四个字，笔者不明觉厉......张杰解释说，首先京东有春晚流量历史数据以及合作地方台跨年晚会互动数据；其次，从原始数据中提取有用特征，包括时间、特殊事件等数千个维度，来提取流量周期性和趋势性特征；通过多种模型来学习和验证，包括时间序列模型、机器学习模型等等；最后，再不断地验证模型预测效果并修正。经过反复打磨，基于Data Science的预测准确率可达95%。

应对流量洪峰从“硬抗”到“智抗”

大多数人都没用过服务器，但都用过笔记本。当你打开很多程序，电脑忽然卡住，散热风扇声音骤然加大。这样的场景似曾相识吗？

有经验的人会打开电脑任务管理，看到CPU数值一路飙升到80%~90%，卡顿原因就找到了。在强制关掉几个应用程序后，CPU数值降下来，笔记本就恢复了正常运转。这就是电脑的运算极限。服务器的极限同样如此。

想降低春晚保障的IT成本，就要充分利用服务器的CPU，但利用率太高又会造成系统卡顿。怎么能实现既要、又要呢？京东云产品研发部吴亮亮说，用混部。

混部，是指混合部署，就是将离线任务和在线任务部署在一起，两种任务共享算力，从而提高CPU的整体利用率。“离线任务”是指不需要实时处理的数据，例如大量数据分析、数据挖掘、数据备份等。通常，离线任务集群CPU利用率可达80%。“在线任务”是指需要实时或近实时处理的用户交互和数据，以提供即时的服务和响应。例如你在电商平台搜索、下单、支付等。为了保障稳定性，在线任务计算集群的CPU利用率通常在20%~30%。

很明显，两种任务脾气不一样，离线任务“慢性子”，在线任务“急脾气”。很久以前，京东分别为离线任务和在线任务建立了计算集群，后来发现这种形式很浪费：比如，618大促时，在线任务计算量骤然增加，需要增加服务器才能保障用户下单丝滑。但离线任务的计算还空置着很多服务器，利用率不高。度过了618大促，在线集群空闲时候，离线任务很多又使得离线机群算力紧张。

既然如此，干脆削峰填谷，把离线任务和在线任务混和部署在一起，谁任务重谁就多用服务器。虽然说起来容易，但把两种属性不同的任务部署在统一的计算集群，它们真的会“打架”。

吴亮亮介绍说，虽然离线任务性子慢，但是抢资源能力很强。两种任务在一起干活，在线任务需要计算资源时候得不到，系统就会卡顿、不稳定。比如，春晚红包互动系统需要计算资源时，离线任务一定要第一时间让出来。

但如何能保障春晚红包在线任务抢占能力呢？首先，它要享有最高优先级，即红包等在线任务工作时离线任务不能来抢占；其次，它还要有特权，即红包等在线任务需要资源时离线任务要立即退出，不能赖着不走。

为了保障好红包互动系统，吴亮亮团队专门开发了一套强悍的算法，它赋予了在线任务无上特权以及彪悍的争抢能力，使得抢夺效率提高了80%。

笔者问吴亮亮，这么厉害的算法，有名字吗？他说还没给它起名字，看它在春晚的表现再说。

有了精准的流量预测和高效的算力腾挪，京东云应对春晚流量从加服务器的“硬抗”转向了依靠智能调度和压榨算力的“智抗”。

大模型是幻兽帕鲁

接下来就是压力测试，看看在预估流量压力下，系统和CPU是否撑得住。

京东云技术保障部老曲对2022年春晚保障印象最深的，就是七轮压测。“为了不影响白天业务系统，压测都在零点开始。工作大平台摆满了行军床，小伙子们干完活倒头就睡。我习惯了，多晚都要回家。”

五轮压测下来，老曲感觉头重脚轻，便随身带了血压仪。“那你身体今年扛得住吗？”笔者问他。他眉飞色舞地说，今年只有两轮压测，而且今年有大模型。

老曲说，今年有三种大模型来帮忙。

首先是ForceBot全链路军演机器人和故障分析大模型。ForceBot是制造问题的高手，故障分析大模型则是解决问题的高手。ForceBot通过模拟海量用户抢红包、购物等行为，制造了大量真实流量，对压测系统形成高并发压力。

故障分析大模型则承担故障诊断、故障分析、故障记录等工作。在找到根本原因之前，故障大模型可以提出临时解决方案以缓解问题。例如，增加服务器资源、优化数据库查询、调整缓存策略等。工程师可以根据数据和故障分析报告，确认故障原因以及整改方案。

第二个登场的是运维大模型。它能覆盖历年大促以来上层业务、PaaS组件以及底层基础资源各场景的故障快速发现和根因定位；能够保证在春晚红包活动期间，一旦出现问题分钟级内发现问题、定位根因及修复，为春晚红包系统稳定性保驾护航。

第三个是兜底的是安全大模型。今年春晚红包互动，京东App可以不登录抢红包，这意味着DDoS攻击的风险大大增加了。演练期间，系统模拟了春晚红包抽奖期间不登录抽奖的超大流量。安全大模型则可以提供辅助决策核心信息，根据系统个性化防御组件能力，一键生成可用的防护意见，大幅提升应急响应速度。

“大模型这么能干，你们不担心下岗吗？” 老曲满怀信心地摇了摇头，春晚保障是个超大，超复杂的系统工程。此前大模型都是扮演个人工作助手，在这种项目引入大模型，探索智能化保障，对提升效率很有帮助。“在咱眼里，现在的大模型，就是打工的幻兽帕鲁。”

中国式超越

虽然挑战不小，但今年保障工作进行得相当顺利。春节前几天，老曲告诉笔者，保障筹备工作基本结束了，大家静待春晚。

2024年2月9日20点，龙年春晚拉开序幕。七轮口播，光电交映间，用户在京东的互动量超552亿次，京东云稳稳地接住了洪峰。大家说，有喜悦，但没有特别激动，因为一切都在计划中。

还记得前文说在线任务集群的CPU利用率通常在20%~30%吗？通过混部技术，京东云实现了混部计算集群 CPU 利用率在春晚活动期间整体60%左右，最大峰值可达85%。

正是凭借着极端压榨CPU性能以及各种AI大模型提高效率，在春晚保障这种超级项目中降低成本，如此匪夷所思的目标，还真让京东云完成了。不夸张的说，同比2022年至少降低了50%。

在京东云负责人看来，春晚保障既是“阅兵场”也是“练兵场”。“这次保障成功，不仅有技术升级，也促进了团队全面向智能化转型；不仅推进智能应用大规模实践，也锻炼了支持人工智能、大模型数字基础设施，形成了更全面，更高效，更低成本的大型活动保障体系。”

春江曾经给笔者提过一个词，叫“中国式超越”。他说就是中国技术擅长从学习到超越，把成本压下来，还能有利润空间。这样，才能在激烈的市场竞争中活下去。

春江的话，让笔者想起2023年逆势长虹的新能源汽车和并不为人熟知的液化天然气载运船。原来，选购一套汽车空气悬挂需要10万元左右成本，但中国强悍的供应链能力和研发把成本大幅度降低，越来越多国产新能源配置空气悬挂，对很多外资豪华品牌形成巨大体验优势，开始在全球市场突围。

液化天然气载运船更是逐步克服了对进口技术依赖，大大降低了生产成本，从极小的全球市场份额，一路占全球总量的35%，市场份额还在不断攀升。

其实，在这个变革的年代，中国技术的翅膀依旧在飞一般翱翔。在成本与体验的天平上，技术人努力寻找着精妙的平衡点。步入2024年，中国科技之舟依旧会遭遇狂风巨浪，但怀揣梦想的航海者，仍将坚定地驶向远方。

（文中凯哥、春江、张杰、吴亮亮、老曲均为化名）

Tag: