V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ucyo
V2EX  ›  程序员

滴滴事故的起因是底层系统软件发生故障,并非网传的“遭受攻击”

  •  
  •   ucyo · 2023-11-29 15:10:48 +08:00 · 6421 次点击
    这是一个创建于 365 天前的主题,其中的信息可能已经有所发展或是发生改变。

    滴滴在 28 日启动了内部复盘调查。初步确定,这起事故的起因是底层系统软件发生故障,并非网传的“遭受攻击”。

    41 条回复    2023-11-30 14:35:31 +08:00
    ucyo
        1
    ucyo  
    OP
       2023-11-29 15:10:56 +08:00
    11 月 27 日夜间发生的系统故障,给广大用户造成了诸多困扰和不便,在大家需要我们的时候,我们让大家失望了,再次向大家真诚致歉。



    各项服务恢复的同时,我们在 28 日启动了内部复盘调查。初步确定,这起事故的起因是底层系统软件发生故障,并非网传的“遭受攻击”,后续我们将深入开展技术风险隐患排查和升级工作,全面保障服务稳定性,尽最大努力避免类似事故再发生。



    目前,滴滴 App 的所有服务已经全部恢复。因这起事故给大家造成的困扰和问题,我们正在加快妥善解决。感谢大家对滴滴的鞭策、关心和包容。今天的滴滴还有很多不足,我们将以此为戒,在全公司范围内深刻反思,全力改正,继续努力做好服务保障。




    滴滴出行

    2023 年 11 月 29 日
    wcnmm
        2
    wcnmm  
       2023-11-29 15:14:58 +08:00
    降薪裁猿,所以走之前留了一个定时 bug (
    julyclyde
        3
    julyclyde  
       2023-11-29 15:18:21 +08:00
    @wcnmm 切不可无证据随意污蔑他人清白哦
    lovelylain
        4
    lovelylain  
       2023-11-29 15:26:41 +08:00
    到现在还只是初步确定故障原因,也是神奇,有没有知道细节的彦祖说一下,这到底是个什么样的故障?
    mightybruce
        5
    mightybruce  
       2023-11-29 15:31:10 +08:00
    已经在一些网站上公布了,是因为 K8s 版本升级升错了,造成基础设施问题。
    https://www.oschina.net/news/268635
    binbin0915jjpp
        6
    binbin0915jjpp  
       2023-11-29 16:20:21 +08:00
    K8S... 运维要祭旗
    mightybruce
        7
    mightybruce  
       2023-11-29 16:27:12 +08:00   ❤️ 3
    基础设施才会导致这种大规模问题,否则软件版本回滚还是很快的。难道降本增效到了深水区了。
    flyqie
        8
    flyqie  
       2023-11-29 16:34:21 +08:00 via Android
    @mightybruce #5

    运维是怎么做到把 1.20 当 1.12 的?

    太离谱了。。这俩也不太能看错吧,并且还没审核出来进生产环境?
    cubecube
        9
    cubecube  
       2023-11-29 16:36:48 +08:00
    @lovelylain 内部肯定知道了,就是打个马虎眼,不会公布的
    1145148964
        10
    1145148964  
       2023-11-29 16:37:53 +08:00   ❤️ 1
    连会升级服务器的都没了。。。。。。。。。
    事实证明学技术无法不被裁员,得学点其他的
    pandaPapa
        11
    pandaPapa  
       2023-11-29 16:39:56 +08:00
    K8S 版本错误 不至于搞这么久吧
    leefor2020
        12
    leefor2020  
       2023-11-29 16:42:50 +08:00
    @pandaPapa , 可能是找这个原因找了很久
    mightybruce
        13
    mightybruce  
       2023-11-29 16:45:42 +08:00
    @pandaPapa 如果是集群所有的 master 高可用节点都挂了, 想调度都调度不了。这种错误真的是极其少见。
    mightybruce
        14
    mightybruce  
       2023-11-29 16:47:44 +08:00
    k8s 跨版本升级是有很多坑的, 像滴滴 K8s 版本这么久还没升级估计就是在做很多测试。 结果版本还升级错了。
    MuSit
        15
    MuSit  
       2023-11-29 16:55:32 +08:00 via Android
    12 还有人在用? 我很好奇之前滴滴用的啥版本.8?
    hahastudio
        16
    hahastudio  
       2023-11-29 16:58:11 +08:00
    说起来网传“遭受攻击”这件事,我是在这个调查说明里才见到的,之前有其他地方传过么
    esile
        17
    esile  
       2023-11-29 16:58:16 +08:00 via Android
    @julyclyde 基本上就是把默默无闻真正在干活的裁了
    Frankcox
        18
    Frankcox  
       2023-11-29 17:09:25 +08:00
    k8s 1.12 那都是多久之前了,而且更新一个控制节点是怎么做到“污染整个机房”的,我个人是很怀疑网传这事的真假的
    julyclyde
        19
    julyclyde  
       2023-11-29 17:09:31 +08:00
    @esile 刚才 @wcnmm 的意思是,被裁的人刻意留 bug 。他说了“所以”这个词
    esile
        20
    esile  
       2023-11-29 17:11:21 +08:00 via Android
    @julyclyde 正经人最好都写点 bug 不然真的随时优化掉
    julyclyde
        21
    julyclyde  
       2023-11-29 17:12:02 +08:00   ❤️ 1
    @esile 我不认同你俩的价值观
    julyclyde
        22
    julyclyde  
       2023-11-29 17:12:27 +08:00
    @esile 你们这样,是把单方面裁员变成了狗咬狗
    seers
        23
    seers  
       2023-11-29 17:13:09 +08:00 via iPhone
    滴滴没找云厂商托管,比较诧异
    4771314
        24
    4771314  
       2023-11-29 17:15:08 +08:00
    降本增笑
    me1onsoda
        25
    me1onsoda  
       2023-11-29 17:15:46 +08:00
    @leefor2020 很容易定位吧,资源调度不了,最近又刚升级 k8s ,很容易联想到啊
    shenlanAZ
        26
    shenlanAZ  
       2023-11-29 17:18:48 +08:00
    连滴滴旗下的新能源充电站都挂了,真的是该去去中心化了
    Masoud2023
        27
    Masoud2023  
       2023-11-29 17:21:23 +08:00
    k8s 这么脆的? 1.18 升 1.20 都能炸成这样?
    Masoud2023
        28
    Masoud2023  
       2023-11-29 17:21:41 +08:00
    打错,1.12
    k9982874
        29
    k9982874  
       2023-11-29 17:25:32 +08:00
    刚入职的运维:sudo apt-get update && sudo apt-get -y upgrade
    滴滴监控系统:Alarm! Alarm! Alarm! System Down!
    mightybruce
        30
    mightybruce  
       2023-11-29 17:26:22 +08:00   ❤️ 1
    滴滴技术自己写的 k8s 升级
    https://mp.weixin.qq.com/s/nMSIsS72fSXGqJO9Vy_Pfw

    像大厂商都会自建 IDC, 不然投资人为什么愿意在当年投资那么多钱给它, 你只有花得多,才会有更多的投资。
    mightybruce
        31
    mightybruce  
       2023-11-29 17:59:46 +08:00
    K8s 跨版本升级是很危险的, 除非集群里 没有任何第三方的 Operator 完全是自研的 而且充分考虑到兼容度, 代码全部改过了,你无法保证各种依赖的兼容性。
    一般都是升级到高一个版本,中间版本慢慢过渡,1.12 到 1.20 属于艺高人胆大。
    xinshoushanglu
        32
    xinshoushanglu  
       2023-11-29 19:11:58 +08:00
    疯狂作死,
    davis2023
        33
    davis2023  
       2023-11-29 20:47:14 +08:00
    这种没有 devops 工具流水线一个环境一个环境推送吗?
    chenyx9
        34
    chenyx9  
       364 天前
    降本增笑
    xuanbg
        35
    xuanbg  
       364 天前
    @mightybruce 照这个文档说的,滴滴不是早在一个月前就把 k8s 升级到 1.20 了么?
    milukun
        36
    milukun  
       364 天前
    @flyqie 996 久了脑子会不清晰
    Narcissu5
        37
    Narcissu5  
       364 天前
    @seers 滴滴这种规模的自建机房划算得多
    SilentOrFight
        38
    SilentOrFight  
       364 天前
    @mightybruce #30 规模大,应该是自建比上云便宜多了吧
    EchoJose
        39
    EchoJose  
       364 天前
    这告诉我们一个道理,运行的好好的软件就不要乱升级想搞大新闻,又不是不能用🤡
    mingqing
        40
    mingqing  
       364 天前
    看看有没有官方通告
    xu2goyuchen
        41
    xu2goyuchen  
       364 天前
    真相是昂贵的,影响股票价格的,就会跟之前阿里云的一样,默默消失在视野中
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3059 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 14:51 · PVG 22:51 · LAX 06:51 · JFK 09:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.