V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
hwcloudnative
V2EX  ›  云计算

[FinOps] [K8s] 有对 AWS EKS 成本优化感兴趣的吗?

  •  
  •   hwcloudnative · 175 天前 · 1534 次点击
    这是一个创建于 175 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近在研究 EKS 的成本优化,包括 right size 、spot 实例等,目前有一些心得,也实践了下,EC2 成本大概节省了一大半,有对此感兴趣的同学可以一起交流下,看看怎么降本增效

    我的微信:francisday1
    18 条回复    2024-06-12 19:18:39 +08:00
    billzhuang
        1
    billzhuang  
       175 天前 via iPhone
    autoscaler 呢
    hwcloudnative
        2
    hwcloudnative  
    OP
       175 天前
    @billzhuang 原生的 autoscaler 只管把 pod 调度到 node 上,并不关心如何高性价比的选择 EC2 Node
    whileFalse
        3
    whileFalse  
       175 天前 via Android
    spot fleet 设置了吗
    ondemond 和 spot 的比例如何计算的
    有没有考虑过迁移到 arm
    Frankcox
        4
    Frankcox  
       175 天前
    我们部分应用切换到了 arm 实例,然后自己弄了类似 autoscaler 的定时自动扩缩容程序
    billzhuang
        5
    billzhuang  
       175 天前 via iPhone
    OP 可以先分享些心得体会,不急着加微信
    lidong88
        6
    lidong88  
       175 天前 via Android
    直接搞个'折扣不更香吗
    crackidz
        7
    crackidz  
       175 天前
    @lidong88 折扣是很重要的一环 XD
    kennylam777
        8
    kennylam777  
       175 天前
    我的心得是, 大型 instances 的 overhead 比小型的好, 所以如果出現 6 台以上的 static node pool, 就是利用率比較固定的那種, 倒是可以看看擴大一倍實例把 node 數量維持在 3 左右, 而 autoscale 的小型 instances 就分開一個 node pool, 控制突發用量的成本。

    還有跨 AZ 的問題, Pod 之間的通訊, 如非必要就留在同一個 zone 內, 也可以省不少。

    我的經驗是, 經過快速擴張後, 坐下來研究一下利用率, 最高能省 80%, 但某程度上是因為之前的 devs 不注重成本效益, 當時公司也不差錢啦。
    hancai2
        9
    hancai2  
       174 天前
    我把成本优化了, 下一步老板就要优化我了。
    hwcloudnative
        10
    hwcloudnative  
    OP
       174 天前
    @whileFalse 都研究过:
    1. 设置 spot percentage 是个好办法,但是治标不治本,因为 spot 总会中断,我觉得核心有两点,一是业务架构要做高可用改造,比如 replica 设置大于 1 ,多 AZ 部署,二是对于 Spot 黑盒要做画像预测,根据我们的经验,AWS 回收 Spot 是有迹可循的,完全可以在回收前做回退的工作
    2. 我们主要是 Java 应用,ARM 还在测试,迁移成本也挺高,其实效果吧也一般,远不如把 spot 用好,因为 spot 价格大概只有按需的 1 折,arm 实例对比同规格 x86 的,也就便宜 20%
    hwcloudnative
        11
    hwcloudnative  
    OP
       174 天前
    @billzhuang 好的呀,大家一起讨论讨论,多交流
    hwcloudnative
        12
    hwcloudnative  
    OP
       174 天前
    @lidong88 中小企业现在拿不到什么折扣了,即使有,力度也就一点点,不如自己研究效果大
    hwcloudnative
        13
    hwcloudnative  
    OP
       174 天前
    @kennylam777 说的很棒,但是这些工作手工完成,大部分 SRE 或者 DevOps 工程师都不愿意搞,自动化是关键,这里面就涉及到调度策略、性能,BTW ,网络流量成本已经成为仅次于 EC2 成本的最大部分了
    hwcloudnative
        14
    hwcloudnative  
    OP
       174 天前
    @hancai2 说反了老哥,企业的 IT 预算是包含人工和云成本一起的,是一个总包,如果云成本不降,那就在优化人员了哈哈哈
    hancai2
        15
    hancai2  
       174 天前
    @hwcloudnative 也是有个相对平衡的点,我上家公司的 cto 经常吹把 100 人的运维团队优化成了 10 个人。他说起来是很骄傲的业绩,我听起就不爽。
    crackidz
        16
    crackidz  
       173 天前
    @hwcloudnative 至少几千美金拿得到吧
    hwcloudnative
        17
    hwcloudnative  
    OP
       170 天前
    @crackidz 杯水车薪,spot 能节省十几万美金
    nevill
        18
    nevill  
       169 天前
    跟 EKS 无关,但想喷一句,RDS 竟然是根据 IOPS 收费的,太恐怖。
    最近才出了一个 I/O Optimized 类型的 RDS ,可以节省不少费用。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1345 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 23:39 · PVG 07:39 · LAX 15:39 · JFK 18:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.