V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
adguy
V2EX  ›  程序员

想问下 我这种 实时数据统计 可以用 flink 做吗?

  •  
  •   adguy · 97 天前 · 1899 次点击
    这是一个创建于 97 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在公司是在海外做即时配送的,老板要我优化现在的实时统计 job ,

    要监控 100000 骑士当天送单时长,多单重叠会有些特殊逻辑;

    计算每个骑士当天下线时间;

    计算当天每个门店的单履约情况,单子大约 8000000 一天,算这些单子 15 分钟被送达的量,还可能要分品牌、城市、业务线什么的

    等等这些实时的统计,还就是想要监控各个业务线、不同状态的单子。用 flink 做可以吗?

    现在是用代码 job 算的,比较慢,而且开发起来比较麻烦,需要查各种数据。

    14 条回复    2024-08-26 20:21:45 +08:00
    shishiyi
        1
    shishiyi  
       96 天前
    貌似可以
    qweruiop
        2
    qweruiop  
       96 天前
    这点数据量,直接 clickhouse 一个查询就出来啦。。。
    kkbear
        3
    kkbear  
       96 天前
    用 flink 做的方法是什么?在实时的流处理里面一直更新统计结果?
    zoharSoul
        4
    zoharSoul  
       96 天前
    不适合 主要时间窗口太大了
    zoharSoul
        5
    zoharSoul  
       96 天前
    @qweruiop #2 clickhouse 顶不住面向 c 端的查询量
    GeekGao
        6
    GeekGao  
       96 天前
    @zoharSoul 尝试使用 5 分钟的窗口大小,1 分钟的滑动步长 ,不行吗?
    adguy
        7
    adguy  
    OP
       95 天前
    @zoharSoul 那麻烦问下 有什么合适的方法吗?
    512357301
        8
    512357301  
       95 天前
    @zoharSoul ck 算完之后存到 mysql 呢,后者可以高并发
    XyIsMy
        9
    XyIsMy  
       95 天前
    clickhouse ,doris 物化视图应该可以直接实现
    lingalonely
        10
    lingalonely  
       94 天前
    几个问题:
    数据给谁看的,给 骑手,给商户,还是给 公司内部,这个涉及数据的查询频率。
    数据在哪里,数据查询复杂程度怎么

    正常来说 kafka 到 flink 到 mysql 没啥毛病
    使用 doris ,greenplum ,ck 这类 MPP 数据库,千万级的数据量也是小儿科,看你们公司的本身架构
    adguy
        11
    adguy  
    OP
       94 天前
    @lingalonely 商户骑手公司内部都有,骑手 是看他个人的,商户就看他几个店的,公司内部就看比如某条业务线所有的门店,还有按城市筛选这种。数据查询的频率总体不是特别高。

    现在没有这样的数据,都是原始数据,或者是基于原始数据做了简单聚合的结果,查询基本不会很复杂,就是根据一堆条件查出 然后聚合统计

    数据量一天单量肯定是 1000 万以下,骑士不超过 10 万。

    架构还没想好,大佬有啥建议吗?
    loveaeen
        12
    loveaeen  
       94 天前
    所以本身数据查询并不慢,慢的是统计分析这一步?
    我的想法是 flink 抓取数据后 ETL 到 ES, Doris 都可以吧。
    sleeepyy
        13
    sleeepyy  
       94 天前
    lingalonely
        14
    lingalonely  
       94 天前
    @adguy
    假设你现在的原始数据在 mysql , 一步到位的方式就是 把数据同步到 doris 这类数据库,这种复杂查询很快的,就是 doris 集群的成本需要考虑,看你们公司。至于这种架构,doris 相关官方的 doc 很多。

    如果要成本控制,其实看你们数据其实不多,而且大概率以当日数据为主,mysql 其实可以搞定,所以通过同步从库,在从库计算应该可以达到你的需求,历史数据做定时汇总。应该可以解决你们当前的需求
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1039 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 20:34 · PVG 04:34 · LAX 12:34 · JFK 15:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.