V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
rockyliang
V2EX  ›  程序员

想了解下各位所在的公司是怎么做数据统计的

  •  
  •   rockyliang · 2023-06-01 21:22:57 +08:00 · 1630 次点击
    这是一个创建于 551 天前的主题,其中的信息可能已经有所发展或是发生改变。

    无论运营什么互联网产品,公司都需要对产品的一些指标信息进行统计,例如:

    每日新增用户量、每日活跃用户量、用户留存率、用户平均收入等等一大堆指标

    不同指标的计算公式不一样,有些指标的计算过程可能会比较复杂,而且还要提供根据时间(日 /月 /年)、系统(安卓 /iOS/PC )等等多种维度的查询


    我的问题是:

    对于这种普遍的统计分析场景,有没有通用的架构设计方案呢?比如什么 mongodb 、ElasticSearch 、Hapdoop 、Spark 、Kafka 之类的组件需要用上吗

    最后,如果想学习这方面的知识,大家有没有推荐的书籍呢?有的话可以分享下,谢啦:)

    12 条回复    2023-06-02 18:27:29 +08:00
    darksheep9527
        1
    darksheep9527  
       2023-06-01 22:02:54 +08:00
    这个要专门的 数据科学 team 吧
    ety001
        2
    ety001  
       2023-06-01 22:57:04 +08:00
    influxdb + grafana
    haimianbihdata
        3
    haimianbihdata  
       2023-06-01 23:00:50 +08:00 via Android
    你要是上了 hadoop 那一套。你得找做数开。数仓的同学
    lingalonely
        4
    lingalonely  
       2023-06-01 23:05:20 +08:00
    简单,数据量不大,直接数据库+BI 系统就行
    totoro52
        5
    totoro52  
       2023-06-01 23:15:40 +08:00
    一天产生的数据不超 W 没必要考虑这么多,SQL 直接撸就好了
    sadfQED2
        6
    sadfQED2  
       2023-06-01 23:28:53 +08:00 via Android
    hadoop 那一套,hive 离线计算
    SimbaPeng
        7
    SimbaPeng  
       2023-06-02 09:05:33 +08:00
    prometheus + grafana
    8355
        8
    8355  
       2023-06-02 09:07:53 +08:00
    找大数据开发做 这是另外一套逻辑, binlog 同步数据给他们
    fantathat
        9
    fantathat  
       2023-06-02 09:29:57 +08:00 via iPhone
    可以看一下这个 https://zhuanlan.zhihu.com/p/65573407
    便于了解下应用场景以产品的视角,
    同时可以关注下公众号 ixuewenge, 可以把干货内容先收集起来集中,技术的话我不是很懂,做不了推荐
    vincent7245
        10
    vincent7245  
       2023-06-02 09:55:23 +08:00   ❤️ 2
    首先看你们公司的规模和技术水平,不同的公司有不同的方案,Hadoop 技术栈并不适合小公司。以下我列举从简单到复杂的各种方案供你参考。

    1 excel + 人工分析,适合没有程序员或只有个位数程序员的小公司

    2 第三方平台,比如友盟,适合有专门的的 app 、网站开发人员,但是开发人数也不多的小公司,直接接入他们的 SDK 即可

    3 小公司自建数据分析服务,非大数据专业程序员就可以做的方案,从简单到复杂:
    - python 脚本做定时任务,直接去业务数据库拉数据出报表
    - 搭建一个专门做分析的数据库,比如 elasticsearch 、mogodb ,甚至直接用 mysql 都行,只要数据量不大用哪个技术栈都不是问题。然后业务数据定时导入分析数据库,直接用定时脚本倒就行,没必要太复杂,剩下的就是写 sql 出报表了。
    - 使用 clickhouse 、dorisdb 等专门的数据分析技术栈,到这里就需要有大数据的基础了,花几天去看看教程也能做出来,业务数据用 、日志全都导进去,然后写 sql 出报表

    4 商业版数据分析平台,国内做到头部的比如神策,小公司一年的费用大概十几万吧,如果能承受这个费用的话还是十分推荐的,毕竟他们的数据分析模型做的很全面,完全能满足中小公司的数据分析需求。

    5 如果开发团队人员在 20 人以上,且有专门的大数据开发人员,就可以考虑 hadoop 技术栈了。这就是大数据专业的事情了,不细说了,交给他们去做把。
    dji38838c
        11
    dji38838c  
       2023-06-02 09:57:51 +08:00
    这个是 BI 部门做的
    samnya
        12
    samnya  
       2023-06-02 18:27:29 +08:00
    把不敏感的数据同步到到内网的一个 SQL Server ,然后用 Power Bi 。
    负责分析的同事可以搞定大部分的数据筛选和报表。有些比较复杂的比如说订单表需要各种关联查询的,可以直接写一个 SQL ,查出需要的数据,然后他们可以继续在 Power Bi 里面继续做
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3420 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 11:48 · PVG 19:48 · LAX 03:48 · JFK 06:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.