V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
foxyier
V2EX  ›  Hadoop

请教一下存储的问题

  •  
  •   foxyier · 2021-01-25 16:17:26 +08:00 · 2159 次点击
    这是一个创建于 1403 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前有需求场景:
    写入 100w+数据量每天, 场景为离线, 且写多读少, 目前用的是 hbase+hive

    遇到的问题:
    hbase 的服务端 rpc 频繁超时, 导致数据堆积

    已采用的方案:
    与服务端沟通, 增加 hbase 离线集群,增加服务端数量(结果: 轻度缓解超时问题, 但仍未解决问题)

    待选方案:
    1. 更换存储, 改为 mongodb 或者其他存储
    2. 直接把数据写入到 hive 表(这里想请教一下两个问题:1. hive 表中外部表和内部表在读写性能方面是否有区别,2. hive 表的写入效率如何, 是否能支持 100w/天的写入效率)

    想请教一下各位大大, 待选方案是否可行, 以及是否有更好的解决方案
    4 条回复    2021-01-25 18:48:33 +08:00
    leopod1995
        1
    leopod1995  
       2021-01-25 18:06:18 +08:00
    拙见,rpc 频繁超时,有试过上消息队列吗?
    mwcodenoname
        2
    mwcodenoname  
       2021-01-25 18:21:05 +08:00
    rpc 超时是写入还是读取的时候? mongodb 写入性能应该不如 hbase,而且 100w 也不多。
    建议排查一下吧,难保换了存储不会有这个问题。
    hbase 表有做预分区吗?有没有数据热点? regionserver 的 gc 情况如何?
    foxyier
        3
    foxyier  
    OP
       2021-01-25 18:43:54 +08:00
    @leopod1995 现在已经有消息队列了, 但是由于频繁超时, 会导致消息堆积。
    harryhao
        4
    harryhao  
       2021-01-25 18:48:33 +08:00
    这个量很小,主要看高峰期,具体怎么读写的可以给个样例
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3457 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 04:54 · PVG 12:54 · LAX 20:54 · JFK 23:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.