V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
goodboy
V2EX  ›  程序员

求助,入门学习大数据,想学习 Hadoop 语言,童鞋们 有什么好书推荐的,最好是京东能买到的~

  •  
  •   goodboy · 2016-08-15 17:09:57 +08:00 · 5947 次点击
    这是一个创建于 3027 天前的主题,其中的信息可能已经有所发展或是发生改变。
    23 条回复    2016-08-16 22:55:45 +08:00
    liprais
        1
    liprais  
       2016-08-15 17:26:12 +08:00
    先想清楚学了之后想干啥,再考虑要学啥
    goodboy
        2
    goodboy  
    OP
       2016-08-15 17:28:08 +08:00
    @liprais 现在想学习大数据方面的知识,先从数据储存技术学习,之后再学习数据处理相关的知识,不晓得这样考虑对不对,还望大师们指教~谢谢~
    gzxultra
        3
    gzxultra  
       2016-08-15 17:36:22 +08:00
    Hadoop 不是语言啊兄弟,先学好 java
    goodboy
        4
    goodboy  
    OP
       2016-08-15 17:52:06 +08:00
    @gzxultra 那怎么才能进入到大数据的学习中去呢?还请赐教!
    panlilu
        5
    panlilu  
       2016-08-15 17:56:54 +08:00
    学习大数据,搭环境是入门的步骤里最困难的,所以建议你可以先研究一下 docker
    20015jjw
        6
    20015jjw  
       2016-08-15 18:04:38 +08:00 via Android
    先学 Python 然后学 spark 我校 lab 出的 比 Hadoop 好写 3 倍
    zonghua
        7
    zonghua  
       2016-08-15 18:20:06 +08:00
    @goodboy 《数据挖掘概念与技术》
    goodboy
        8
    goodboy  
    OP
       2016-08-15 18:25:45 +08:00
    @zonghua 感谢,学习了~
    shyling
        9
    shyling  
       2016-08-15 18:39:02 +08:00
    hadoop 语言是啥
    codeyung
        10
    codeyung  
       2016-08-15 19:55:25 +08:00
    先学 JAVA 或者 Python 在看 Spark 吧
    DarryO
        11
    DarryO  
       2016-08-15 21:35:11 +08:00 via iPhone
    以前学的时候,找教材最头疼的是版本的问题。当时 2.x 版本出来时,市面上流行的教材还留在 1.x 版本。不同版本还是挺有区别的。感觉看看书了解一下开发思路,程序结构以后,如果没有较新版本配套的书,可以去看文档的。

    另外,搭环境真的挺困难的,就是直接学 spark ,也有基于 hadoop 的 yarn 的...总是要试试的。(不要盲目相信搜到的博客内容ˊ_>ˋ...)

    另外的另外,虽然 spark 说是性能高,那也要考虑实际环境。之前去实习的时候(去年)感觉用 hadoop 的还蛮多的


    以上个人看法,有一年没碰过了,不太清楚现在情况变了没
    paulw54jrn
        12
    paulw54jrn  
       2016-08-15 22:12:35 +08:00
    Hadoop 语言...

    可以试试 Python + Spark, 先看 Spark Standalone 的, 然后看看 YARN/Mesos 等不同部署的方式.

    MapR 的免费课程作为入门不错:
    https://www.mapr.com/services/mapr-academy/apache-spark-essentials

    UCBX 的 Spark 入门也可:
    https://www.edx.org/course/big-data-analysis-apache-spark-uc-berkeleyx-cs110x
    xfwduke
        13
    xfwduke  
       2016-08-15 22:19:46 +08:00
    这东西如果没马上能用上的地方, 学起来收获其实不大
    最后也就学会了怎么搭一个 hadoop 集群和用 java 调用它的 api
    自己构造的那几 G 的数据(这估计算很有耐性的了), 真心感觉不出这东西有什么优势, 反而麻烦的要死
    然后没几天就全忘记干净了

    这样的经历, 对找工作估计也没什么作用
    vinceguo
        14
    vinceguo  
       2016-08-15 22:32:36 +08:00 via Android
    不想花时间搭环境的话,下一个 cloudera quick start vm ,虚拟机里面把什么都装好了
    billlee
        15
    billlee  
       2016-08-16 00:14:33 +08:00
    0 基础就不要想着直接学大数据了,先把数学和 Java 学好
    staticor
        16
    staticor  
       2016-08-16 06:59:50 +08:00
    Hadoop the Definitive Guide, 3rd or 4th Edition.

    太经典 绕不过. 稍微看一看也许能让题主要不要做这个.

    另外, Hadoop 是一种以 MapReduce 模式进行批数据的处理框架, 不是语言, 常常看到的是以 Java 来完成的几个关键组件部分-mapper, reducer, combiner, partitioner...

    如果是特别不习惯用 Java 则也能借助 Hadoop-Streaming 用其它的语言来部分替代, 但多少不方便.

    Spark 是 DataBricks 公司(当时还是在实验室)的几个人提出的新的 BigData 模式, 使用 Scala(和 Java 非常亲昵), 由于性能和扩展的优势, Spark-Sql, Spark-MLlib, 慢慢被更多人认识.
    个人觉得主要 Spark 的学习门槛要比 Hadoop 低一些, --- 有的时候你只要懂一些简单的 RDD 的操作 API, 能看懂一些简单的 Pyspark 或者是 Scala 的过程代码, 都能理解数据是怎样操作和变换的.

    不过如果以大数据工程师作为目标, 二者都是要看的.

    我自己是从事数据科学方向, 所以 Hadoop 的一些性能方面会考虑一些, 平时侧重是 Spark-Mllib 中的监督式机器学习的部分. 毕竟自己不会造轮子.
    wander2008
        17
    wander2008  
       2016-08-16 08:54:22 +08:00 via iPhone
    hadoop 语言……,你还是别学习了。先学习 java 基础吧
    gxustudent
        18
    gxustudent  
       2016-08-16 12:44:37 +08:00
    [ 澄观见韦小宝什么拳法都不会,也不生气,说道:“咱们少林派武功循序渐进,入门之后先学少林长拳,熟习之后,再学罗汉拳,然后学伏虎拳,内功外功有相当根柢了,可以学韦陀掌。如果不学韦陀掌,那么学大慈大悲千手式也可以……” ......
    韦小宝道:“你开始学武,到练成一指禅,花了多少时候?”

    澄观微笑道:“师侄从十一岁上起始上少林长拳,总算运气极好,拜晦智禅师座下,学得比同门师兄弟们快得多,到五十三岁,于这指法已略窥门径。”
    ]
    咱们 hadoop 语言循序渐进,入门之后先学 java ,熟习之后,在学 hdfs ,然后学 yarn.....
    goodboy
        19
    goodboy  
    OP
       2016-08-16 14:18:49 +08:00
    @感谢各位,原来这么多东西需要学习的,看来自己知道太少了,很多名词也只是自己偶尔看过, java 只是上学的时候接触过,早已忘记了~,一切看来都得重头开始了,看来这些不是短期内能有效果的。
    Allianzcortex
        20
    Allianzcortex  
       2016-08-16 16:01:10 +08:00
    @20015jjw 膜拜 Berkely~~
    20015jjw
        21
    20015jjw  
       2016-08-16 17:15:29 +08:00
    @Allianzcortex Berkeley... :)
    Allianzcortex
        22
    Allianzcortex  
       2016-08-16 17:37:10 +08:00
    @20015jjw 噗。。。
    fulvaz
        23
    fulvaz  
       2016-08-16 22:55:45 +08:00
    哎~ 我怎么记得人家推荐用 scala?

    手动滑稽笑
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1666 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 16:55 · PVG 00:55 · LAX 08:55 · JFK 11:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.