V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Yunhao
V2EX  ›  问与答

请教,深度学习和大数据的数据清洗、标注、分类工作具体是在做些什么

  •  
  •   Yunhao · 2017-10-24 11:21:18 +08:00 · 7053 次点击
    这是一个创建于 2598 天前的主题,其中的信息可能已经有所发展或是发生改变。

    一朋友找工作,看到一家做深度学习和大数据的公司,主要就是做数据清洗、标注和分类工作,没有很高的学历要求。不是很了解大数据这一块,所以问问大家。
    看字面大概知道是要做什么,但是好像很多时候片面的认知会跟实际工作是有些偏差的 : )。我本来以为是编码工作,会有相应的引擎这种,不过网上查的还有需要一天打 500 个电话的。简单点的是不是 Excel 要好一点,会点代码就可以了?还有工作中主要设计到什么工作软件呢?有没有了解的朋友分享一下

    8 条回复    2017-10-24 12:18:17 +08:00
    imn1
        1
    imn1  
       2017-10-24 11:25:53 +08:00
    看这个描述,应该跟代码 /编程没太大关系
    实际上是杂工,你想象一下人工识别验证码的工人(只是举个例子,不是说就是干这个)
    northisland
        2
    northisland  
       2017-10-24 11:30:56 +08:00
    标数据。
    圈出目标,标记关键点。等等。
    Yunhao
        3
    Yunhao  
    OP
       2017-10-24 11:33:35 +08:00 via iPhone
    @imn1
    @northisland 那看起来是不是不会涉及到开发了
    haddy
        4
    haddy  
       2017-10-24 11:41:42 +08:00   ❤️ 1
    数据清洗:采集到的数据是非结构化数据,不遵循一定的格式。比如说年龄的数据,可能是“ 43 岁”、“ 43 ”、“四十三”、“ 43 ”(多了个空格)、“ 2312 ”等等。将他们统一到一个格式上,成为机器可读取的结构化数据,就是数据清洗。
    标注和分类:字面意思。比如说有一堆照片的库,每张照片前景只拍了一样东西,然后你要将这些照片按照前景拍的是什么来分类,标注每张照片中出现的物体有什么。
    haddy
        5
    haddy  
       2017-10-24 11:42:59 +08:00
    V2EX 自动加了空格,数据清洗的例子那里可能会看得比较迷糊。不过我觉得还是能猜出来大概是什么吧。
    xunyu
        6
    xunyu  
       2017-10-24 12:06:42 +08:00 via Android
    这是比较低端的劳动
    Yunhao
        7
    Yunhao  
    OP
       2017-10-24 12:14:57 +08:00 via iPhone
    @haddy 谢谢,解释的很清楚。是不是用 EXCEL 这种软件一条记录一条记录的处理,有什么专门的工具吗?
    princelai
        8
    princelai  
       2017-10-24 12:18:17 +08:00 via Android
    清洗就是楼上说的非标准格式转换为标准格式,工具随意,excel,正则表达式什么的,标注就是这个图片是衣服还是鞋是狗是猫你给标注出来,没什么技术含量,但是很累
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5709 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 02:58 · PVG 10:58 · LAX 18:58 · JFK 21:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.