V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
wangyzj
V2EX  ›  程序员

最近疫情在家研究了一下机器学习,有个疑问想请算法大佬们帮忙解答一下

  •  
  •   wangyzj · 2020-03-31 14:24:55 +08:00 · 2260 次点击
    这是一个创建于 1733 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用图片识别和 TensorFlow 举例吧

    假设我有一堆图片数据,质量呢类似 sklearn 那种自带的测试数据吧,也不需要做什么处理

    那我的下一步工作搭建 CNN

    [None, 32, 32, 3] input->conv->relu->pool->conv->relu->pool->conv->relu->pool->fc(softmax)>fc(softmax)>fc(softmax)>fc(softmax)>fc(softmax)>fc(softmax)>fc(softmax)->output [10, 1]

    搭完了,训练完了,模型出来了

    然后搭建 TensorFlow serving,服务也做好了,功能也实现了,简单的工程化也做完了,算是已经可以上线用了

    假设准确率有 90%

    那我作为一个算法工程师,我下一步应该干嘛?

    所有里面的数学公式都基本算是固定的,我不敢改,跟数学家比也没那个能力,感觉图像识别模型貌似也相对固定。

    还有炼丹,超参数优化。除了这些呢?

    扩充一下

    如果这是一个推荐模型,那我又需要做什么?

    萌新有所疑惑,上述描述肯定有缺陷,大佬们也轻喷

    9 条回复    2020-04-01 10:43:29 +08:00
    Jooooooooo
        1
    Jooooooooo  
       2020-03-31 14:45:28 +08:00
    所以是调参工程师, 洗数据工程师, 特征提取工程师, 规则工程师啊

    你能自己想出新模型那就是另外一回事了
    qwertqwert12345
        2
    qwertqwert12345  
       2020-03-31 15:19:07 +08:00
    工程上一般是 水多加面,面多加水(指训练数据),然后考虑一下可不可以降低模型复杂度,或者加入新的结构去提高准确率

    或者考虑一下安全性方面

    研究深度学习,再学一下各种有名的通用模型咯,RNN,GNN,LSTM,GAN 啥的
    sleeepyy
        3
    sleeepyy  
       2020-03-31 15:19:31 +08:00
    看你的目的是什么了,如果只是学一下相关背景,这样就已经足够了。
    如果是要应用到真实场景,
    准确率方面:
    考虑从 raw data 清洗成可以用于训练、预测的数据(更好的数据增强、特征提取方式)
    考虑训练集和测试集之间的 out-of-distribution 的问题
    etc.
    效率方面:
    针对特定硬件的优化
    针对特定场景(数据特征(比如 sparse 的数据))的优化
    计算图的简化
    etc.
    以及是否要做集成模型,是否要 online learning 等问题
    wangyzj
        4
    wangyzj  
    OP
       2020-03-31 15:33:45 +08:00
    @qwertqwert12345 每个不同的模型都有特定的场景,特定的场景我觉得都会有同样的问题
    zcfnc
        5
    zcfnc  
       2020-03-31 15:36:50 +08:00
    我以前在学校的时候以为机器学习出来工作是自己动手撸算法
    然后现在发现可能是自己太垃圾了
    成了一个调参侠。。。。
    wangyzj
        6
    wangyzj  
    OP
       2020-03-31 15:39:30 +08:00
    @sleeepyy 我本来是打算转算法的,毕竟 crud 跟算法比,算法更有竞争力
    但我研究这段时间我又犹豫了
    感觉很多场景应用都已经固化了

    集成模型我还没研究过
    fancy111
        7
    fancy111  
       2020-03-31 15:42:37 +08:00
    下一步。。。。 累积训练,找误差,写算法,改模型。。。。 完美~ 上市,集成硬件,卖~
    wangyzj
        8
    wangyzj  
    OP
       2020-03-31 16:18:53 +08:00 via iPhone
    @fancy111 调皮
    wangyzj
        9
    wangyzj  
    OP
       2020-04-01 10:43:29 +08:00
    自己顶一下
    希望还有更多大佬来答疑解惑
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2610 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 15:22 · PVG 23:22 · LAX 07:22 · JFK 10:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.