V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
LeeReamond
V2EX  ›  问与答

工作摸鱼想法:是否有办法通过神经网络训练找到自己喜欢的类型的小说

  •  
  •   LeeReamond · 2022-04-14 18:02:37 +08:00 · 1725 次点击
    这是一个创建于 963 天前的主题,其中的信息可能已经有所发展或是发生改变。

    日常书荒,今天产生了一个想法是是否可以利用训练对网络上繁杂的小说进行筛选。

    比如我可以人工总结一些自己比较喜欢的小说,比如有 20 本,A B C D E F G...如果作为语料库的话也有个几百上千万字,应该不算少了。然后搞一个系统,训练,以后再看到新的小说推荐的话先跑个分(例如衡量新小说跟喜欢的语料库的相似度),相似度分太低就不看了?

    对 nlp 基本上是完全不了解,不知道能不能实现,用什么技术比较合适。我感觉从逻辑上讲,要训练网络去找一本小说的情节是否跌宕起伏、引人入胜,应该是比较困难的工作。但是如果要判断一本小说的文笔是否过于小白,感觉应该还是能做到?

    14 条回复    2022-04-15 14:42:30 +08:00
    bravecarrot
        1
    bravecarrot  
       2022-04-14 18:43:59 +08:00
    可以实现 而且很简单, 国内外大厂上有很多开箱即用的预训练模型
    zooo
        2
    zooo  
       2022-04-14 20:40:11 +08:00
    @bravecarrot 给个链接呗
    想自己训练模型,根据自己日常阅读来推荐,自己把控。
    idblife
        3
    idblife  
       2022-04-14 20:42:49 +08:00 via iPhone
    不难
    盗版在线 av 网站也有这功能呢
    paopjian
        4
    paopjian  
       2022-04-14 21:20:49 +08:00
    把自己觉得好的小说打分高点,喂给 bert,让它打分?
    LeeReamond
        5
    LeeReamond  
    OP
       2022-04-14 21:42:43 +08:00
    @bravecarrot 大佬讲讲相关技术,用什么模型,预训练哪里下载之类的,nlp 完全不熟。

    @idblife 感觉是两码事,av 是视频,nlp 的技术可以用在图像分析上?
    ALLROBOT
        6
    ALLROBOT  
       2022-04-15 00:17:57 +08:00 via Android
    为什么不看看起点 app 的今日导读模块?

    感觉还行,收了几本书
    levelworm
        7
    levelworm  
       2022-04-15 00:45:07 +08:00 via Android
    我觉得没那么简单。有时候喜欢的书就是那种感觉,连我自己都不知道,又或者一本书我喜欢的可能就几个点,你让程序来跑他咋知道哪几个点是我喜欢的?比如说修仙四万年,这是唯一一本我看的修仙文,问题是他其实又不是典型的修仙文。

    当然也许目前人工智能可以帮忙筛选就是了。也算是有点用。
    levelworm
        8
    levelworm  
       2022-04-15 00:47:05 +08:00 via Android
    接上,可能简单但是更有效的做法就是看同样喜欢一本书的书友还看什么书,有些推荐系统就是这样的。但是这个就不需要人工智能了。
    flyaway
        9
    flyaway  
       2022-04-15 00:51:04 +08:00
    https://huggingface.co/docs/transformers/index 大量的模型和数据,足够你玩很久了……
    bugFactory
        10
    bugFactory  
       2022-04-15 09:50:00 +08:00
    龙空崩了,大佬搞好整个 blog 啥的分享下
    mjawp
        11
    mjawp  
       2022-04-15 09:55:19 +08:00   ❤️ 1
    难。你说的这种是基于内容的推荐。内容的推荐最难的是要提取风格特征,现在的神经网络单词能提取特征的文本长度最长是 512~1024.可想而知长文本还是一个相对较难的问题,更不要说超长文本了
    mjawp
        12
    mjawp  
       2022-04-15 09:56:46 +08:00
    我自己做了一个小说的推荐系统,给自己用的,其实这种机器做出来的推荐还是有一定参考价值的,但是还是比不上专业的推书公众号的
    aaniao002
        13
    aaniao002  
       2022-04-15 12:45:59 +08:00 via Android
    哈哈。会不会找到一堆仿制小说。
    LeeReamond
        14
    LeeReamond  
    OP
       2022-04-15 14:42:30 +08:00
    @mjawp 公众号推书最大的问题是平时根本也不用微信...


    @levelworm 修仙四万年我印象里讲的是一个科技时代背景下的修仙故事,加上大势力斗争啥的,印象里跳着看过。。感觉这种的用神经网络提取应该有效果吧,毕竟普通修仙文里你提取不到那些现代科学技术相关的词汇,不就顺利选出特征了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5878 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 03:12 · PVG 11:12 · LAX 19:12 · JFK 22:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.