V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
dtgxx
V2EX  ›  问与答

spark 怎么做图片的相似度计算呢?

  •  
  •   dtgxx · 2022-06-17 09:48:09 +08:00 · 1134 次点击
    这是一个创建于 901 天前的主题,其中的信息可能已经有所发展或是发生改变。
    不是人脸的图,是像素比较低的头像那种。一般可能图一模一样,颜色不同,或者颜色相同,图有略微变化。这都可以分为一类。
    6 条回复    2022-06-17 17:50:56 +08:00
    HiShan
        1
    HiShan  
       2022-06-17 10:52:29 +08:00   ❤️ 1
    把图片二值化,取 Hash 然后计算 hash 相似度,记得 github 有一个图片搜索引擎
    knightdf
        2
    knightdf  
       2022-06-17 11:32:06 +08:00   ❤️ 1
    image hash?
    dtgxx
        3
    dtgxx  
    OP
       2022-06-17 11:45:09 +08:00
    @HiShan #1 @knightdf #2 好的我去试试, 图片 hash 之后,文本的相似度和图像的相似度是有关系的吗?
    tfdetang
        4
    tfdetang  
       2022-06-17 11:55:38 +08:00   ❤️ 1
    这个场景下 hash 似乎就够了; 精度比较高的做法还是先用一些预训练过的图像模型拿最后几层的输出或者 VAE 编码器先对所有图片进行向量化编码。 然后用 spark 计算向量间的余弦相似度
    HiShan
        5
    HiShan  
       2022-06-17 16:24:07 +08:00
    @dtgxx 文本和图片的 hash 算不一样吧
    dtgxx
        6
    dtgxx  
    OP
       2022-06-17 17:50:56 +08:00
    @HiShan #5 是的 可以算图片 hash 的相似度,我试了下,误报还是比较高
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1027 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 21:08 · PVG 05:08 · LAX 13:08 · JFK 16:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.