V2EX › liangzhh25 的所有回复 › 第 1 页 / 共 1 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

308 天前

回复了 LeeReamond 创建的主题 › Python › Transformer 是不是缺乏跨维度关系捕捉能力？

再补充一点，一般注意力结构后面都会再接个 mlp 或者 ffn ，这里会有通道维度上的全连接，通过多个 attn-mlp 结构，应该是能实现 op 说的跨维度信息捕捉的能力。

308 天前

回复了 LeeReamond 创建的主题 › Python › Transformer 是不是缺乏跨维度关系捕捉能力？

发现说的有点不对，transformer 的注意力确实是两个词的 q 和 k 在各自的维度相乘，求和计算得到的，这个注意力本身就有点类似 cv 的空间注意力。也能理解，要是维度之间还要计算相关的话，attention 计算量就要爆炸了。以上是个人理解。

308 天前

回复了 LeeReamond 创建的主题 › Python › Transformer 是不是缺乏跨维度关系捕捉能力？

@neopenx 我理解 op 的问题也是你说的那样 hhh

317 天前

回复了 FlyingBackscratc 创建的主题 › 程序员 › 有谁能用大白话简单解释一下相对位置编码是什么意思吗？

苏神博客里面 Transformer 升级之路系列里面有好些关于位置编码的文章，推荐看看，我也是刚学的小白。
按我的理解，绝对位置编码是给序列位置相关项，而相对位置编码是在绝对位置编码的推导下使位置相关项转化为相对位置相关项。具体可以看 https://www.kexue.fm/archives/8130 的(3)式和(4)式

2023-11-15 09:53:58 +08:00

回复了 lijianmin321 创建的主题 › 分享创造 › V 站老哥太热情了， Airy 永久会员加送 9000，凑到 1 万

支持支持