作者您好, 以下代码的factor被上层函数误传为configs.factor(注意力缩放因子),二者不是相同的参数,此处factor应该是路由数量,原论文默认是10,这里始终传入为configs.factor,导致默认为1。 https://github.com/thuml/Time-Series-Library/blob/a22d110a422aef49c89dfb68b9f7d26e7c5a32e3/layers/SelfAttention_Family.py#L262 另外请教,为何注意力缩放因子configs.factor默认是1(许多模型还设置为3),而不是原 Transformer 中的 1/sqrt(d_model)?