您好,想问一下关于96预测96的问题,你们的实验是采用 token_num1 token_len96这样的设置吗,但是这样不是相当于没有分patch进行注意力计算吗? 当我将token_len设置为24,token_num设置为4的时候,发现模型效果很差,远不如token_num1 token_len96,是token_len必须设置为96才行吗?当我将token_len设置为其他24或者48,模型效果都会变差很多,谢谢
您好,想问一下关于96预测96的问题,你们的实验是采用 token_num1 token_len96这样的设置吗,但是这样不是相当于没有分patch进行注意力计算吗?
当我将token_len设置为24,token_num设置为4的时候,发现模型效果很差,远不如token_num1 token_len96,是token_len必须设置为96才行吗?当我将token_len设置为其他24或者48,模型效果都会变差很多,谢谢