timerxl token_num 和token_len 设置问题

您好，想问一下关于96预测96的问题，你们的实验是采用 token_num1  token_len96这样的设置吗，但是这样不是相当于没有分patch进行注意力计算吗？
当我将token_len设置为24，token_num设置为4的时候，发现模型效果很差，远不如token_num1  token_len96，是token_len必须设置为96才行吗？当我将token_len设置为其他24或者48，模型效果都会变差很多，谢谢