Hello, 我发现现在代码里padding tokens并没有被屏蔽,而是参与了attention和loss的计算的。这似乎与主流做法不同,是刻意为之还是bug?
Hello, 我发现现在代码里padding tokens并没有被屏蔽,而是参与了attention和loss的计算的。这似乎与主流做法不同,是刻意为之还是bug?