wird geladen
Linearität von Transformer-FFN-Blöcken ist erlernt, nicht architekturbedingt · Lumeric