Small changes to reduce peak memory. (#389)

robieta · Taylor Robie · lantiga · web-flow · commit c3c43b6a911f · 2023-06-21T20:14:54.000+02:00
Co-authored-by: Taylor Robie &lt;taylor.robie@lightning.ai&gt;
Co-authored-by: Luca Antiga &lt;luca@lightning.ai&gt;
diff --git a/finetune/full.py b/finetune/full.py
@@ -55,7 +55,7 @@ def main(
 ):
 
     auto_wrap_policy = partial(transformer_auto_wrap_policy, transformer_layer_cls={Block})
-    strategy = FSDPStrategy(auto_wrap_policy=auto_wrap_policy, activation_checkpointing=Block)
+    strategy = FSDPStrategy(auto_wrap_policy=auto_wrap_policy, activation_checkpointing=Block, limit_all_gathers=True)
 
     fabric = L.Fabric(accelerator="cuda", devices=devices, precision="bf16-mixed", strategy=strategy)
     fabric.launch()
@@ -79,7 +79,7 @@ def main(
 
     model = fabric.setup_module(model)
 
-    optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate)
+    optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate, foreach=False)
     optimizer = fabric.setup_optimizers(optimizer)
 
     train(fabric, model, optimizer, train_data, val_data, out_dir)
diff --git a/pretrain/redpajama.py b/pretrain/redpajama.py
@@ -69,7 +69,7 @@ def main(
         transformer_auto_wrap_policy, transformer_layer_cls={Block}
     )
     strategy = FSDPStrategy(
-        auto_wrap_policy=auto_wrap_policy, activation_checkpointing=Block
+        auto_wrap_policy=auto_wrap_policy, activation_checkpointing=Block, limit_all_gathers=True
     )
 
     fabric = L.Fabric(
@@ -110,6 +110,7 @@ def main(
         lr=learning_rate,
         weight_decay=weight_decay,
         betas=(beta1, beta2),
+        foreach=False,
     )
 
     model, optimizer = fabric.setup(model, optimizer)
diff --git a/pretrain/shakespeare.py b/pretrain/shakespeare.py
@@ -47,7 +47,7 @@
 
 def main() -> None:
     auto_wrap_policy = partial(transformer_auto_wrap_policy, transformer_layer_cls={Block})
-    strategy = FSDPStrategy(auto_wrap_policy=auto_wrap_policy, activation_checkpointing=Block)
+    strategy = FSDPStrategy(auto_wrap_policy=auto_wrap_policy, activation_checkpointing=Block, limit_all_gathers=True)
 
     fabric = L.Fabric(accelerator="cuda", devices=4, precision="bf16-mixed", strategy=strategy)
     fabric.launch()
@@ -70,7 +70,7 @@ def main() -> None:
 
     model = fabric.setup_module(model)
 
-    optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate, weight_decay=weight_decay, betas=(beta1, beta2))
+    optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate, weight_decay=weight_decay, betas=(beta1, beta2), foreach=False)
     optimizer = fabric.setup_optimizers(optimizer)
 
     train(fabric, model, optimizer, train_data, val_data)

Original file line number	Diff line number	Diff line change
`@@ -69,7 +69,7 @@ def main(`
`69`	`69`	`transformer_auto_wrap_policy, transformer_layer_cls={Block}`
`70`	`70`	`)`
`71`	`71`	`strategy = FSDPStrategy(`
`72`		`- auto_wrap_policy=auto_wrap_policy, activation_checkpointing=Block`
	`72`	`+ auto_wrap_policy=auto_wrap_policy, activation_checkpointing=Block, limit_all_gathers=True`
`73`	`73`	`)`
`74`	`74`
`75`	`75`	`fabric = L.Fabric(`
`@@ -110,6 +110,7 @@ def main(`
`110`	`110`	`lr=learning_rate,`
`111`	`111`	`weight_decay=weight_decay,`
`112`	`112`	`betas=(beta1, beta2),`
	`113`	`+ foreach=False,`
`113`	`114`	`)`
`114`	`115`
`115`	`116`	`model, optimizer = fabric.setup(model, optimizer)`