change hyper parameters

ce7bd4f8 · Julien Breton · 15f8302d · ce7bd4f8 · ce7bd4f8
Commit ce7bd4f8 authored 1 year ago by Julien Breton
--- a/modules/llm/Mistral-7b/Mistral-7b_fine_tune.py
+++ b/modules/llm/Mistral-7b/Mistral-7b_fine_tune.py
@@ -56,13 +56,13 @@ def fine_tune(base_model, new_model):
    # Training Arguments
    # Hyperparameters should beadjusted based on the hardware you using
    training_arguments = TrainingArguments(
-        per_device_train_batch_size=1,
-        gradient_accumulation_steps=4,
-        num_train_epochs=6,
+        per_device_train_batch_size=2,
+        gradient_accumulation_steps=1,
+        num_train_epochs=2,
        learning_rate=1e-4,
        logging_steps=2,
        optim="adamw_torch",
-        save_strategy="epoch",
+        save_strategy="steps",
        output_dir="./results"
    )


--- a/modules/llm/Mixtral-8x7b/Mixtral-8x7b_fine_tune.py
+++ b/modules/llm/Mixtral-8x7b/Mixtral-8x7b_fine_tune.py
@@ -70,13 +70,13 @@ def fine_tuned(base_model, new_model):
        model=model,
        train_dataset=train_data,
        args=TrainingArguments(
-            per_device_train_batch_size=1,
-            gradient_accumulation_steps=4,
-            num_train_epochs=6,
+            per_device_train_batch_size=2,
+            gradient_accumulation_steps=1,
+            num_train_epochs=2,
            learning_rate=1e-4,
            logging_steps=2,
            optim="adamw_torch",
-            save_strategy="epoch",
+            save_strategy="steps",
            output_dir="./results"
        ),
        data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False)