feat: train and clean data

2024-10-01 01:06:10 -04:00 · 2023-03-25 16:17:48 +00:00 · 2023-03-25 16:17:48 +00:00 · 723a50bdf1
commit 723a50bdf1
parent 2568d94e50
7 changed files with 481 additions and 0 deletions
--- a/clean.py
+++ b/clean.py
@ -0,0 +1,71 @@
 import numpy as np
 import glob
 import os
 import json
 import jsonlines
 import pandas as pd
 prompt_generation_dir = "prompts-reponses"
 for file in glob.glob(os.path.join(prompt_generation_dir, "*.jsonl")):
    data = []
    print(file)
    with open(file) as f:
        for line in f:
            try:
                contents = json.loads(line)
                data.append(contents)
            except BaseException:
                pass
    processed = []
    for item in data:
        if 'source' not in item:
            item['source'] = 'unspecified'
        if 'model_settings' in item:
            item.pop('model_settings', None)
        for key in list(item.keys()):
            if key not in ['source', 'prompt', 'response']:
                #print(item[key])
                item.pop(key, None)
        if isinstance(item['prompt'], dict):
            if "value" in item["prompt"]:
                item["prompt"] = item["prompt"]["value"]
            elif "description" in item["prompt"]:
                item["prompt"] = item["prompt"]["description"]
            else:
                continue
        elif not isinstance(item['prompt'], str):
            continue
        if isinstance(item['response'], dict):
            if "value" in item["response"]:
                item["response"] = item["response"]["value"]
            elif "description" in item["response"]:
                item["response"] = item["response"]["description"]
            else:
                continue 
        elif not isinstance(item['response'], str):
            continue
        if item:
            processed.append(item)
    df = pd.DataFrame(processed)
    prev_len = len(df)
    # drop empty or null string
    df = df.dropna(subset=['prompt', 'response'])
    df = df[df['prompt'] != '']
    df = df[df['response'] != '']
    curr_len = len(df)
    print(f"Removed {prev_len - curr_len} rows")
    clean_name = file.split(".jsonl")[0] + "_clean.jsonl"
    print(f"writing to {clean_name}")
    df.to_json(clean_name, orient="records", lines=True)
--- a/configs/deepspeed/ds_config.json
+++ b/configs/deepspeed/ds_config.json
@ -0,0 +1,48 @@
 {
 	"train_batch_size": "auto",
 	"gradient_accumulation_steps": "auto",
 	"train_micro_batch_size_per_gpu": "auto",
 	"fp16": {
 	  "enabled": "auto",
 	  "min_loss_scale": 1,
 	  "loss_scale_window": 1000,
 	  "hysteresis": 2,
 	  "initial_scale_power": 32
 	},
 	"bf16": {
 		"enabled": "auto"
 	},
 	"gradient_clipping": 1,
 	"zero_optimization": {
 	  "stage": 2,
 	  "offload_param": {
 		"device": "none"
 	  },
 	  "offload_optimizer": {
 		"device": "none"
 	  },
 	  "allgather_partitions": true,
 	  "allgather_bucket_size": 5e8,
 	  "contiguous_gradients": true
 	},
 	"optimizer": {
 	  "type": "AdamW",
 	  "params": {
 		"lr": "auto",
 		"betas": [
 		  0.9,
 		  0.999
 		],
 		"eps": 1e-08
 	  }
 	},
 	"scheduler": {
 	  "type": "WarmupLR",
 	  "params": {
 		"warmup_min_lr": 0,
 		"warmup_max_lr": "auto",
 		"warmup_num_steps": "auto",
 		"warmup_type": "linear"
 	  }
 	}
  }
--- a/configs/train/finetune.yaml
+++ b/configs/train/finetune.yaml
@ -0,0 +1,28 @@
 # model/tokenizer
 model_name: "zpn/llama-7b"
 tokenizer_name: "zpn/llama-7b"
 gradient_checkpointing: true
 # dataset
 streaming: false
 num_proc: 64
 dataset_path: "data.jsonl"
 max_length: 512
 batch_size: 32
 # train dynamics
 lr: 5.0e-5
 eval_every: 2000
 eval_steps: 100
 save_every: 2000
 output_dir: "ckpts/llama-7b"
 checkpoint: null
 lora: false
 warmup_steps: 100
 # logging
 wandb: false
 wandb_entity: zanussbaum
 wandb_project: llama
 seed: 42
--- a/configs/train/finetune_lora.yaml
+++ b/configs/train/finetune_lora.yaml
@ -0,0 +1,29 @@
 # model/tokenizer
 model_name: "zpn/llama-7b"
 tokenizer_name: "zpn/llama-7b"
 gradient_checkpointing: false
 save_name: "zpn/vicuna-lora"
 # dataset
 streaming: false
 num_proc: 64
 dataset_path: "data"
 max_length: 512
 batch_size: 8
 # train dynamics
 lr: 5.0e-5
 eval_every: 2000
 eval_steps: 100
 save_every: 2000
 output_dir: "ckpts/llama-7b"
 checkpoint: null
 lora: true
 warmup_steps: 100
 # logging
 wandb: false
 wandb_entity: zanussbaum
 wandb_project: llama
 seed: 42
--- a/data.py
+++ b/data.py
@ -0,0 +1,108 @@
 import glob
 import torch
 from datasets import load_dataset
 import os
 from torch.utils.data import DataLoader
 from transformers import DefaultDataCollator
 def tokenize_inputs(config, tokenizer, examples):
    max_length = config["max_length"]
    input_ids = torch.full((len(examples["prompt"]), max_length), tokenizer.pad_token_id)
    # ignore bos
    newline_tokens = tokenizer("\n", return_tensors="pt")["input_ids"][0, 1:]
    out = {"labels": [], "attention_mask": []}
    for i, (prompt, response) in enumerate(zip(examples["prompt"], examples["response"])):
        # HACK to get 512 to work for now
        input_tokens = tokenizer(prompt, truncation=True, max_length=max_length //2, return_tensors="pt")["input_ids"].squeeze()
        input_len = len(input_tokens)
        # plus one since we remove bos from response
        remaining_tokens = max_length - input_len - len(newline_tokens) + 1
        target_tokens = tokenizer(response, truncation=True, max_length=remaining_tokens, return_tensors="pt")["input_ids"].squeeze()[1:]
        input_ids[i, :input_len] = input_tokens
        # add newline between prompt and response
        newline_plus_inputs = input_len + len(newline_tokens)
        input_ids[i, input_len: newline_plus_inputs] = newline_tokens
        # add target tokens, remove bos
        input_ids[i, newline_plus_inputs: newline_plus_inputs + len(target_tokens)] = target_tokens
        labels = input_ids[i].clone()
        labels[: newline_plus_inputs] = -100
        labels[labels == tokenizer.pad_token_id] = -100
        # to debug this, can set all values == -100 to the pad token, then assert that tokenizer.decode(labels, skip_special_tokens=True).strip() == response
        attention_mask = input_ids[i].ne(tokenizer.pad_token_id).int()
        out["labels"].append(labels)
        out["attention_mask"].append(attention_mask)
    out["input_ids"] = input_ids
    out = {k: torch.stack(v) if isinstance(v, list) else v for k, v in out.items()}
    return out
 def load_data(config, tokenizer):
    dataset_path = config["dataset_path"]
    if os.path.exists(dataset_path):
        # check if path is a directory
        if os.path.isdir(dataset_path):
            files = glob.glob(os.path.join(dataset_path, "*_clean.jsonl"))
        else:
            files = [dataset_path]
        dataset = load_dataset("json", data_files=files, split="train")
    else:
        dataset = load_dataset(dataset_path)
    dataset = dataset.train_test_split(test_size=.05, seed=config["seed"])
    train_dataset, val_dataset = dataset["train"], dataset["test"]
    if config["streaming"] is False:
        kwargs = {"num_proc": config["num_proc"]}
    else:
        kwargs = {}
    # tokenize inputs and return labels and attention mask
    train_dataset = train_dataset.map(
        lambda ele: tokenize_inputs(config, tokenizer, ele),
        batched=True,
        remove_columns=["source", "prompt"],
        **kwargs
    )
    val_dataset = val_dataset.map(
        lambda ele: tokenize_inputs(config, tokenizer, ele), 
        batched=True,
        remove_columns=["source", "prompt"],
        **kwargs
    )
    train_dataset = train_dataset.with_format("torch")
    val_dataset = val_dataset.with_format("torch")
    # create dataloader with default data collator since we already have labels
    train_dataloader = DataLoader(
        train_dataset,
        collate_fn=DefaultDataCollator(),
        batch_size=config["batch_size"],
    )
    val_dataloader = DataLoader(
        val_dataset,
        collate_fn=DefaultDataCollator(),
        batch_size=config["batch_size"],
    )
    return train_dataloader, val_dataloader
--- a/read.py
+++ b/read.py
@ -0,0 +1,10 @@
 import yaml
 def read_config(path):
    # read yaml and return contents 
    with open(path, 'r') as file:
        try:
            return yaml.safe_load(file)
        except yaml.YAMLError as exc:
            print(exc)
--- a/train.py
+++ b/train.py
@ -0,0 +1,187 @@
 import os
 from transformers import AutoModelForCausalLM, AutoTokenizer 
 from transformers.trainer_pt_utils import get_parameter_names
 import torch
 import torch.nn as nn
 from argparse import ArgumentParser
 from read import read_config
 from accelerate import Accelerator
 from accelerate.utils import DummyScheduler, DummyOptim, set_seed
 from peft import get_peft_model, LoraConfig, TaskType
 from data import load_data
 from torchmetrics import MeanMetric
 from tqdm import tqdm
 def format_metrics(metrics, split, prefix=""):
    log = f"[{split}]" + prefix
    log += " ".join([f"{key}: {value:.4f}" for key, value in metrics.items()])
    return log
 def evaluate(config, model, val_dataloader):
    model.eval()
    val_loss = MeanMetric().to(model.device)
    with torch.no_grad():
        for i, batch in enumerate(
            tqdm(val_dataloader),
        ):
            if i == config["eval_steps"]:
                break
            loss = model(**batch).loss
            loss_values = accelerator.gather_for_metrics({"loss": loss.detach()})
            val_loss.update(loss_values["loss"])
    return val_loss
 def train(accelerator, config):
    set_seed(config['seed'])
    accelerator.print(config)
    accelerator.print(f"Using {accelerator.num_processes} GPUs")
    tokenizer = AutoTokenizer.from_pretrained(config['tokenizer_name'])
    # llama has no pad token, set it to eos
    if tokenizer.pad_token is None:
        # these tokens are already in the vocab, just not mapped correctly
        tokenizer.add_special_tokens({"bos_token": "<s>", "eos_token": "</s>"})
        tokenizer.pad_token = tokenizer.eos_token
    with accelerator.main_process_first():
        train_dataloader, val_dataloader = load_data(config, tokenizer) 
    checkpoint = config["gradient_checkpointing"]
    model = AutoModelForCausalLM.from_pretrained(config["model_name"], 
                                                    use_cache=False if checkpoint else True,
                                                    trust_remote_code=True) 
    if checkpoint:
        model.gradient_checkpointing_enable()
    if config["lora"]:
        peft_config = LoraConfig(
            # should R be configurable?
            task_type=TaskType.CAUSAL_LM, inference_mode=False, r=8, lora_alpha=32, lora_dropout=0.1
        )
        model = get_peft_model(model, peft_config)
        model.print_trainable_parameters()
    optimizer_cls = (
        torch.optim.AdamW
        if accelerator.state.deepspeed_plugin is None
        or "optimizer" not in accelerator.state.deepspeed_plugin.deepspeed_config
        else DummyOptim
    )
    # karpathy doesn't decay embeddding, maybe we should exclude
    # https://github.com/karpathy/minGPT/commit/bbbdac74fa9b2e55574d70056163ffbae42310c1#diff-2075fa9c224b395be5bda85544dd36572b59c76c54562819eadadbf268602834R157s
    optimizer = optimizer_cls(model.parameters(), lr=config["lr"])
    # scheduler defined in Deepspeed config
    scheduler = DummyScheduler(
            optimizer,  warmup_num_steps=config["warmup_steps"],
        )
    model, optimizer, train_dataloader, val_dataloader, scheduler = accelerator.prepare(
            model, optimizer, train_dataloader, val_dataloader, scheduler
    )
    # setup for saving training states in case preemption
    accelerator.register_for_checkpointing(scheduler)
    if config["checkpoint"]:
        accelerator.load_state(config["checkpoint"])
        accelerator.print(f"Resumed from checkpoint: {config['checkpoint']}")
        path = os.path.basename(config["train_args"]["resume_from_checkpoint"])
        training_difference = os.path.splitext(path)[0]
        resume_step = int(training_difference.replace("step_", ""))
        accelerator.skip_first_batches(train_dataloader, resume_step)
        accelerator.print(f"Resuming from step {resume_step}")
    train_loss = MeanMetric().to(model.device)
    for step, batch in enumerate(tqdm(train_dataloader)):
        model.train()
        outputs = model(**batch)
        loss = outputs.loss
        accelerator.backward(loss)
        optimizer.step()
        # log LR in case something weird happens 
        if step % (config["eval_every"] // 10) == 0:
            if config["wandb"]:
                accelerator.log({"lr": scheduler.get_last_lr()[0]}, step=step)
        scheduler.step()
        optimizer.zero_grad()
        loss_values = accelerator.gather_for_metrics({"loss": loss.detach()})
        train_loss.update(loss_values["loss"])
        if step > 0 and step % config["save_every"] == 0:
            accelerator.save_state(f"{config['output_dir']}/step_{step}")
        if step > 0 and step % config["eval_every"] == 0:
            val_loss = evaluate(config, model, val_dataloader)
            log_train = {
                    "train_loss": train_loss.compute()
                }
            log_val = {
                "val_loss": val_loss.compute()
            }
            if config["wandb"]:
                accelerator.log({**log_train, **log_val}, step=step)
            accelerator.print(f"Current LR: {scheduler.get_last_lr()[0]}")
            accelerator.print(format_metrics(log_train, "train", f" step {step} "))
            accelerator.print(format_metrics(log_val, "val", f" step {step} "))
            train_loss.reset()
    accelerator.wait_for_everyone()
    unwrapped_model = accelerator.unwrap_model(model)
    unwrapped_model.save_pretrained(
        f"{config['output_dir']}/final",
        is_main_process=accelerator.is_main_process,
        save_function=accelerator.save,
        state_dict=accelerator.get_state_dict(model),
    )
    unwrapped_model.push_to_hub(config["save_name"], private=True)
    accelerator.end_training()
 if __name__ == "__main__":
    # parse arguments by reading in a config
    parser = ArgumentParser()
    parser.add_argument("--config", type=str, default="config.yaml")
    args = parser.parse_args()
    config = read_config(args.config)
    if config["wandb"]:
        accelerator = Accelerator(log_with="wandb")
        accelerator.init_trackers(
            project_name=config["wandb_project_name"],
            config=config,
            init_kwargs={"wandb": {"entity": config["wandb_entity"]}},
        )
    else:
        accelerator = Accelerator()
    train(accelerator, config=config)