huggingface · pacman100 · Feb 16, 2023 · Feb 16, 2023 · Feb 16, 2023
diff --git a/examples/causal_language_modeling/peft_lora_clm_accelerate_big_model_inference.ipynb b/examples/causal_language_modeling/peft_lora_clm_accelerate_big_model_inference.ipynb
@@ -30,7 +30,7 @@
     "import os\n",
     "from transformers import AutoTokenizer\n",
     "from torch.utils.data import DataLoader\n",
-    "from transformers import default_data_collator,get_linear_schedule_with_warmup\n",
+    "from transformers import default_data_collator, get_linear_schedule_with_warmup\n",
     "from tqdm import tqdm\n",
     "from datasets import load_dataset\n",
     "\n",
@@ -40,10 +40,10 @@
     "dataset_name = \"twitter_complaints\"\n",
     "text_column = \"Tweet text\"\n",
     "label_column = \"text_label\"\n",
-    "max_length=64\n",
+    "max_length = 64\n",
     "lr = 1e-3\n",
     "num_epochs = 50\n",
-    "batch_size=8\n"
+    "batch_size = 8"
    ]
   },
   {
@@ -63,7 +63,6 @@
     "    lambda x: {\"text_label\": [classes[label] for label in x[\"Label\"]]},\n",
     "    batched=True,\n",
     "    num_proc=1,\n",
-    "    \n",
     ")\n",
     "print(dataset)\n",
     "dataset[\"train\"][0]"
@@ -118,6 +117,8 @@
     "    tokenizer.pad_token_id = tokenizer.eos_token_id\n",
     "target_max_length = max([len(tokenizer(class_label)[\"input_ids\"]) for class_label in classes])\n",
     "print(target_max_length)\n",
+    "\n",
+    "\n",
     "def preprocess_function(examples):\n",
     "    batch_size = len(examples[text_column])\n",
     "    inputs = [f\"{text_column} : {x} Label : \" for x in examples[text_column]]\n",
@@ -127,44 +128,43 @@
     "    for i in range(batch_size):\n",
     "        sample_input_ids = model_inputs[\"input_ids\"][i]\n",
     "        label_input_ids = labels[\"input_ids\"][i] + [tokenizer.pad_token_id]\n",
-    "        #print(i, sample_input_ids, label_input_ids)\n",
-    "        model_inputs[\"input_ids\"][i] = sample_input_ids + label_input_ids \n",
+    "        # print(i, sample_input_ids, label_input_ids)\n",
+    "        model_inputs[\"input_ids\"][i] = sample_input_ids + label_input_ids\n",
     "        labels[\"input_ids\"][i] = [-100] * len(sample_input_ids) + label_input_ids\n",
     "        model_inputs[\"attention_mask\"][i] = [1] * len(model_inputs[\"input_ids\"][i])\n",
-    "    #print(model_inputs)\n",
+    "    # print(model_inputs)\n",
     "    for i in range(batch_size):\n",
     "        sample_input_ids = model_inputs[\"input_ids\"][i]\n",
     "        label_input_ids = labels[\"input_ids\"][i]\n",
-    "        model_inputs[\"input_ids\"][i] = [tokenizer.pad_token_id]*(max_length-len(sample_input_ids)) + sample_input_ids\n",
-    "        model_inputs[\"attention_mask\"][i] = [0]*(max_length-len(sample_input_ids)) + model_inputs[\"attention_mask\"][i]\n",
-    "        labels[\"input_ids\"][i] =  [-100]*(max_length-len(sample_input_ids)) + label_input_ids \n",
+    "        model_inputs[\"input_ids\"][i] = [tokenizer.pad_token_id] * (\n",
+    "            max_length - len(sample_input_ids)\n",
+    "        ) + sample_input_ids\n",
+    "        model_inputs[\"attention_mask\"][i] = [0] * (max_length - len(sample_input_ids)) + model_inputs[\n",
+    "            \"attention_mask\"\n",
+    "        ][i]\n",
+    "        labels[\"input_ids\"][i] = [-100] * (max_length - len(sample_input_ids)) + label_input_ids\n",
     "        model_inputs[\"input_ids\"][i] = torch.tensor(model_inputs[\"input_ids\"][i][:max_length])\n",
     "        model_inputs[\"attention_mask\"][i] = torch.tensor(model_inputs[\"attention_mask\"][i][:max_length])\n",
-    "        labels[\"input_ids\"][i] = torch.tensor(labels[\"input_ids\"][i][:max_length]) \n",
+    "        labels[\"input_ids\"][i] = torch.tensor(labels[\"input_ids\"][i][:max_length])\n",
     "    model_inputs[\"labels\"] = labels[\"input_ids\"]\n",
     "    return model_inputs\n",
     "\n",
     "\n",
-    "\n",
     "processed_datasets = dataset.map(\n",
-    "            preprocess_function,\n",
-    "            batched=True,\n",
-    "            num_proc=1,\n",
-    "            remove_columns=dataset[\"train\"].column_names,\n",
-    "            load_from_cache_file=False,\n",
-    "            desc=\"Running tokenizer on dataset\",\n",
-    "        )\n",
+    "    preprocess_function,\n",
+    "    batched=True,\n",
+    "    num_proc=1,\n",
+    "    remove_columns=dataset[\"train\"].column_names,\n",
+    "    load_from_cache_file=False,\n",
+    "    desc=\"Running tokenizer on dataset\",\n",
+    ")\n",
     "\n",
     "train_dataset = processed_datasets[\"train\"]\n",
     "\n",
     "\n",
     "train_dataloader = DataLoader(\n",
-    "        train_dataset, shuffle=True, collate_fn=default_data_collator, batch_size=batch_size, pin_memory=True\n",
-    "    )\n",
-    "\n",
-    "\n",
-    "\n",
-    "    "
+    "    train_dataset, shuffle=True, collate_fn=default_data_collator, batch_size=batch_size, pin_memory=True\n",
+    ")"
    ]
   },
   {
@@ -178,23 +178,28 @@
     "    batch_size = len(examples[text_column])\n",
     "    inputs = [f\"{text_column} : {x} Label : \" for x in examples[text_column]]\n",
     "    model_inputs = tokenizer(inputs)\n",
-    "    #print(model_inputs)\n",
+    "    # print(model_inputs)\n",
     "    for i in range(batch_size):\n",
     "        sample_input_ids = model_inputs[\"input_ids\"][i]\n",
-    "        model_inputs[\"input_ids\"][i] = [tokenizer.pad_token_id]*(max_length-len(sample_input_ids)) + sample_input_ids\n",
-    "        model_inputs[\"attention_mask\"][i] = [0]*(max_length-len(sample_input_ids)) + model_inputs[\"attention_mask\"][i]\n",
+    "        model_inputs[\"input_ids\"][i] = [tokenizer.pad_token_id] * (\n",
+    "            max_length - len(sample_input_ids)\n",
+    "        ) + sample_input_ids\n",
+    "        model_inputs[\"attention_mask\"][i] = [0] * (max_length - len(sample_input_ids)) + model_inputs[\n",
+    "            \"attention_mask\"\n",
+    "        ][i]\n",
     "        model_inputs[\"input_ids\"][i] = torch.tensor(model_inputs[\"input_ids\"][i][:max_length])\n",
     "        model_inputs[\"attention_mask\"][i] = torch.tensor(model_inputs[\"attention_mask\"][i][:max_length])\n",
     "    return model_inputs\n",
     "\n",
+    "\n",
     "processed_datasets = dataset.map(\n",
-    "            test_preprocess_function,\n",
-    "            batched=True,\n",
-    "            num_proc=1,\n",
-    "            remove_columns=dataset[\"train\"].column_names,\n",
-    "            load_from_cache_file=False,\n",
-    "            desc=\"Running tokenizer on dataset\",\n",
-    "        )\n",
+    "    test_preprocess_function,\n",
+    "    batched=True,\n",
+    "    num_proc=1,\n",
+    "    remove_columns=dataset[\"train\"].column_names,\n",
+    "    load_from_cache_file=False,\n",
+    "    desc=\"Running tokenizer on dataset\",\n",
+    ")\n",
     "\n",
     "eval_dataset = processed_datasets[\"train\"]\n",
     "test_dataset = processed_datasets[\"test\"]\n",
@@ -236,7 +241,8 @@
    ],
    "source": [
     "from peft import PeftModel, PeftConfig\n",
-    "max_memory={0: \"1GIB\", 1: \"1GIB\", 2: \"2GIB\", 3: \"10GIB\", \"cpu\":\"30GB\"}\n",
+    "\n",
+    "max_memory = {0: \"1GIB\", 1: \"1GIB\", 2: \"2GIB\", 3: \"10GIB\", \"cpu\": \"30GB\"}\n",
     "peft_model_id = \"smangrul/twitter_complaints_bigscience_bloomz-7b1_LORA_CAUSAL_LM\"\n",
     "\n",
     "config = PeftConfig.from_pretrained(peft_model_id)\n",
@@ -251,7 +257,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "#model"
+    "# model"
    ]
   },
   {
@@ -343,7 +349,7 @@
     "with torch.no_grad():\n",
     "    outputs = model.generate(input_ids=inputs[\"input_ids\"], max_new_tokens=10)\n",
     "    print(outputs)\n",
-    "    print(tokenizer.batch_decode(outputs.detach().cpu().numpy(), skip_special_tokens=True))\n"
+    "    print(tokenizer.batch_decode(outputs.detach().cpu().numpy(), skip_special_tokens=True))"
    ]
   },
   {
@@ -397,7 +403,7 @@
     "accuracy = correct / total * 100\n",
     "print(f\"{accuracy=}\")\n",
     "print(f\"{eval_preds[:10]=}\")\n",
-    "print(f\"{dataset['train'][label_column][:10]=}\")\n"
+    "print(f\"{dataset['train'][label_column][:10]=}\")"
    ]
   },
   {
@@ -416,7 +422,7 @@
     "        outputs = model.generate(**batch, max_new_tokens=10)\n",
     "    preds = outputs[:, max_length:].detach().cpu().numpy()\n",
     "    test_preds.extend(tokenizer.batch_decode(preds, skip_special_tokens=True))\n",
-    "    if len(test_preds)>100:\n",
+    "    if len(test_preds) > 100:\n",
     "        break\n",
     "test_preds"
    ]