evaluation script and prediction for BERT models

valentinp72 · valentinp72 · commit d228b5072a77 · 2024-06-10T15:02:43.000+02:00
diff --git a/README.md b/README.md
@@ -37,6 +37,14 @@ TODO: TO_COME
 The source code of training and inference of the models presented in the paper 
 are included in the folder `models/` (`models/BERT` and `models/Mixtral`).
 
+## Installation 
+
+You need `python3`, `pip3`.
+
+```bash
+pip3 install -r requirements.txt
+```
+
 ## Citation
 
 If you use this corpus or the source code of this repository, please cite the 
diff --git a/evaluation/eval b/evaluation/eval
@@ -0,0 +1,200 @@
+#!/usr/bin/env python3
+
+import argparse
+
+parser = argparse.ArgumentParser(
+    description='Tool used to evaluate the performances of a model ' \
+    'predictions relative to the dataset annotations.'
+)
+parser.add_argument(
+    '--reference_dataset', required=True, type=str,
+    help='Path to the original reference dataset folder.'
+)
+parser.add_argument(
+    '--prediction', required=True, type=argparse.FileType('r'),
+    help='Predictions from the models in JSON format.'
+)
+parser.add_argument(
+    '--subset', required=True, type=str,
+    choices=['validation', 'test'],
+    help='Subset to evaluate.'
+)
+
+args = parser.parse_args()
+
+################################################################################
+
+import os
+import json
+import datetime
+import collections
+
+import numpy as np
+import pandas as pd
+
+################################################################################
+#                           PREPARING THE DATASET                              #
+################################################################################
+
+reference_file = os.path.join(args.reference_dataset, f"{args.subset}.json")
+if not os.path.exists(reference_file):
+    raise FileNotFoundError(
+        f"The dataset reference for {args.subset=} cannot be found at " \
+        "{reference_file}."
+    )
+
+reference = pd.read_json(reference_file, orient='index')
+prediction = pd.read_json(args.prediction, orient='index')
+
+reference_dialogues = set(reference.index)
+prediction_dialogues = set(prediction.index)
+
+allowed_classes = set(reference.iloc[0].classes.keys())
+
+if reference_dialogues != prediction_dialogues:
+    raise ValueError(
+        "Reference dialogues are not the same as prediction dialogues.\n" \
+        f" - Total reference dialogues: {len(reference_dialogues)}\n" \
+        f" - Total prediction dialogues: {len(prediction_dialogues)}\n" \
+        f" - In common dialogues : {len(reference_dialogues & prediction_dialogues)}\n" \
+        f"Make sure you are using the correct --subset [validation/test] " \
+        f"and that you returned the correct dialogues ids in your prediction."
+    )
+
+################################################################################
+#                            EVALUATION METRICS                                #
+################################################################################
+
+def compute_confusion_matrix(
+        ref,
+        pred,
+        classes=allowed_classes,
+        return_num_processed=False
+):
+    mat = collections.defaultdict(lambda: {'tp': 0, 'tn': 0, 'fp': 0, 'fn': 0})
+    num_processed_samples = 0
+
+    for index, row in ref.iterrows():
+        num_processed_samples += 1
+        for c in classes:
+            predicted = pred.loc[index, f"class__{c}"]
+            score = row.classes[c]
+            if predicted:
+                if score == 0:
+                    mat[c]['fp'] += 1
+                elif score == 1:
+                    mat[c]['tp'] += 1
+                elif score == 0.5:
+                    mat[c]['tp'] += score
+                    mat[c]['fp'] += score
+                else:
+                    raise ValueError("weird.")
+            else:
+                if score == 0:
+                    mat[c]['tn'] += 1
+                elif score == 1:
+                    mat[c]['fn'] += 1
+                elif score == 0.5:
+                    mat[c]['tn'] += score
+                    mat[c]['fn'] += score
+                else:
+                    raise ValueError("weird.")
+
+    mat = pd.DataFrame.from_dict(mat, orient='index')
+    if return_num_processed:
+        return mat, num_processed_samples
+    else:
+        return mat
+
+def average_metric(mat, met, average, metric):
+    if average is None:
+        return met
+    elif average == 'macro':
+        return met.mean()
+    elif average == 'micro':
+        return metric(mat.sum(), average=None)
+    elif average == 'all':
+        return {
+            avg: average_metric(mat, met, avg, metric)
+            for avg in [None, 'micro', 'macro']
+        }
+    else:
+        raise ValueError(average)
+
+def precision(mat, average=None):
+    _precision = mat['tp'] / (mat['tp'] + mat['fp'])
+
+    # 1.0 to precision when no predicted examples
+    if isinstance(_precision, pd.Series):
+        _precision = _precision.fillna(value=1.0)
+    else:
+        _precision = np.nan_to_num(_precision, nan=1.0)
+
+    return average_metric(
+        mat,
+        _precision,
+        average=average, metric=precision
+    )
+
+def recall(mat, average=None):
+    _recall = mat['tp'] / (mat['tp'] + mat['fn'])
+    assert not np.isnan(_recall).any(), \
+        f"Recall cannot have a NaN. That would mean an label has no occurence" \
+        " on the test set."
+    return average_metric(
+        mat,
+        _recall,
+        average=average, metric=recall
+    )
+
+def f1(mat, average=None):
+    p, r = precision(mat), recall(mat)
+    _f1 = 2 * (p * r) / (p + r)
+
+    if isinstance(_f1, pd.Series):
+        _f1 = _f1.fillna(value=0.0)
+    else:
+        _f1 = np.nan_to_num(_f1, nan=0.0)
+
+    return average_metric(
+        mat,
+        _f1,
+        average=average, metric=f1
+    )
+
+def all_metrics(mat, average=None):
+    return {
+        k: globals()[k](mat, average=average)
+        for k in ['f1', 'precision', 'recall']
+    }
+
+confusion = compute_confusion_matrix(
+    ref=reference, pred=prediction,
+)
+
+micro = all_metrics(confusion, average='micro')
+macro = all_metrics(confusion, average='macro')
+per_class = all_metrics(confusion, average=None)
+
+print(f"Micro: {micro}")
+print(f"Macro: {macro}")
+
+output_file = os.path.join(
+    os.path.dirname(args.prediction.name), 'results.json'
+)
+
+with open(output_file, 'w') as f:
+    json.dump({
+        'now': datetime.datetime.now().strftime('%Y-%m-%d_%H:%M:%S'),
+        'num_reference_samples': len(reference),
+        'num_predicted_samples': len(prediction),
+        'micro': micro,
+        'macro': macro,
+        'per_class': {
+            metric: per_class[metric].to_dict()
+            for metric in per_class
+        },
+        'args': str(args)
+    }, f, indent='\t', ensure_ascii=False)
+
+print(f"Outputs saved to {output_file=}.")
diff --git a/evaluation/predict_bert b/evaluation/predict_bert
@@ -0,0 +1,159 @@
+#!/usr/bin/env python3
+
+import argparse
+
+parser = argparse.ArgumentParser(
+    description='Tool used to generate the predictions of a BERT model.'
+)
+parser.add_argument(
+    '--reference_dataset', required=True, type=str,
+    help='Path to the original reference dataset folder.'
+)
+parser.add_argument(
+    '--subset', required=True, type=str,
+    choices=['validation', 'test'],
+    help='Subset to predict.'
+)
+parser.add_argument(
+    '--model_path', required=True, type=str,
+    help='Path of the model to use for prediction.'
+)
+parser.add_argument(
+    '--output_dir', required=True, type=str,
+    help='Output directory to save the results in.'
+)
+parser.add_argument(
+    '--lowercase_text', action='store_true',
+    help='Apply lowercase to all input text. Should match what was use when ' \
+    'training / finetuning.'
+)
+parser.add_argument(
+    '--device', default='cpu',
+    help='Device to predict on.'
+)
+args = parser.parse_args()
+print(args)
+
+################################################################################
+
+import os
+import json
+import torch
+import datasets
+import transformers
+
+import numpy as np
+import pandas as pd
+
+################################################################################
+#               LOADING THE MODEL, CONFIG AND TOKENIZER                        #
+################################################################################
+
+with open(f'{args.model_path}/config.json') as f:
+    tokenizer_name = json.load(f)['_name_or_path']
+
+output_dir = os.path.join(
+    args.output_dir,
+    args.model_path.replace('/', '__'),
+    args.subset,
+)
+os.makedirs(output_dir, exist_ok=True)
+
+# preparing the models
+model = transformers.AutoModelForSequenceClassification.from_pretrained(
+    args.model_path,
+).to(args.device)
+
+if 'flaubert' in model.config.architectures[0].lower():
+    model.sequence_summary.summary_type = 'mean'
+model.config.max_length = 256
+
+tokenizer = transformers.AutoTokenizer.from_pretrained(
+    tokenizer_name
+)
+
+# evaluating on the annotator test set
+trainer = transformers.Trainer(
+    model,
+    args=torch.load(f'{args.model_path}/training_args.bin'),
+    data_collator=transformers.DefaultDataCollator(),
+)
+
+allowed_classes = set(trainer.model.config.id2label.values())
+classes = [f'class__{c}' for c in sorted(allowed_classes)]
+
+def sigmoid(x):
+   return 1/(1 + np.exp(-x))
+
+def get_preds_ids(prediction):
+    prediction = sigmoid(prediction)
+    return np.argwhere(prediction > 0.5).reshape(-1)
+
+def tokenize_function(examples):
+    return tokenizer(
+        examples["whisper_text"],
+        padding="max_length",
+        truncation=True,
+        max_length=model.config.max_length
+    )
+
+def get_preds_ids(prediction):
+    prediction = sigmoid(prediction)
+    return np.argwhere(prediction > 0.5).reshape(-1)
+
+def get_classes_names(model, ids):
+    return set(map(lambda x: model.config.id2label[x], ids))
+
+################################################################################
+#                           PREPARING THE DATASET                              #
+################################################################################
+
+# preparing the data
+reference_file = os.path.join(args.reference_dataset, f"{args.subset}.json")
+if not os.path.exists(reference_file):
+    raise FileNotFoundError(
+        f"The dataset reference for {args.subset=} cannot be found at " \
+        "{reference_file}."
+    )
+reference = pd.read_json(reference_file, orient='index')
+
+if args.lowercase_text:
+    reference['whisper_text'] = reference['whisper_text'].str.lower()
+    # hf_dataset = hf_dataset.map(lambda x: {'whisper_text': x['whisper_text'].lower()})
+
+hf_dataset = datasets.Dataset.from_pandas(reference)
+
+tokenized_hf_dataset = hf_dataset.map(
+    tokenize_function, batched=True, batch_size=1000
+)
+
+################################################################################
+#                       PREDICTING AND SAVING RESULTS                          #
+################################################################################
+
+preds = trainer.predict(tokenized_hf_dataset)
+output = pd.DataFrame(columns=['text', *classes]).astype(
+    {c: bool for c in classes}
+)
+
+for (sample_id, sample), pred in zip(reference.iterrows(), preds.predictions):
+    output.loc[sample_id, 'text'] = sample['whisper_text']
+    for c in allowed_classes:
+        output.loc[sample_id, f'class__{c}'] = False
+
+    for c in get_classes_names(trainer.model, get_preds_ids(pred)):
+        output.loc[sample_id, f'class__{c}'] = True
+
+output = output.to_dict(orient='index')
+with open(f"{output_dir}/predictions.json", "w") as f:
+    json.dump(
+        output, f,
+        ensure_ascii=False, indent='\t'
+    )
+
+with open(f"{output_dir}/model-config.json", "w") as f:
+    json.dump(
+        trainer.model.config.to_dict(), f,
+        ensure_ascii=False, indent='\t'
+    )
+
diff --git a/requirements.txt b/requirements.txt
@@ -0,0 +1,4 @@
+datasets
+transformers
+pandas
+tqdm