uvx reformat

soulios-basf · soulios-basf · commit 06692abe43d6 · 2025-08-23T02:18:58.000+02:00
diff --git a/notebooks/advanced_04_conformal_prediction.ipynb b/notebooks/advanced_04_conformal_prediction.ipynb
@@ -128,13 +128,17 @@
     "# Load BBBP dataset for classification\n",
     "print(\"Loading BBBP dataset for classification...\")\n",
     "bbbp_df = pd.read_csv(\n",
-    "    test_data_dir / \"molecule_net_bbbp.tsv.gz\", sep=\"\\t\", compression=\"gzip\",\n",
+    "    test_data_dir / \"molecule_net_bbbp.tsv.gz\",\n",
+    "    sep=\"\\t\",\n",
+    "    compression=\"gzip\",\n",
     ")\n",
     "\n",
     "# Load LogD dataset for regression\n",
     "print(\"Loading LogD dataset for regression...\")\n",
     "logd_df = pd.read_csv(\n",
-    "    test_data_dir / \"molecule_net_logd.tsv.gz\", sep=\"\\t\", compression=\"gzip\",\n",
+    "    test_data_dir / \"molecule_net_logd.tsv.gz\",\n",
+    "    sep=\"\\t\",\n",
+    "    compression=\"gzip\",\n",
     ")\n",
     "\n",
     "print(f\"BBBP dataset shape: {bbbp_df.shape}\")\n",
@@ -340,7 +344,8 @@
     "                y_true_class_singleton = y_true[class_singleton_mask]\n",
     "                y_pred_class_singleton = singleton_predictions[class_singleton_mask]\n",
     "                singleton_accuracies[cls] = accuracy_score(\n",
-    "                    y_true_class_singleton, y_pred_class_singleton,\n",
+    "                    y_true_class_singleton,\n",
+    "                    y_pred_class_singleton,\n",
     "                )\n",
     "            else:\n",
     "                singleton_accuracies[cls] = (\n",
@@ -415,7 +420,11 @@
     "    stratify_y = y if len(np.unique(y)) < limit else None\n",
     "\n",
     "    x_train_all, x_test, y_train_all, y_test = train_test_split(\n",
-    "        x, y, test_size=test_size, random_state=random_state, stratify=stratify_y,\n",
+    "        x,\n",
+    "        y,\n",
+    "        test_size=test_size,\n",
+    "        random_state=random_state,\n",
+    "        stratify=stratify_y,\n",
     "    )\n",
     "\n",
     "    # Use stratification for the second split only if appropriate\n",
@@ -498,7 +507,9 @@
     "# Create split conformal predictor\n",
     "confidence_level = 0.9\n",
     "split_cp_clf = ConformalPredictor(\n",
-    "    base_clf, estimator_type=\"classifier\", confidence_level=confidence_level,\n",
+    "    base_clf,\n",
+    "    estimator_type=\"classifier\",\n",
+    "    confidence_level=confidence_level,\n",
     ")\n",
     "\n",
     "# Fit and calibrate\n",
@@ -509,12 +520,14 @@
     "# Make predictions\n",
     "y_pred_proba_split = split_cp_clf.predict_proba(x_test_clf)\n",
     "prediction_sets_split = split_cp_clf.predict_conformal_set(\n",
-    "    x_test_clf, confidence=confidence_level,\n",
+    "    x_test_clf,\n",
+    "    confidence=confidence_level,\n",
     ")\n",
     "\n",
     "# Evaluate\n",
     "results_split_clf = evaluate_classification_conformal(\n",
-    "    y_test_clf, prediction_sets_split,\n",
+    "    y_test_clf,\n",
+    "    prediction_sets_split,\n",
     ")\n",
     "\n",
     "print(f\"\\nSplit Conformal Prediction Results (confidence={confidence_level}):\")\n",
@@ -584,12 +597,14 @@
     "# Make predictions\n",
     "y_pred_proba_mondrian = mondrian_cp_clf.predict_proba(x_test_clf)\n",
     "prediction_sets_mondrian = mondrian_cp_clf.predict_conformal_set(\n",
-    "    x_test_clf, confidence=confidence_level,\n",
+    "    x_test_clf,\n",
+    "    confidence=confidence_level,\n",
     ")\n",
     "\n",
     "# Evaluate\n",
     "results_mondrian_clf = evaluate_classification_conformal(\n",
-    "    y_test_clf, prediction_sets_mondrian,\n",
+    "    y_test_clf,\n",
+    "    prediction_sets_mondrian,\n",
     ")\n",
     "\n",
     "print(f\"\\nMondrian Conformal Prediction Results (confidence={confidence_level}):\")\n",
@@ -663,12 +678,14 @@
     "# Make predictions\n",
     "y_pred_proba_cross = cross_cp_clf.predict_proba(x_test_clf)\n",
     "prediction_sets_cross = cross_cp_clf.predict_conformal_set(\n",
-    "    x_test_clf, confidence=confidence_level,\n",
+    "    x_test_clf,\n",
+    "    confidence=confidence_level,\n",
     ")\n",
     "\n",
     "# Evaluate\n",
     "results_cross_clf = evaluate_classification_conformal(\n",
-    "    y_test_clf, prediction_sets_cross,\n",
+    "    y_test_clf,\n",
+    "    prediction_sets_cross,\n",
     ")\n",
     "\n",
     "print(f\"\\nCross Conformal Prediction Results (confidence={confidence_level}):\")\n",
@@ -796,7 +813,10 @@
     "\n",
     "# Average set size comparison\n",
     "bars2 = axes[0, 1].bar(\n",
-    "    comparison_clf[\"Method\"], comparison_clf[\"Avg Set Size\"], alpha=0.7, color=\"orange\",\n",
+    "    comparison_clf[\"Method\"],\n",
+    "    comparison_clf[\"Avg Set Size\"],\n",
+    "    alpha=0.7,\n",
+    "    color=\"orange\",\n",
     ")\n",
     "axes[0, 1].set_title(\"Average Prediction Set Size\")\n",
     "axes[0, 1].set_ylabel(\"Set Size\")\n",
@@ -874,7 +894,7 @@
     "            fontsize=9,\n",
     "        )\n",
     "# Add values on top of bars for Class 1\n",
-    "for bar in (bars5):\n",
+    "for bar in bars5:\n",
     "    height = bar.get_height()\n",
     "    if not np.isnan(height):\n",
     "        axes[1, 1].text(\n",
@@ -996,12 +1016,14 @@
     "for conf_level in confidence_levels:\n",
     "    # Use the already trained cross conformal predictor\n",
     "    prediction_sets_conf = cross_cp_clf.predict_conformal_set(\n",
-    "        x_test_clf, confidence=conf_level,\n",
+    "        x_test_clf,\n",
+    "        confidence=conf_level,\n",
     "    )\n",
     "\n",
     "    # Evaluate\n",
     "    results_conf = evaluate_classification_conformal(\n",
-    "        y_test_clf, prediction_sets_conf,\n",
+    "        y_test_clf,\n",
+    "        prediction_sets_conf,\n",
     "    )\n",
     "\n",
     "    clf_confidence_results.append(\n",
@@ -1191,7 +1213,9 @@
     "\n",
     "# Create split conformal predictor for regression\n",
     "split_cp_reg = ConformalPredictor(\n",
-    "    base_reg, estimator_type=\"regressor\", confidence_level=confidence_level,\n",
+    "    base_reg,\n",
+    "    estimator_type=\"regressor\",\n",
+    "    confidence_level=confidence_level,\n",
     ")\n",
     "\n",
     "# Fit and calibrate\n",
@@ -1205,7 +1229,9 @@
     "\n",
     "# Evaluate\n",
     "results_split_reg = evaluate_regression_conformal(\n",
-    "    y_test_reg, y_pred_split_reg, intervals_split,\n",
+    "    y_test_reg,\n",
+    "    y_pred_split_reg,\n",
+    "    intervals_split,\n",
     ")\n",
     "\n",
     "print(f\"\\nSplit Conformal Prediction Results (confidence={confidence_level}):\")\n",
@@ -1268,7 +1294,9 @@
     "\n",
     "# Evaluate\n",
     "results_cross_reg = evaluate_regression_conformal(\n",
-    "    y_test_reg, y_pred_cross_reg, intervals_cross,\n",
+    "    y_test_reg,\n",
+    "    y_pred_cross_reg,\n",
+    "    intervals_cross,\n",
     ")\n",
     "\n",
     "print(f\"\\nCross Conformal Prediction Results (confidence={confidence_level}):\")\n",
@@ -1394,7 +1422,10 @@
     "\n",
     "# MAE comparison\n",
     "bars3 = axes[1, 0].bar(\n",
-    "    comparison_reg[\"Method\"], comparison_reg[\"MAE\"], alpha=0.7, color=\"green\",\n",
+    "    comparison_reg[\"Method\"],\n",
+    "    comparison_reg[\"MAE\"],\n",
+    "    alpha=0.7,\n",
+    "    color=\"green\",\n",
     ")\n",
     "axes[1, 0].set_title(\"Mean Absolute Error\")\n",
     "axes[1, 0].set_ylabel(\"MAE\")\n",
@@ -1412,7 +1443,10 @@
     "\n",
     "# RMSE comparison\n",
     "bars4 = axes[1, 1].bar(\n",
-    "    comparison_reg[\"Method\"], comparison_reg[\"RMSE\"], alpha=0.7, color=\"red\",\n",
+    "    comparison_reg[\"Method\"],\n",
+    "    comparison_reg[\"RMSE\"],\n",
+    "    alpha=0.7,\n",
+    "    color=\"red\",\n",
     ")\n",
     "axes[1, 1].set_title(\"Root Mean Squared Error\")\n",
     "axes[1, 1].set_ylabel(\"RMSE\")\n",
@@ -1434,7 +1468,10 @@
     "# R² comparison in a separate smaller plot\n",
     "fig, ax = plt.subplots(1, 1, figsize=(8, 6))\n",
     "bars5 = ax.bar(\n",
-    "    comparison_reg[\"Method\"], comparison_reg[\"R²\"], alpha=0.7, color=\"purple\",\n",
+    "    comparison_reg[\"Method\"],\n",
+    "    comparison_reg[\"R²\"],\n",
+    "    alpha=0.7,\n",
+    "    color=\"purple\",\n",
     ")\n",
     "ax.set_title(\"R² Score\")\n",
     "ax.set_ylabel(\"R²\")\n",
@@ -1520,10 +1557,18 @@
     "    label=f\"Prediction Intervals ({confidence_level:.0%})\",\n",
     ")\n",
     "axes[0].scatter(\n",
-    "    range(n_plot), y_test_sorted[:n_plot], alpha=0.7, label=\"True Values\", s=30,\n",
+    "    range(n_plot),\n",
+    "    y_test_sorted[:n_plot],\n",
+    "    alpha=0.7,\n",
+    "    label=\"True Values\",\n",
+    "    s=30,\n",
     ")\n",
     "axes[0].scatter(\n",
-    "    range(n_plot), y_pred_split_sorted[:n_plot], alpha=0.7, label=\"Predictions\", s=30,\n",
+    "    range(n_plot),\n",
+    "    y_pred_split_sorted[:n_plot],\n",
+    "    alpha=0.7,\n",
+    "    label=\"Predictions\",\n",
+    "    s=30,\n",
     ")\n",
     "axes[0].set_title(\"Split Conformal Prediction Intervals\")\n",
     "axes[0].set_xlabel(\"Sample Index\")\n",
@@ -1539,10 +1584,18 @@
     "    label=f\"Prediction Intervals ({confidence_level:.0%})\",\n",
     ")\n",
     "axes[1].scatter(\n",
-    "    range(n_plot), y_test_sorted[:n_plot], alpha=0.7, label=\"True Values\", s=30,\n",
+    "    range(n_plot),\n",
+    "    y_test_sorted[:n_plot],\n",
+    "    alpha=0.7,\n",
+    "    label=\"True Values\",\n",
+    "    s=30,\n",
     ")\n",
     "axes[1].scatter(\n",
-    "    range(n_plot), y_pred_cross_sorted[:n_plot], alpha=0.7, label=\"Predictions\", s=30,\n",
+    "    range(n_plot),\n",
+    "    y_pred_cross_sorted[:n_plot],\n",
+    "    alpha=0.7,\n",
+    "    label=\"Predictions\",\n",
+    "    s=30,\n",
     ")\n",
     "axes[1].set_title(\"Cross Conformal Prediction Intervals\")\n",
     "axes[1].set_xlabel(\"Sample Index\")\n",
@@ -1648,7 +1701,9 @@
     "\n",
     "    # Evaluate\n",
     "    results_conf = evaluate_regression_conformal(\n",
-    "        y_test_reg, y_pred_cross_reg, intervals_conf,\n",
+    "        y_test_reg,\n",
+    "        y_pred_cross_reg,\n",
+    "        intervals_conf,\n",
     "    )\n",
     "\n",
     "    reg_confidence_results.append(\n",