removed deep learner n_clusters and assert labels_ exists

chrisholder · chrisholder · commit a591c31c1114 · 2024-11-15T16:52:50.000+01:00
diff --git a/aeon/clustering/deep_learning/_ae_abgru.py b/aeon/clustering/deep_learning/_ae_abgru.py
@@ -20,8 +20,6 @@ class AEAttentionBiGRUClusterer(BaseDeepClusterer):
 
     Parameters
     ----------
-    n_clusters : int, default=None
-        Number of clusters for the deep learnign model.
     clustering_algorithm : str, default="deprecated"
         Use 'estimator' parameter instead.
     clustering_params : dict, default=None
@@ -100,7 +98,6 @@ class AEAttentionBiGRUClusterer(BaseDeepClusterer):
 
     def __init__(
         self,
-        n_clusters=None,
         estimator=None,
         clustering_algorithm="deprecated",
         clustering_params=None,
@@ -143,7 +140,6 @@ def __init__(
         self.random_state = random_state
 
         super().__init__(
-            n_clusters=n_clusters,
             clustering_algorithm=clustering_algorithm,
             clustering_params=clustering_params,
             estimator=estimator,
diff --git a/aeon/clustering/deep_learning/_ae_bgru.py b/aeon/clustering/deep_learning/_ae_bgru.py
@@ -20,8 +20,6 @@ class AEBiGRUClusterer(BaseDeepClusterer):
 
     Parameters
     ----------
-    n_clusters : int, default=None
-        Number of clusters for the deep learnign model.
     clustering_algorithm : str, default="deprecated"
         Use 'estimator' parameter instead.
     clustering_params : dict, default=None
@@ -99,7 +97,6 @@ class AEBiGRUClusterer(BaseDeepClusterer):
 
     def __init__(
         self,
-        n_clusters=None,
         clustering_algorithm="deprecated",
         estimator=None,
         clustering_params=None,
@@ -140,7 +137,6 @@ def __init__(
         self.save_last_model = save_last_model
         self.best_file_name = best_file_name
         self.random_state = random_state
-        self.n_clusters = n_clusters
 
         super().__init__(
             clustering_algorithm=clustering_algorithm,
diff --git a/aeon/clustering/deep_learning/_ae_dcnn.py b/aeon/clustering/deep_learning/_ae_dcnn.py
@@ -19,8 +19,6 @@ class AEDCNNClusterer(BaseDeepClusterer):
 
     Parameters
     ----------
-    n_clusters : int, default=None
-        Number of clusters for the deep learnign model.
     clustering_algorithm : str, default="deprecated"
         Use 'estimator' parameter instead.
     clustering_params : dict, default=None
@@ -113,7 +111,6 @@ class AEDCNNClusterer(BaseDeepClusterer):
 
     def __init__(
         self,
-        n_clusters=None,
         estimator=None,
         clustering_algorithm="deprecated",
         clustering_params=None,
@@ -164,7 +161,6 @@ def __init__(
         self.random_state = random_state
 
         super().__init__(
-            n_clusters=n_clusters,
             clustering_params=clustering_params,
             clustering_algorithm=clustering_algorithm,
             estimator=estimator,
diff --git a/aeon/clustering/deep_learning/_ae_drnn.py b/aeon/clustering/deep_learning/_ae_drnn.py
@@ -24,8 +24,6 @@ class AEDRNNClusterer(BaseDeepClusterer):
 
     Parameters
     ----------
-    n_clusters : int, default=None
-        Number of clusters for the deep learnign model.
     clustering_algorithm : str, default="deprecated"
         Please use the 'estimator' parameter.
     estimator : aeon clusterer, default=None
@@ -114,7 +112,6 @@ class AEDRNNClusterer(BaseDeepClusterer):
 
     def __init__(
         self,
-        n_clusters=None,
         estimator=None,
         clustering_algorithm="deprecated",
         clustering_params=None,
@@ -167,7 +164,6 @@ def __init__(
         self.random_state = random_state
 
         super().__init__(
-            n_clusters=n_clusters,
             estimator=estimator,
             clustering_algorithm=clustering_algorithm,
             clustering_params=clustering_params,
diff --git a/aeon/clustering/deep_learning/_ae_fcn.py b/aeon/clustering/deep_learning/_ae_fcn.py
@@ -21,8 +21,6 @@ class AEFCNClusterer(BaseDeepClusterer):
 
     Parameters
     ----------
-    n_clusters : int, default=None
-        Please use 'estimator' parameter.
     estimator : aeon clusterer, default=None
         An aeon estimator to be built using the transformed data.
         Defaults to aeon TimeSeriesKMeans() with euclidean distance
@@ -122,7 +120,6 @@ class AEFCNClusterer(BaseDeepClusterer):
 
     def __init__(
         self,
-        n_clusters=None,
         estimator=None,
         clustering_algorithm="deprecated",
         clustering_params=None,
@@ -173,7 +170,6 @@ def __init__(
         self.save_last_model = save_last_model
         self.best_file_name = best_file_name
         self.random_state = random_state
-        self.n_clusters = n_clusters
 
         super().__init__(
             estimator=estimator,
diff --git a/aeon/clustering/deep_learning/_ae_resnet.py b/aeon/clustering/deep_learning/_ae_resnet.py
@@ -24,8 +24,6 @@ class AEResNetClusterer(BaseDeepClusterer):
 
     Parameters
     ----------
-    n_clusters : int, default=None
-        Please use 'estimator' parameter.
     estimator : aeon clusterer, default=None
         An aeon estimator to be built using the transformed data.
         Defaults to aeon TimeSeriesKMeans() with euclidean distance
@@ -131,7 +129,6 @@ class method save_last_model_to_file.
 
     def __init__(
         self,
-        n_clusters=None,
         estimator=None,
         n_residual_blocks=3,
         clustering_algorithm="deprecated",
@@ -182,7 +179,6 @@ def __init__(
         self.best_file_name = best_file_name
         self.last_file_name = last_file_name
         self.optimizer = optimizer
-        self.n_clusters = n_clusters
 
         self.history = None
 
diff --git a/aeon/testing/estimator_checking/_yield_clustering_checks.py b/aeon/testing/estimator_checking/_yield_clustering_checks.py
@@ -7,6 +7,7 @@
 from aeon.base._base import _clone_estimator
 from aeon.clustering.deep_learning import BaseDeepClusterer
 from aeon.testing.testing_data import FULL_TEST_DATA_DICT
+from aeon.utils.validation import get_n_cases
 
 
 def _yield_clustering_checks(estimator_class, estimator_instances, datatypes):
@@ -26,6 +27,10 @@ def _yield_clustering_checks(estimator_class, estimator_instances, datatypes):
                 estimator=estimator,
                 datatype=datatypes[i][0],
             )
+        for datatype in datatypes[i]:
+            yield partial(
+                check_clusterer_output, estimator=estimator, datatype=datatype
+            )
 
 
 def check_clusterer_tags_consistent(estimator_class):
@@ -82,3 +87,39 @@ def check_clustering_random_state_deep_learning(estimator, datatype):
             _weight2 = np.asarray(weights2[j])
 
             np.testing.assert_almost_equal(_weight1, _weight2, 4)
+
+
+def check_clusterer_output(estimator, datatype):
+    """Test clusterer outputs the correct data types and values.
+
+    Test predict produces a np.array or pd.Series with only values seen in the train
+    data, and that predict_proba probability estimates add up to one.
+    """
+    estimator = _clone_estimator(estimator)
+
+    unique_labels = np.unique(FULL_TEST_DATA_DICT[datatype]["train"][1])
+
+    # run fit and predict
+    estimator.fit(
+        FULL_TEST_DATA_DICT[datatype]["train"][0],
+        FULL_TEST_DATA_DICT[datatype]["train"][1],
+    )
+    assert hasattr(estimator, "labels_")
+    assert isinstance(estimator.labels_, np.ndarray)
+
+    y_pred = estimator.predict(FULL_TEST_DATA_DICT[datatype]["test"][0])
+
+    # check predict
+    assert isinstance(y_pred, np.ndarray)
+    assert y_pred.shape == (get_n_cases(FULL_TEST_DATA_DICT[datatype]["test"][0]),)
+    assert np.all(np.isin(np.unique(y_pred), unique_labels))
+
+    # check predict proba (all classifiers have predict_proba by default)
+    y_proba = estimator.predict_proba(FULL_TEST_DATA_DICT[datatype]["test"][0])
+
+    assert isinstance(y_proba, np.ndarray)
+    assert y_proba.shape == (
+        get_n_cases(FULL_TEST_DATA_DICT[datatype]["test"][0]),
+        len(unique_labels),
+    )
+    np.testing.assert_almost_equal(y_proba.sum(axis=1), 1, decimal=4)