fixed generator bug

FabianGroeger96 · FabianGroeger96 · commit 8d3bbf5b5c97 · 2020-05-04T13:03:11.000+02:00
diff --git a/.gitignore b/.gitignore
@@ -223,3 +223,5 @@ data/DCASE18-Task5-development/*
 data/DCASE18-Task5-evaluation/*
 data/dj-set/*
 data/dj-set/MusicDataset/*
+*.mp3
+*.wav
diff --git a/src/input_pipeline/music_dataset.py b/src/input_pipeline/music_dataset.py
@@ -97,7 +97,7 @@ def fill_opposite_selection(self, audio_id):
     def get_triplets(self, audio_id, audio_length, opposite_choices, trim: bool = True) -> np.ndarray:
         try:
             triplets = []
-            for anchor_id in range(0, audio_length, self.sample_tile_size):
+            for anchor_id in range(0, audio_length - self.sample_tile_size, self.sample_tile_size):
                 a_seg = [audio_id, anchor_id]
                 n_seg = self.get_neighbour(audio_id, anchor_sample_id=anchor_id, audio_length=audio_length)
                 o_seg = self.get_opposite(audio_id, anchor_sample_id=anchor_id, audio_length=audio_length,
diff --git a/src/input_pipeline/triplet_input_pipeline.py b/src/input_pipeline/triplet_input_pipeline.py
@@ -1,9 +1,11 @@
 import logging
+import re
 from typing import Union, Tuple
 
 import librosa
 import numpy as np
 import tensorflow as tf
+import warnings
 
 from src.feature_extractor.base_extractor import BaseExtractor
 from src.input_pipeline.base_dataset import BaseDataset, DatasetType
@@ -24,6 +26,8 @@ def __init__(self,
         :param params: parameters of the current experiment.
         :param log: if the pipeline should log details about the data.
         """
+        # ignore warnings, such as the librosa warnings
+        warnings.filterwarnings('ignore')
 
         self.dataset_path = Utils.check_if_path_exists(params.dcase_dataset_path)
         self.dataset_name = params.dataset
@@ -32,7 +36,6 @@ def __init__(self,
 
         self.num_parallel_calls = params.num_parallel_calls
         self.gen_count = params.gen_count
-        self.gen_index = 0
 
         self.sample_rate = params.sample_rate
         self.sample_size = params.sample_size
@@ -66,25 +69,25 @@ def __init__(self,
 
     def reinitialise(self):
         self.logger.info("Reinitialising the input pipeline")
-        self.gen_index = 0
         self.dataset.initialise()
 
     def generate_samples(self, gen_name: str, trim: bool, return_labels: bool) -> Tuple[np.ndarray, np.ndarray,
                                                                                         np.ndarray, np.ndarray]:
 
         gen_name = gen_name.decode("utf-8")
+        gen_index = int(re.findall('[0-9]+', gen_name)[0])
 
-        self.dataset.current_index = self.gen_index
-        for index, anchor in enumerate(self.dataset):
-            self.dataset.current_index = self.gen_index
-            if self.log and False:
-                self.logger.debug("{0}, index:{1}".format(gen_name, self.gen_index))
+        self.dataset.current_index = gen_index
+        for anchor in self.dataset:
+            current_index = self.dataset.current_index - 1
+            if self.log:
+                self.logger.debug("{0}, {1}, index:{2}".format(gen_name, gen_index, current_index))
 
             # fill the opposite sample buffer
-            opposite_audios = self.dataset.fill_opposite_selection(index)
+            opposite_audios = self.dataset.fill_opposite_selection(current_index)
 
             # load audio files from anchor
-            anchor = self.dataset.df_train.iloc[index]
+            anchor = self.dataset.df.iloc[current_index]
             if self.dataset_name == "MusicDataset":
                 anchor_audio, _ = librosa.load(anchor.file_name, self.sample_rate)
                 anchor_audio, _ = librosa.effects.trim(anchor_audio)
@@ -96,7 +99,7 @@ def generate_samples(self, gen_name: str, trim: bool, return_labels: bool) -> Tu
             anchor_audio_length = int(len(anchor_audio) / self.sample_rate)
 
             try:
-                triplets = self.dataset.get_triplets(index, anchor_audio_length, trim=trim,
+                triplets = self.dataset.get_triplets(current_index, anchor_audio_length, trim=trim,
                                                      opposite_choices=opposite_audios)
             except ValueError as err:
                 self.logger.debug("Error during triplet creation: {}".format(err))
@@ -122,17 +125,15 @@ def generate_samples(self, gen_name: str, trim: bool, return_labels: bool) -> Tu
                     labels = [-1, -1, -1]
                 labels = np.asarray(labels)
 
-                if self.gen_index % 1000 == 0 and self.gen_index is not 0 and self.log:
+                if current_index % 1000 == 0 and current_index is not 0 and self.log:
                     self.logger.debug("{0} yields sound segments {1}, a: {2}, n: {3}, o: {4}".format(gen_name,
-                                                                                                     self.dataset.current_index,
+                                                                                                     current_index,
                                                                                                      anchor_seg,
                                                                                                      neighbour_seg,
                                                                                                      opposite_seg))
 
                 yield anchor_audio_seg, neighbour_audio_seg, opposite_audio_seg, labels
 
-            self.gen_index += 1
-
     def get_dataset(self, feature_extractor: Union[BaseExtractor, None], dataset_type: DatasetType = DatasetType.TRAIN,
                     shuffle: bool = True, trim: bool = True, return_labels: bool = False):
 
diff --git a/src/train_classifier.py b/src/train_classifier.py
@@ -160,7 +160,7 @@ def evaluate():
                                                                                                   model_name=experiment_name)
 
     # set logger
-    Utils.set_logger(log_path, params.log_level)
+    Utils.set_logger(__name__, log_path, params.log_level)
     logger = logging.getLogger("Main ({})".format(params.experiment_name))
 
     # set the folder for the summary writer
diff --git a/src/train_triplet_loss.py b/src/train_triplet_loss.py
@@ -95,7 +95,7 @@ def main():
                                                                                                   saved_model_path=params.saved_model_path)
 
     # set logger
-    Utils.set_logger(log_path, params.log_level)
+    Utils.set_logger(__name__, log_path, params.log_level)
     logger = logging.getLogger("Main ({})".format(params.experiment_name))
 
     # print params
diff --git a/src/utils/utils.py b/src/utils/utils.py
@@ -47,17 +47,18 @@ def check_if_path_exists(path: Union[str, pathlib.Path]):
         return path
 
     @staticmethod
-    def set_logger(log_path, log_level: str = "INFO"):
+    def set_logger(logger_name, log_path, log_level: str = "INFO"):
         """
         Sets the logger to log info in terminal and file `log_path`.
 
         In general, it is useful to have a logger so that every output to the terminal is saved
         in a permanent file. Here we save it to `log_path/experiment.log`.
 
+        :param logger_name: (string) name of the default logger
         :param log_path: (string) where to log
         :param log_level: sets the log level
         """
-        logger = logging.getLogger()
+        logger = logging.getLogger(logger_name)
         logger.setLevel(log_level)
 
         if not logger.handlers: