Lab3: 2.2 Περι Αρχιτεκτονικής του δικτύου #19

DominusTea · 2020-01-12T15:57:46Z

Στο τελευταίο layer δεν θα πρέπει να έχουμε κάποιο softmax layer? Σε εμάς χωρίς αυτό το Loss δεν τείνει στο 0. Επίσης συνολικά η αρχιτεκτονική του δικτύου θα πρέπει να είναι κάτι της μορφής:
input->embedding layer -> Sentence representation as average of word embeddings -> (linear layer_1) -> non linear layer eg ReLU -> linear layer_2 (project to output_size dimensions) ;

georgepar · 2020-01-13T12:36:23Z

Ποιο loss χρησιμοποιείτε; Πολλά loss functions υπολογίζουν το softmax εσωτερικά για λόγους αριθμητικής σταθερότητας. Δείτε τι περιμένει το loss function στο documentation.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Lab3: 2.2 Περι Αρχιτεκτονικής του δικτύου #19

Lab3: 2.2 Περι Αρχιτεκτονικής του δικτύου #19

DominusTea commented Jan 12, 2020

georgepar commented Jan 13, 2020

Lab3: 2.2 Περι Αρχιτεκτονικής του δικτύου #19

Lab3: 2.2 Περι Αρχιτεκτονικής του δικτύου #19

Comments

DominusTea commented Jan 12, 2020

georgepar commented Jan 13, 2020