Regolazione degli iperparametri

2025-03-29 03:40:35 +00:00 · 2023-06-02 03:16:50 +02:00 · 2023-06-02 03:16:50 +02:00 · ab27b52ebd
commit ab27b52ebd
parent 36deada894
1 changed files with 55 additions and 7 deletions
--- a/README.md
+++ b/README.md
@ -627,12 +627,6 @@ Infine, implementa la funzione `use`, che:
        return rating
 ```

-#### Problemi di RAM
-
-L'approccio utilizzato da [`nltk.sentiment.SentimentAnalyzer`] si è rivelato problematico, in quanto non in grado di scalare per dimensioni molto grandi di training set: i suoi metodi non gestiscono correttamente gli iteratori, meccanismo attraverso il quale Python può realizzare lazy-loading di dati, e richiedono invece che l'intero training set sia caricato contemporaneamente in memoria in una [`list`].
-
-Per permetterne l'esecuzione su computer con 16 GB di RAM, si è deciso di impostare la dimensione predefinita del training set a `4000` documenti; dimensioni maggiori richiederebbero una riscrittura completa dei metodi di NLTK, e ciò andrebbe fuori dallo scopo di questa attività.
-
 ### Ri-creazione del tokenizer di Christopher Potts - `.tokenizer.potts`

 Per realizzare il punto 1 della consegna, si sono creati due nuovi tokenizer, `PottsTokenizer` e `PottsTokenizerWithNegation`, che implementano il [tokenizer di Christopher Potts] rispettivamente senza marcare e marcando le negazioni sui token attraverso [`ntlk.sentiment.util.mark_negation`].
@ -1236,7 +1230,61 @@ class HuggingBertTokenizer(HuggingTokenizer):
        return tokenizers.Tokenizer.from_pretrained("bert-base-cased")
 ```

-## Sperimentazione e regolazione degli iperparametri
+## Regolazione degli iperparametri
+
+Il tester è stato eseguito alcune volte con diverse configurazioni di parametri per verificarne il corretto funzionamento e determinare empiricamente gli iperparametri migliori da utilizzare durante la run vera e propria.
+
+Si riportano i parametri regolati assieme ai valori a cui essi sono stati impostati.
+
+### `TRAINING_SET_SIZE`
+
+> Il numero di recensioni di ogni categoria da recuperare per formare il training set.
+
+L'approccio all'addestramento utilizzato da [`nltk.sentiment.SentimentAnalyzer`] si è rivelato problematico, in quanto non in grado di scalare per dimensioni molto grandi di training set: i suoi metodi non sembrano gestire correttamente gli iteratori, meccanismo attraverso il quale Python può realizzare lazy-loading di dati.
+
+Inoltre, si è notato che il problema di [esplosione del gradiente](#esplosione-del-gradiente) si verifica tanto più di frequente quanto è grande il training set.
+
+Per questi due motivi si è deciso di limitare la dimensione del training set a `4_000` documenti per categoria.
+
+### `VALIDATION_SET_SIZE`
+
+> Il numero di recensioni di ogni categoria da recuperare per formare il validation set.
+
+Si è scelto di creare un validation set della dimensione di un decimo del training set, ovvero di `400` documenti per categoria.
+
+### `EVALUATION_SET_SIZE`
+
+> Il numero di recensioni di ogni categoria da recuperare per formare il test set.
+
+Durante la sperimentazione manuale, si è notato che i risultati della valutazione del test set giungevano a convergenza dopo l'elaborazione di circa `1_000` documenti, pertanto si è impostato l'iperparametro a quel numero.
+
+### `WORKING_SET_SIZE`
+
+> Il numero di recensioni del database da considerare.
+> 
+> Si suggerisce di impostarlo a un numero basso per evitare rallentamenti nell'esecuzione delle query.
+
+Si è determinato che `5_000_000` fosse un buon numero che permettesse di avere ottima casualità nel dataset senza comportare tempi di campionamento troppo lunghi.
+
+### `TENSORFLOW_EMBEDDING_SIZE`
+
+> La dimensione del tensore degli embeddings da usare nei modelli Tensorflow.
+
+Si sono testati vari valori per questo iperparametro, e non sono state notate differenze significative nei risultati ottenuti; perciò, l'iperparametro è stato impostato a un valore di `12`, leggermente superiore a quello minimo di `8` suggerito dalla documentazione di Tensorflow.
+
+### `TENSORFLOW_MAX_FEATURES`
+
+> Il numero massimo di features da usare nei modelli Tensorflow.
+
+Come per il parametro precedente, non si sono notate particolari differenze, quindi si è scelto di rimanere sul sicuro permettendo fino a `300_000` token diversi di essere appresi.
+
+### `TENSORFLOW_EPOCHS`
+
+> Il numero di epoche per cui addestrare i modelli Tensorflow.
+
+Si è notato che qualsiasi addestramento successivo alla terza epoca risultava in un aumento nella loss dei modelli, probabilmente dovuta all'occorrenza di overfitting in essi.
+
+Per prevenire il fenomeno si è allora deciso di impostare il numero massimo di epoche a `3`.

 ## Confronto dei modelli