more things

2024-11-22 07:54:19 +00:00 · 2023-02-11 05:57:14 +01:00 · 2023-02-11 05:57:14 +01:00 · ae2cf563e6
commit ae2cf563e6
parent 7778c648c1
7 changed files with 91 additions and 38 deletions
--- a/.idea/runConfigurations/unimore_bda_6.xml
+++ b/.idea/runConfigurations/unimore_bda_6.xml
@ -5,14 +5,16 @@
    <option name="PARENT_ENVS" value="true" />
    <envs>
      <env name="CONFIRM_OVERWRITE" value="False" />
      <env name="EVALUATION_SET_SIZE" value="100" />
      <env name="NLTK_DATA" value="./data/nltk" />
      <env name="PYTHONUNBUFFERED" value="1" />
      <env name="TENSORFLOW_EMBEDDING_SIZE" value="64" />
      <env name="TENSORFLOW_MAX_FEATURES" value="1000000" />
      <env name="TF_CPP_MIN_LOG_LEVEL" value="2" />
      <env name="TRAINING_SET_SIZE" value="2000" />
      <env name="VALIDATION_SET_SIZE" value="25" />
      <env name="WORKING_SET_SIZE" value="100000" />
      <env name="XLA_FLAGS" value="--xla_gpu_cuda_data_dir=/opt/cuda" />
      <env name="TRAINING_SET_SIZE" value="100" />
      <env name="VALIDATION_SET_SIZE" value="25" />
      <env name="EVALUATION_SET_SIZE" value="100" />
    </envs>
    <option name="SDK_HOME" value="$PROJECT_DIR$/.venv/bin/python" />
    <option name="SDK_NAME" value="Poetry (unimore-bda-6)" />
--- a/README.md
+++ b/README.md
@ -26,13 +26,23 @@
 > (https://jupyter.org/) invece di codice .py e relativi commenti separati su PDF (per comodità di consultazione,
 > consegnare comunque anche una stampa PDF del notebook oltre al notebook stesso).
 ## Sinossi
 In questo progetto si è realizzato una struttura che permettesse di mettere a confronto diversi modi per effettuare sentiment analysis, e poi si sono realizzati su di essa alcuni modelli di sentiment analysis con caratteristiche diverse per confrontarli.
 ## Premessa
-### Codice
+### Packaging
 Il codice dell'attività è incluso come package Python 3.10 compatibile con PEP518.
-Per installare il package, è sufficiente eseguire i seguenti comandi dall'interno della directory del progetto:
+> **Warning:**
 >
 > Il progetto non supporta Python 3.11 per via del mancato supporto di Tensorflow a quest'ultimo.
 #### Installazione del package
 Per installare il package, è necessario eseguire i seguenti comandi dall'interno della directory del progetto:
 ```console
 $ python3.10 -m venv .venv
@ -40,11 +50,7 @@ $ source venv/bin/activate
 $ pip install .
 ```
-> **Note:**
+##### NLTK
 >
 > Per via di requisiti particolari di Tensorflow, Python 3.11 non è supportato.
 #### NLTK
 NLTK richiede dipendenze aggiuntive per funzionare, che possono essere scaricate eseguendo il seguente comando su console:
@ -52,11 +58,38 @@ NLTK richiede dipendenze aggiuntive per funzionare, che possono essere scaricate
 $ ./scripts/download-nltk.sh
 ```
-### Dataset
+##### Tensorflow
-Il codice dell'attività richiede la connessione a un server MongoDB 6 contenente il dataset di recensioni Amazon fornito a lezione.
+L'accelerazione hardware di Tensorflow richiede che una scheda grafica NVIDIA con supporto a CUDA sia disponibile sul dispositivo, e che gli strumenti di sviluppo di CUDA siano installati sul sistema operativo.
-Si forniscono alcuni script nella cartella `./data/scripts` per facilitare la configurazione e l'esecuzione di quest'ultimo.
+Per indicare a Tensorflow il percorso degli strumenti di sviluppo di CUDA, è necessario impostare la seguente variabile d'ambiente, sostituendo a `/opt/cuda` il percorso in cui gli strumenti sono installati sul dispositivo:
 ```console
 $ export XLA_FLAGS=--xla_gpu_cuda_data_dir\=/opt/cuda
 ```
 Per più informazioni, si suggerisce di consultare la pagina [Install Tensorflow 2](https://www.tensorflow.org/install) della documentazione di Tensorflow.
 #### Esecuzione del programma
 Per eseguire il programma principale, è possibile eseguire i seguenti comandi dall'interno della directory del progetto:
 ```console
 $ source venv/bin/activate
 $ python3.10 -m unimore_bda_6
 ```
 ### Dati
 Il codice dell'attività richiede la connessione a un server MongoDB 6 contenente la collezione di recensioni Amazon fornita a lezione.
 > **Warning:**
 >
 > La collezione non è inclusa con il repository, in quanto occupa 21 GB!
 Si forniscono alcuni script nella cartella `./data/scripts` per facilitare la configurazione e l'esecuzione di quest'ultima.
 #### Esecuzione del database
 Per eseguire il database MongoDB come processo utente, salvando i dati nella cartella `./data/db`:
@ -64,30 +97,46 @@ Per eseguire il database MongoDB come processo utente, salvando i dati nella car
 $ ./data/scripts/run-db.sh
 ```
 #### Importazione dei dati da JSON
 Per importare il dataset `./data/raw/reviewsexport.json` fornito a lezione nel database MongoDB:
 ```console
 $ ./data/scripts/import-db.sh
 ```
-Per creare indici MongoDB utili al funzionamento efficiente del codice:
+#### Creazione indici
 Per creare indici MongoDB potenzialmente utili al funzionamento efficiente del codice:
 ```console
 $ mongosh < ./data/scripts/index-db.js
 ```
-## Introduzione
+## Struttura per il confronto
 ### Configurazione ambiente e iperparametri - `.config`
 ### Recupero dati dal database - `.database`
 ### Tokenizzatore astratto - `.tokenizer.base`
 ### Analizzatore astratto - `.analysis.base`
 ### Logging - `.log`
 ### Tester - `.__main__`
-<!-- TODO -->
+## Ri-implementazione dell'esercizio con NLTK - `.analysis.nltk_sentiment`
 ### Wrapping del tokenizzatore di NLTK - `.tokenizer.nltk_word_tokenize`
 ### Ri-creazione del tokenizer di Christopher Potts - `.tokenizer.potts`
 ### Problemi di memoria
-## `.analysis.base`: Costruzione dell'impalcatura necessaria al confronto
+## Ottimizzazione di memoria
 ### Caching - `.database.cache` e `.gathering`
-<!-- TODO -->
+## Implementazione di modelli con Tensorflow - `.analysis.tf_text`
 ### Creazione di tokenizzatori compatibili con Tensorflow - `.tokenizer.plain` e `.tokenizer.lower`
 ### Creazione di un modello di regressione - `.analysis.tf_text.TensorflowPolarSentimentAnalyzer`
 ### Creazione di un modello di categorizzazione - `.analysis.tf_text.TensorflowCategorySentimentAnalyzer`
 #### Esplosione del gradiente
-## `.analysis.nltk_sentiment`: Ricostruzione e ottimizzazione del modello basato su `nltk.sentiment` realizzato a lezione
+## Implementazione di tokenizzatori di HuggingFace - `.tokenizer.hugging`
-Per avere un modello baseline con cui effettuare un confronto, si è ricostruito un modello basato su `nltk.sentiment` ispirato a quello realizzato a lezione.
+## Confronto dei modelli
-<!-- TODO -->
+## Conclusione
 ## TODO
--- a/unimore_bda_6/main.py
+++ b/unimore_bda_6/main.py
@ -38,9 +38,9 @@ def main():
            slog.debug("Selected sample_func: %s", sample_func.__name__)
            for SentimentAnalyzer in [
                NLTKSentimentAnalyzer,
                TensorflowPolarSentimentAnalyzer,
                TensorflowCategorySentimentAnalyzer,
                # NLTKSentimentAnalyzer,
            ]:
                slog = logging.getLogger(f"{__name__}.{sample_func.__name__}.{SentimentAnalyzer.__name__}")
--- a/unimore_bda_6/analysis/base.py
+++ b/unimore_bda_6/analysis/base.py
@ -49,9 +49,10 @@ class BaseSentimentAnalyzer(metaclass=abc.ABCMeta):
        for review in evaluation_dataset_func():
            resulting_category = self.use(review.text)
            log.debug("Evaluation step: expected %d, received %d, review was %s", review.category, resulting_category, review.text[:80])
            evaluated += 1
            try:
-                correct += 1 if round(resulting_category) == round(review.category) else 0
+                correct += 1 if resulting_category == review.category else 0
                score += 1 - (abs(resulting_category - review.category) / 4)
            except ValueError:
                log.warning("Model execution on %s resulted in a NaN value: %s", review, resulting_category)
--- a/unimore_bda_6/analysis/tf_text.py
+++ b/unimore_bda_6/analysis/tf_text.py
@ -199,7 +199,7 @@ class TensorflowCategorySentimentAnalyzer(TensorflowSentimentAnalyzer):
        log.debug("Compiling model: %s", model)
        model.compile(
-            optimizer=tensorflow.keras.optimizers.Adam(global_clipnorm=1.0),
+            optimizer=tensorflow.keras.optimizers.Adam(clipnorm=1.0),
            loss=tensorflow.keras.losses.CategoricalCrossentropy(),
            metrics=[
                tensorflow.keras.metrics.CategoricalAccuracy(),
@ -217,7 +217,7 @@ class TensorflowCategorySentimentAnalyzer(TensorflowSentimentAnalyzer):
                max_i = i
                max_p = p
        result = float(max_i) + 1.0
-        return result
+        return float(round(result))
 class TensorflowPolarSentimentAnalyzer(TensorflowSentimentAnalyzer):
@ -245,25 +245,23 @@ class TensorflowPolarSentimentAnalyzer(TensorflowSentimentAnalyzer):
            tensorflow.keras.layers.Dropout(0.25),
            tensorflow.keras.layers.GlobalAveragePooling1D(),
            tensorflow.keras.layers.Dropout(0.25),
-            tensorflow.keras.layers.Dense(8),
+            tensorflow.keras.layers.Dense(1, activation="sigmoid"),
            tensorflow.keras.layers.Dropout(0.25),
            tensorflow.keras.layers.Dense(1, activation="relu"),
        ])
        log.debug("Compiling model: %s", model)
        model.compile(
-            optimizer=tensorflow.keras.optimizers.Adam(clipnorm=2.0),
+            optimizer=tensorflow.keras.optimizers.Adam(clipnorm=1.0),
            loss=tensorflow.keras.losses.MeanAbsoluteError(),
            metrics=[
                # tensorflow.keras.metrics.MeanAbsoluteError(),
            ]
        )
        log.debug("Compiled model: %s", model)
        return model
    def _translate_prediction(self, a: numpy.array) -> Category:
-        return 1 + (a[0, 0] + 0.5) * 4
+        a: float = a[0, 0]
        a = a * 2 + 1
        a = float(round(a))
        return a
 __all__ = (
--- a/unimore_bda_6/config.py
+++ b/unimore_bda_6/config.py
@ -124,10 +124,10 @@ def TENSORFLOW_EPOCHS(val: str | None) -> int:
    """
    The number of epochs to train Tensorflow models for.
-    Defaults to `5`.
+    Defaults to `3`.
    """
    if val is None:
-        return 5
+        return 3
    try:
        return int(val)
    except ValueError:
--- a/unimore_bda_6/database/datatypes.py
+++ b/unimore_bda_6/database/datatypes.py
@ -37,11 +37,14 @@ class Review:
        else:
            raise KeyError(item)
    def normvalue(self) -> float:
        return (self.category - 1) / 2
    def to_tensor_text(self) -> tensorflow.Tensor:
        return tensorflow.convert_to_tensor(self.text, dtype=tensorflow.string)
    def to_tensor_normvalue(self) -> tensorflow.Tensor:
-        return tensorflow.convert_to_tensor([(self.category - 1) / 4 - 0.5], dtype=tensorflow.float32)
+        return tensorflow.convert_to_tensor([self.normvalue()], dtype=tensorflow.float32)
    def to_tensor_tuple_normvalue(self) -> tuple[tensorflow.Tensor, tensorflow.Tensor]:
        return (