bda-6-steffo/unimore_bda_6/analysis/tf_text.py

import tensorflow
import logging

from ..database import Text, Category, CachedDatasetFunc
from ..config import TENSORFLOW_EMBEDDING_SIZE, TENSORFLOW_MAX_FEATURES, TENSORFLOW_EPOCHS
from ..tokenizer import BaseTokenizer
from .base import BaseSentimentAnalyzer, AlreadyTrainedError, NotTrainedError, TrainingFailedError

log = logging.getLogger(__name__)


if len(tensorflow.config.list_physical_devices(device_type="GPU")) == 0:
    log.warning("Tensorflow reports no GPU acceleration available.")
else:
    log.debug("Tensorflow successfully found GPU acceleration!")


class TensorflowSentimentAnalyzer(BaseSentimentAnalyzer):
    def __init__(self, *, tokenizer: BaseTokenizer):
        if not tokenizer.supports_tensorflow():
            raise TypeError("Tokenizer does not support Tensorflow")

        super().__init__(tokenizer=tokenizer)

        self.trained: bool = False

        self.text_vectorization_layer: tensorflow.keras.layers.TextVectorization = self._build_vectorizer(tokenizer)
        self.model: tensorflow.keras.Sequential = self._build_model()
        self.history: tensorflow.keras.callbacks.History | None = None

    @staticmethod
    def _build_dataset(dataset_func: CachedDatasetFunc) -> tensorflow.data.Dataset:
        """
        Convert a `CachedDatasetFunc` to a `tensorflow.data.Dataset`.
        """

        def dataset_func_with_tensor_tuple():
            for review in dataset_func():
                yield review.to_tensor_tuple()

        log.debug("Creating dataset...")
        dataset = tensorflow.data.Dataset.from_generator(
            dataset_func_with_tensor_tuple,
            output_signature=(
                tensorflow.TensorSpec(shape=(), dtype=tensorflow.string, name="text"),
                tensorflow.TensorSpec(shape=(1, 5,), dtype=tensorflow.float32, name="category"),
            )
        )

        log.debug("Caching dataset...")
        dataset = dataset.cache()

        log.debug("Configuring dataset prefetch...")
        dataset = dataset.prefetch(buffer_size=tensorflow.data.AUTOTUNE)

        return dataset

    @staticmethod
    def _build_model() -> tensorflow.keras.Sequential:
        log.debug("Creating model...")
        model = tensorflow.keras.Sequential([
            tensorflow.keras.layers.Embedding(
                input_dim=TENSORFLOW_MAX_FEATURES.__wrapped__ + 1,
                output_dim=TENSORFLOW_EMBEDDING_SIZE.__wrapped__,
            ),
            tensorflow.keras.layers.Dropout(0.25),
            tensorflow.keras.layers.GlobalAveragePooling1D(),
            tensorflow.keras.layers.Dropout(0.25),
            tensorflow.keras.layers.Dense(25),
            tensorflow.keras.layers.Dense(5, activation="softmax"),
        ])
        log.debug("Compiling model: %s", model)
        model.compile(
            optimizer=tensorflow.keras.optimizers.Adam(global_clipnorm=1.0),
            loss=tensorflow.keras.losses.CategoricalCrossentropy(),
            metrics=[
                tensorflow.keras.metrics.CategoricalAccuracy(),
            ]
        )
        log.debug("Compiled model: %s", model)
        return model

    @staticmethod
    def _build_vectorizer(tokenizer: BaseTokenizer) -> tensorflow.keras.layers.TextVectorization:
        return tensorflow.keras.layers.TextVectorization(
            standardize=tokenizer.tokenize_tensorflow,
            max_tokens=TENSORFLOW_MAX_FEATURES.__wrapped__
        )

    def train(self, training_dataset_func: CachedDatasetFunc, validation_dataset_func: CachedDatasetFunc) -> None:
        if self.trained:
            log.error("Tried to train an already trained model.")
            raise AlreadyTrainedError()

        log.debug("Building datasets...")
        training_set = self._build_dataset(training_dataset_func)
        validation_set = self._build_dataset(validation_dataset_func)
        log.debug("Built dataset: %s", training_set)

        log.debug("Preparing training_set for %s...", self.text_vectorization_layer.adapt)
        only_text_set = training_set.map(lambda text, category: text)

        log.debug("Adapting text_vectorization_layer: %s", self.text_vectorization_layer)
        self.text_vectorization_layer.adapt(only_text_set)
        log.debug("Adapted text_vectorization_layer: %s", self.text_vectorization_layer)

        log.debug("Preparing training_set for %s...", self.model.fit)
        training_set = training_set.map(lambda text, category: (self.text_vectorization_layer(text), category))
        validation_set = validation_set.map(lambda text, category: (self.text_vectorization_layer(text), category))
        log.info("Training: %s", self.model)
        self.history: tensorflow.keras.callbacks.History | None  = self.model.fit(
            training_set,
            validation_data=validation_set,
            epochs=TENSORFLOW_EPOCHS.__wrapped__,
            callbacks=[
                tensorflow.keras.callbacks.TerminateOnNaN()
            ],
        )

        if len(self.history.epoch) < TENSORFLOW_EPOCHS.__wrapped__:
            log.error("Model %s training failed: only %d epochs computed", self.model, len(self.history.epoch))
            raise TrainingFailedError()
        else:
            log.info("Model %s training succeeded!", self.model)

        self.trained = True

    def use(self, text: Text) -> Category:
        if not self.trained:
            log.error("Tried to use a non-trained model.")
            raise NotTrainedError()

        vector = self.text_vectorization_layer(text)

        prediction = self.model.predict(vector, verbose=False)

        max_i = None
        max_p = None
        for i, p in enumerate(iter(prediction[0])):
            if max_p is None or p > max_p:
                max_i = i
                max_p = p
        result = float(max_i) + 1.0

        return result
stop here for now 2023-02-04 00:36:42 +00:00			`import tensorflow`
stuff's working 2023-02-08 09:54:14 +00:00			`import logging`
stop here for now 2023-02-04 00:36:42 +00:00
enough 2023-02-08 18:46:05 +00:00			`from ..database import Text, Category, CachedDatasetFunc`
stuff's working 2023-02-08 09:54:14 +00:00			`from ..config import TENSORFLOW_EMBEDDING_SIZE, TENSORFLOW_MAX_FEATURES, TENSORFLOW_EPOCHS`
			`from ..tokenizer import BaseTokenizer`
			`from .base import BaseSentimentAnalyzer, AlreadyTrainedError, NotTrainedError, TrainingFailedError`

			`log = logging.getLogger(__name__)`
stop here for now 2023-02-04 00:36:42 +00:00

enough 2023-02-08 18:46:05 +00:00			`if len(tensorflow.config.list_physical_devices(device_type="GPU")) == 0:`
			`log.warning("Tensorflow reports no GPU acceleration available.")`
			`else:`
			`log.debug("Tensorflow successfully found GPU acceleration!")`


stop here for now 2023-02-04 00:36:42 +00:00			`class TensorflowSentimentAnalyzer(BaseSentimentAnalyzer):`
enough 2023-02-08 18:46:05 +00:00			`def __init__(self, *, tokenizer: BaseTokenizer):`
			`if not tokenizer.supports_tensorflow():`
			`raise TypeError("Tokenizer does not support Tensorflow")`

			`super().__init__(tokenizer=tokenizer)`

Now I understand text vectorization (but this still does not work) 2023-02-06 00:12:30 +00:00			`self.trained: bool = False`
stop here for now 2023-02-04 00:36:42 +00:00
stuff's working 2023-02-08 09:54:14 +00:00			`self.text_vectorization_layer: tensorflow.keras.layers.TextVectorization = self._build_vectorizer(tokenizer)`
Now I understand text vectorization (but this still does not work) 2023-02-06 00:12:30 +00:00			`self.model: tensorflow.keras.Sequential = self._build_model()`
stuff's working 2023-02-08 09:54:14 +00:00			`self.history: tensorflow.keras.callbacks.History \| None = None`
stop here for now 2023-02-04 00:36:42 +00:00
stuff's working 2023-02-08 09:54:14 +00:00			`@staticmethod`
enough 2023-02-08 18:46:05 +00:00			`def _build_dataset(dataset_func: CachedDatasetFunc) -> tensorflow.data.Dataset:`
			`"""`
			Convert a `CachedDatasetFunc` to a `tensorflow.data.Dataset`.
			`"""`

Made good progress How does text vectorization in tensorflow work? 2023-02-05 16:40:22 +00:00			`def dataset_func_with_tensor_tuple():`
			`for review in dataset_func():`
			`yield review.to_tensor_tuple()`

stuff's working 2023-02-08 09:54:14 +00:00			`log.debug("Creating dataset...")`
			`dataset = tensorflow.data.Dataset.from_generator(`
Made good progress How does text vectorization in tensorflow work? 2023-02-05 16:40:22 +00:00			`dataset_func_with_tensor_tuple,`
			`output_signature=(`
			`tensorflow.TensorSpec(shape=(), dtype=tensorflow.string, name="text"),`
stuff's working 2023-02-08 09:54:14 +00:00			`tensorflow.TensorSpec(shape=(1, 5,), dtype=tensorflow.float32, name="category"),`
Made good progress How does text vectorization in tensorflow work? 2023-02-05 16:40:22 +00:00			`)`
			`)`
stop here for now 2023-02-04 00:36:42 +00:00
stuff's working 2023-02-08 09:54:14 +00:00			`log.debug("Caching dataset...")`
			`dataset = dataset.cache()`

			`log.debug("Configuring dataset prefetch...")`
			`dataset = dataset.prefetch(buffer_size=tensorflow.data.AUTOTUNE)`

			`return dataset`

			`@staticmethod`
			`def _build_model() -> tensorflow.keras.Sequential:`
enough 2023-02-08 18:46:05 +00:00			`log.debug("Creating model...")`
stuff's working 2023-02-08 09:54:14 +00:00			`model = tensorflow.keras.Sequential([`
back to i have no idea of what's happening, but at least it works 2023-02-07 09:22:09 +00:00			`tensorflow.keras.layers.Embedding(`
stuff's working 2023-02-08 09:54:14 +00:00			`input_dim=TENSORFLOW_MAX_FEATURES.__wrapped__ + 1,`
			`output_dim=TENSORFLOW_EMBEDDING_SIZE.__wrapped__,`
back to i have no idea of what's happening, but at least it works 2023-02-07 09:22:09 +00:00			`),`
enough 2023-02-08 18:46:05 +00:00			`tensorflow.keras.layers.Dropout(0.25),`
stop here for now 2023-02-04 00:36:42 +00:00			`tensorflow.keras.layers.GlobalAveragePooling1D(),`
enough 2023-02-08 18:46:05 +00:00			`tensorflow.keras.layers.Dropout(0.25),`
			`tensorflow.keras.layers.Dense(25),`
back to i have no idea of what's happening, but at least it works 2023-02-07 09:22:09 +00:00			`tensorflow.keras.layers.Dense(5, activation="softmax"),`
stop here for now 2023-02-04 00:36:42 +00:00			`])`
stuff's working 2023-02-08 09:54:14 +00:00			`log.debug("Compiling model: %s", model)`
			`model.compile(`
			`optimizer=tensorflow.keras.optimizers.Adam(global_clipnorm=1.0),`
			`loss=tensorflow.keras.losses.CategoricalCrossentropy(),`
			`metrics=[`
			`tensorflow.keras.metrics.CategoricalAccuracy(),`
			`]`
			`)`
			`log.debug("Compiled model: %s", model)`
			`return model`

			`@staticmethod`
			`def _build_vectorizer(tokenizer: BaseTokenizer) -> tensorflow.keras.layers.TextVectorization:`
			`return tensorflow.keras.layers.TextVectorization(`
			`standardize=tokenizer.tokenize_tensorflow,`
			`max_tokens=TENSORFLOW_MAX_FEATURES.__wrapped__`
			`)`
Now I understand text vectorization (but this still does not work) 2023-02-06 00:12:30 +00:00
enough 2023-02-08 18:46:05 +00:00			`def train(self, training_dataset_func: CachedDatasetFunc, validation_dataset_func: CachedDatasetFunc) -> None:`
Now I understand text vectorization (but this still does not work) 2023-02-06 00:12:30 +00:00			`if self.trained:`
stuff's working 2023-02-08 09:54:14 +00:00			`log.error("Tried to train an already trained model.")`
Now I understand text vectorization (but this still does not work) 2023-02-06 00:12:30 +00:00			`raise AlreadyTrainedError()`

enough 2023-02-08 18:46:05 +00:00			`log.debug("Building datasets...")`
			`training_set = self._build_dataset(training_dataset_func)`
			`validation_set = self._build_dataset(validation_dataset_func)`
stuff's working 2023-02-08 09:54:14 +00:00			`log.debug("Built dataset: %s", training_set)`
Now I understand text vectorization (but this still does not work) 2023-02-06 00:12:30 +00:00
stuff's working 2023-02-08 09:54:14 +00:00			`log.debug("Preparing training_set for %s...", self.text_vectorization_layer.adapt)`
Now I understand text vectorization (but this still does not work) 2023-02-06 00:12:30 +00:00			`only_text_set = training_set.map(lambda text, category: text)`
enough 2023-02-08 18:46:05 +00:00
stuff's working 2023-02-08 09:54:14 +00:00			`log.debug("Adapting text_vectorization_layer: %s", self.text_vectorization_layer)`
Now I understand text vectorization (but this still does not work) 2023-02-06 00:12:30 +00:00			`self.text_vectorization_layer.adapt(only_text_set)`
stuff's working 2023-02-08 09:54:14 +00:00			`log.debug("Adapted text_vectorization_layer: %s", self.text_vectorization_layer)`

			`log.debug("Preparing training_set for %s...", self.model.fit)`
			`training_set = training_set.map(lambda text, category: (self.text_vectorization_layer(text), category))`
enough 2023-02-08 18:46:05 +00:00			`validation_set = validation_set.map(lambda text, category: (self.text_vectorization_layer(text), category))`
stuff's working 2023-02-08 09:54:14 +00:00			`log.info("Training: %s", self.model)`
			`self.history: tensorflow.keras.callbacks.History \| None = self.model.fit(`
			`training_set,`
enough 2023-02-08 18:46:05 +00:00			`validation_data=validation_set,`
stuff's working 2023-02-08 09:54:14 +00:00			`epochs=TENSORFLOW_EPOCHS.__wrapped__,`
			`callbacks=[`
			`tensorflow.keras.callbacks.TerminateOnNaN()`
enough 2023-02-08 18:46:05 +00:00			`],`
			`)`
stuff's working 2023-02-08 09:54:14 +00:00
			`if len(self.history.epoch) < TENSORFLOW_EPOCHS.__wrapped__:`
			`log.error("Model %s training failed: only %d epochs computed", self.model, len(self.history.epoch))`
			`raise TrainingFailedError()`
			`else:`
			`log.info("Model %s training succeeded!", self.model)`
stop here for now 2023-02-04 00:36:42 +00:00
			`self.trained = True`

			`def use(self, text: Text) -> Category:`
			`if not self.trained:`
stuff's working 2023-02-08 09:54:14 +00:00			`log.error("Tried to use a non-trained model.")`
stop here for now 2023-02-04 00:36:42 +00:00			`raise NotTrainedError()`

stuff's working 2023-02-08 09:54:14 +00:00			`vector = self.text_vectorization_layer(text)`
back to i have no idea of what's happening, but at least it works 2023-02-07 09:22:09 +00:00
stuff's working 2023-02-08 09:54:14 +00:00			`prediction = self.model.predict(vector, verbose=False)`
back to i have no idea of what's happening, but at least it works 2023-02-07 09:22:09 +00:00
			`max_i = None`
			`max_p = None`
			`for i, p in enumerate(iter(prediction[0])):`
			`if max_p is None or p > max_p:`
			`max_i = i`
			`max_p = p`
stuff's working 2023-02-08 09:54:14 +00:00			`result = float(max_i) + 1.0`
back to i have no idea of what's happening, but at least it works 2023-02-07 09:22:09 +00:00
stuff's working 2023-02-08 09:54:14 +00:00			`return result`