bda-6-steffo/unimore_bda_6/__main__.py

import logging
import pymongo.errors
from .log import install_log_handler

install_log_handler()

from .config import config
from .database import mongo_client_from_config, reviews_collection, sample_reviews_polar, sample_reviews_varied
from .analysis.nltk_sentiment import NLTKSentimentAnalyzer
from .analysis.tf_text import TensorflowSentimentAnalyzer
from .analysis.base import TrainingFailedError
from .tokenizer import PlainTokenizer, LowercaseTokenizer, NLTKWordTokenizer, PottsTokenizer, PottsTokenizerWithNegation
from .gathering import Caches

log = logging.getLogger(__name__)


def main():
    log.info("Started unimore-bda-6 in %s mode!", "DEBUG" if __debug__ else "PRODUCTION")

    log.debug("Validating configuration...")
    config.proxies.resolve()

    log.debug("Ensuring there are no leftover caches...")
    Caches.ensure_clean()

    with mongo_client_from_config() as db:
        try:
            db.admin.command("ping")
        except pymongo.errors.ServerSelectionTimeoutError:
            log.fatal("MongoDB database is not available, exiting...")
            exit(1)

        reviews = reviews_collection(db)

        for sample_func in [sample_reviews_varied, sample_reviews_polar]:

            for SentimentAnalyzer in [
                TensorflowSentimentAnalyzer,
                NLTKSentimentAnalyzer
            ]:

                for Tokenizer in [
                    PlainTokenizer,
                    LowercaseTokenizer,
                    NLTKWordTokenizer,
                    PottsTokenizer,
                    PottsTokenizerWithNegation,
                ]:

                    slog = logging.getLogger(f"{__name__}.{sample_func.__name__}.{SentimentAnalyzer.__name__}.{Tokenizer.__name__}")

                    while True:

                        try:
                            slog.debug("Creating sentiment analyzer...")
                            sa = SentimentAnalyzer(tokenizer=Tokenizer())
                        except TypeError:
                            slog.warning("%s does not support %s, skipping...", Tokenizer.__name__, SentimentAnalyzer.__name__)
                            break

                        with Caches.from_database_samples(collection=reviews, sample_func=sample_func) as datasets:
                            try:
                                slog.info("Training sentiment analyzer: %s", sa)
                                sa.train(training_dataset_func=datasets.training, validation_dataset_func=datasets.validation)

                            except TrainingFailedError:
                                slog.error("Training failed, trying again with a different dataset...")
                                continue

                            else:
                                slog.info("Training succeeded!")

                                slog.info("Evaluating sentiment analyzer: %s", sa)
                                evaluation_results = sa.evaluate(evaluation_dataset_func=datasets.evaluation)
                                slog.info("Evaluation results: %s", evaluation_results)
                                break


if __name__ == "__main__":
    main()
Implement basic Potts sentiment analyzer 2023-02-02 03:34:05 +00:00			`import logging`
enough 2023-02-08 18:46:05 +00:00			`import pymongo.errors`
			`from .log import install_log_handler`

			`install_log_handler()`
Implement basic Potts sentiment analyzer 2023-02-02 03:34:05 +00:00
enough 2023-02-08 18:46:05 +00:00			`from .config import config`
			`from .database import mongo_client_from_config, reviews_collection, sample_reviews_polar, sample_reviews_varied`
New version working nicely 2023-02-03 22:27:44 +00:00			`from .analysis.nltk_sentiment import NLTKSentimentAnalyzer`
stop here for now 2023-02-04 00:36:42 +00:00			`from .analysis.tf_text import TensorflowSentimentAnalyzer`
stuff's working 2023-02-08 09:54:14 +00:00			`from .analysis.base import TrainingFailedError`
enough 2023-02-08 18:46:05 +00:00			`from .tokenizer import PlainTokenizer, LowercaseTokenizer, NLTKWordTokenizer, PottsTokenizer, PottsTokenizerWithNegation`
			`from .gathering import Caches`
Second commit 2023-02-01 03:20:09 +00:00
Implement basic Potts sentiment analyzer 2023-02-02 03:34:05 +00:00			`log = logging.getLogger(__name__)`

First commit 2023-02-01 01:33:42 +00:00
			`def main():`
enough 2023-02-08 18:46:05 +00:00			`log.info("Started unimore-bda-6 in %s mode!", "DEBUG" if __debug__ else "PRODUCTION")`

			`log.debug("Validating configuration...")`
			`config.proxies.resolve()`

			`log.debug("Ensuring there are no leftover caches...")`
			`Caches.ensure_clean()`

			`with mongo_client_from_config() as db:`
			`try:`
			`db.admin.command("ping")`
			`except pymongo.errors.ServerSelectionTimeoutError:`
			`log.fatal("MongoDB database is not available, exiting...")`
			`exit(1)`

			`reviews = reviews_collection(db)`

			`for sample_func in [sample_reviews_varied, sample_reviews_polar]:`

			`for SentimentAnalyzer in [`
			`TensorflowSentimentAnalyzer,`
			`NLTKSentimentAnalyzer`
Made good progress How does text vectorization in tensorflow work? 2023-02-05 16:40:22 +00:00			`]:`

enough 2023-02-08 18:46:05 +00:00			`for Tokenizer in [`
			`PlainTokenizer,`
			`LowercaseTokenizer,`
			`NLTKWordTokenizer,`
			`PottsTokenizer,`
			`PottsTokenizerWithNegation,`
			`]:`

			`slog = logging.getLogger(f"{__name__}.{sample_func.__name__}.{SentimentAnalyzer.__name__}.{Tokenizer.__name__}")`

			`while True:`

			`try:`
			`slog.debug("Creating sentiment analyzer...")`
			`sa = SentimentAnalyzer(tokenizer=Tokenizer())`
			`except TypeError:`
			`slog.warning("%s does not support %s, skipping...", Tokenizer.__name__, SentimentAnalyzer.__name__)`
			`break`
Made good progress How does text vectorization in tensorflow work? 2023-02-05 16:40:22 +00:00
enough 2023-02-08 18:46:05 +00:00			`with Caches.from_database_samples(collection=reviews, sample_func=sample_func) as datasets:`
stuff's working 2023-02-08 09:54:14 +00:00			`try:`
enough 2023-02-08 18:46:05 +00:00			`slog.info("Training sentiment analyzer: %s", sa)`
			`sa.train(training_dataset_func=datasets.training, validation_dataset_func=datasets.validation)`

			`except TrainingFailedError:`
			`slog.error("Training failed, trying again with a different dataset...")`
			`continue`
Made good progress How does text vectorization in tensorflow work? 2023-02-05 16:40:22 +00:00
enough 2023-02-08 18:46:05 +00:00			`else:`
			`slog.info("Training succeeded!")`
Made good progress How does text vectorization in tensorflow work? 2023-02-05 16:40:22 +00:00
enough 2023-02-08 18:46:05 +00:00			`slog.info("Evaluating sentiment analyzer: %s", sa)`
			`evaluation_results = sa.evaluate(evaluation_dataset_func=datasets.evaluation)`
			`slog.info("Evaluation results: %s", evaluation_results)`
			`break`
First commit 2023-02-01 01:33:42 +00:00

			`if __name__ == "__main__":`
			`main()`