Use float instead of str as Category

2025-03-22 00:23:29 +00:00 · 2023-02-04 05:28:18 +01:00 · 2023-02-04 05:28:18 +01:00 · 2675f5ead8
commit 2675f5ead8
parent 4f24d399b8
2 changed files with 8 additions and 22 deletions
--- a/unimore_bda_6/main.py
+++ b/unimore_bda_6/main.py
@ -19,13 +19,13 @@ def main():

    for dataset_func in [polar_dataset, varied_dataset]:
        for SentimentAnalyzer in [
-            # NLTKSentimentAnalyzer,
-            TensorflowSentimentAnalyzer,
+            NLTKSentimentAnalyzer,
+            # TensorflowSentimentAnalyzer,
        ]:
            for Tokenizer in [
-                # NLTKWordTokenizer,
-                # PottsTokenizer,
-                # PottsTokenizerWithNegation,
+                NLTKWordTokenizer,
+                PottsTokenizer,
+                PottsTokenizerWithNegation,
                LowercaseTokenizer,
            ]:
                tokenizer = Tokenizer()
--- a/unimore_bda_6/database.py
+++ b/unimore_bda_6/database.py
@ -26,7 +26,7 @@ class Review(t.TypedDict):


 Text = str
-Category = str
+Category = float
 DataTuple = collections.namedtuple("DataTuple", ["text", "category"])
 DataSet = t.Iterable[DataTuple]

@ -101,23 +101,9 @@ def review_to_datatuple(review: Review) -> DataTuple:
    * unknown (everything else)
    """
    text = review["reviewText"]
-    rating = review["overall"]
+    category = review["overall"]

-    match rating:
-        case 1.0:
-            category = "terrible"
-        case 2.0:
-            category = "negative"
-        case 3.0:
-            category = "mixed"
-        case 4.0:
-            category = "positive"
-        case 5.0:
-            category = "great"
-        case _:
-            category = "unknown"
-
-    return DataTuple(text, category)
+    return DataTuple(text=text, category=category)


 def polar_dataset(collection: pymongo.collection.Collection, amount: int) -> t.Iterator[DataTuple]: