bda-6-steffo/unimore_bda_6/tokenizer/lower.py

import tensorflow

from .base import BaseTokenizer


class LowercaseTokenizer(BaseTokenizer):
    """
    Tokenizer which converts the words to lowercase before splitting them via spaces.
    """

    def tokenize_plain(self, text: str) -> list[str]:
        return text.lower().split()

    def tokenize_tensorflow(self, text: tensorflow.Tensor) -> tensorflow.Tensor:
        text = tensorflow.strings.lower(text)
        text = tensorflow.expand_dims(text, -1, name="tokens")
        return text
stop here for now 2023-02-04 00:36:42 +00:00			`import tensorflow`

			`from .base import BaseTokenizer`


			`class LowercaseTokenizer(BaseTokenizer):`
enough 2023-02-08 18:46:05 +00:00			`"""`
			`Tokenizer which converts the words to lowercase before splitting them via spaces.`
			`"""`

			`def tokenize_plain(self, text: str) -> list[str]:`
stop here for now 2023-02-04 00:36:42 +00:00			`return text.lower().split()`

			`def tokenize_tensorflow(self, text: tensorflow.Tensor) -> tensorflow.Tensor:`
Made good progress How does text vectorization in tensorflow work? 2023-02-05 16:40:22 +00:00			`text = tensorflow.strings.lower(text)`
			`text = tensorflow.expand_dims(text, -1, name="tokens")`
			`return text`