1
Fork 0
mirror of https://github.com/Steffo99/unisteffo.git synced 2025-02-16 15:53:58 +00:00

Separate stemming from lemmatization

This commit is contained in:
Steffo 2021-07-11 10:45:55 +02:00
parent 883cd70526
commit b61d243ba7
Signed by: steffo
GPG key ID: 6965406171929D01

View file

@ -10,6 +10,7 @@ import {
ListItem as LI,
Paragraph as P,
Underline as U,
Blockquote,
} from "bluelib/lib/components"
import LatexMath from "bluelib/lib/components/LatexMath"
import Split from "../../components/Split"
@ -244,13 +245,10 @@ export default function Gestinfo() {
</Box>
<Box title={"3. Eliminazione delle stopwords"}>
<P>
Le <I>stopwords</I>, i token ritenuti <B>inutili</B> ai fini delle ricerche,
vengono <B>eliminate</B> dall'insieme di token ottenuto nel passo precedente.
Le <I>stopwords</I>, i token ritenuti <B>inutili</B> ai fini delle ricerche, vengono <B>eliminate</B> dall'insieme di token ottenuto nel passo precedente.
</P>
<P>
Stopwords comuni sono gli <B><Help text={"Il, lo, la, un, una..."}>articoli</Help></B>,
le <B><Help text={"E, perchè, ma, così..."}>congiunzioni</Help></B> e, in generale, tutte le <B>parole
più frequenti</B> di una lingua.
Stopwords comuni sono gli <B><Help text={"Il, lo, la, un, una..."}>articoli</Help></B>, le <B><Help text={"E, perchè, ma, così..."}>congiunzioni</Help></B> e, in generale, tutte le <B>parole più frequenti</B> di una lingua.
</P>
<Aside>
<Token>basi</Token> <Token stopword={true}>di</Token> <Token>dati</Token>
@ -272,34 +270,46 @@ export default function Gestinfo() {
<Split>
<Box title={"4. Stemming / Lemmatizzazione"}>
<P>
Ai token del passo precedente vengono sostituite le <B>radici</B> (<I>stems</I>) oppure le <B>forme
base</B> (<I>lemmas</I>) delle parole.
Ai token del passo precedente vengono sostituite le <B>radici</B> (<I>stems</I>) oppure le <B>forme base</B> (<I>lemmas</I>) delle parole.
</P>
<Aside>
<P>
Alcune delle operazioni che vengono effettuate sono:
Alcune delle operazioni di <B>stemming</B> che possono essere effettuate sono:
</P>
<ul>
<LI>
Plurale Singolare
<Aside>
<Token>fiori</Token> <Token>fiore</Token>
</Aside>
<Aside>
<Token>flowers</Token> <Token>flower</Token>
</Aside>
</LI>
<LI>
Verbo Infinito
<Aside>
<Token>vado</Token> <Token>andare</Token>
</Aside>
<Aside>
<Token>goes</Token> <Token>go</Token>
</Aside>
</LI>
</ul>
</Aside>
<Aside>
<P>
Alcune delle operazioni di <B>lemmatizzazione</B> che possono essere effettuate sono:
</P>
<ul>
<LI>
Plurale Singolare
<Aside>
<Token>fiori</Token> <Token>fiore</Token>
</Aside>
</LI>
<LI>
Verbo Infinito
<Aside>
<Token>vado</Token> <Token>andare</Token>
</Aside>
</LI>
</ul>
</Aside>
<P>
Gli algoritmi che realizzano questo passo sono detti rispettivamente <B><I>stemmer</I></B> o <B><I>lemmatizer</I></B>.
</P>