mirror of
https://github.com/Steffo99/unisteffo.git
synced 2024-11-25 09:24:21 +00:00
➕ Fix token spacing
This commit is contained in:
parent
a71182a7d1
commit
883cd70526
1 changed files with 5 additions and 12 deletions
|
@ -183,8 +183,7 @@ export default function Gestinfo() {
|
||||||
<Split title={"Preprocessing dei documenti"}>
|
<Split title={"Preprocessing dei documenti"}>
|
||||||
<Box title={"Cos'è?"}>
|
<Box title={"Cos'è?"}>
|
||||||
<P>
|
<P>
|
||||||
Una <B>procedura</B> svolta quando un documento viene <B>aggiunto</B> al motore di ricerca,
|
Una <B>procedura</B> svolta quando un documento viene <B>aggiunto</B> al motore di ricerca, permettendone l'indicizzazione e in seguito il richiamo.
|
||||||
permettendone l'indicizzazione e in seguito il richiamo.
|
|
||||||
</P>
|
</P>
|
||||||
<P>
|
<P>
|
||||||
È suddivisa in varie fasi, generalmente 5 o 6.
|
È suddivisa in varie fasi, generalmente 5 o 6.
|
||||||
|
@ -200,8 +199,7 @@ export default function Gestinfo() {
|
||||||
Treno per Modena → <Token>Treno</Token> <Token>per</Token> <Token>Modena</Token>
|
Treno per Modena → <Token>Treno</Token> <Token>per</Token> <Token>Modena</Token>
|
||||||
</Aside>
|
</Aside>
|
||||||
<P>
|
<P>
|
||||||
Spesso si decide di <B>distinguere</B> tra gli <B><Ononimi/></B> attraverso algoritmi di <B><I>word
|
Spesso si decide di <B>distinguere</B> tra gli <B><Ononimi/></B> attraverso algoritmi di <B><I>word sense disambiguation</I></B>, in grado di dedurre il contesto analizzando i significati delle
|
||||||
sense disambiguation</I></B>, in grado di dedurre il contesto analizzando i significati delle
|
|
||||||
parole circostanti.
|
parole circostanti.
|
||||||
</P>
|
</P>
|
||||||
<Aside>
|
<Aside>
|
||||||
|
@ -210,10 +208,7 @@ export default function Gestinfo() {
|
||||||
</Box>
|
</Box>
|
||||||
<Box title={"2. Normalizzazione dei token"}>
|
<Box title={"2. Normalizzazione dei token"}>
|
||||||
<P>
|
<P>
|
||||||
Il motore di ricerca decide come trattare i <B>simboli</B> tipografici, la <B><Help
|
Il motore di ricerca decide come trattare i <B>simboli</B> tipografici, la <B><Help text={"Quello che in inglese si chiama 'case'. Sono grafie il maiuscolo, il minuscolo, il corsivo..."}>grafia</Help></B> delle lettere, le <B>cifre</B>, modificando l'insieme di token come ritiene necessario.
|
||||||
text={"Quello che in inglese si chiama 'case'. Sono grafie il maiuscolo, il minuscolo, il corsivo..."}
|
|
||||||
>grafia</Help></B> delle
|
|
||||||
lettere, le <B>cifre</B>, modificando l'insieme di token come ritiene necessario.
|
|
||||||
</P>
|
</P>
|
||||||
<Aside>
|
<Aside>
|
||||||
<P>
|
<P>
|
||||||
|
@ -229,15 +224,13 @@ export default function Gestinfo() {
|
||||||
<LI>
|
<LI>
|
||||||
Rimozione maiuscole non-significative:
|
Rimozione maiuscole non-significative:
|
||||||
<Aside>
|
<Aside>
|
||||||
<Token>Treno</Token> <Token>per</Token> <Token>Modena</Token> → <Token>treno</Token>
|
<Token>Treno</Token> <Token>per</Token> <Token>Modena</Token> → <Token>treno</Token> <Token>per</Token> <Token>Modena</Token>
|
||||||
<Token>per</Token> <Token>Modena</Token>
|
|
||||||
</Aside>
|
</Aside>
|
||||||
</LI>
|
</LI>
|
||||||
<LI>
|
<LI>
|
||||||
Separazione dei trattini
|
Separazione dei trattini
|
||||||
<Aside>
|
<Aside>
|
||||||
<Token>state-of-the-art</Token> → <Token>state</Token> <Token>of</Token>
|
<Token>state-of-the-art</Token> → <Token>state</Token> <Token>of</Token> <Token>the</Token> <Token>art</Token>
|
||||||
<Token>the</Token> <Token>art</Token>
|
|
||||||
</Aside>
|
</Aside>
|
||||||
</LI>
|
</LI>
|
||||||
<LI>
|
<LI>
|
||||||
|
|
Loading…
Reference in a new issue