+ Astrazione che rappresenta un singolo significato di una parola o
+ Sequenze di
@@ -128,7 +171,7 @@ export default function Gestinfo() { Tutte le parole del documento vengono trasformate in token.
Spesso si decide di distinguere tra gli
+ Una parte della normalizzazione dei token che corregge gli errori ortografici commessi durante l'inserimento della query. +
++ Aumenta la soddisfazione dell'utente e gli consente di effettuare ricerche per termini di cui non conosce lo spelling. +
++ È possibile applicare trovare per ogni token dei suoi vicini utilizzabili per migliorare la query: +
++ Dato un token, si cercano tutti i token entro un certo valore di edit distance. +
++ Il numero minimo di operazioni per convertire un token in un altro. +
++ Definisce operazioni le seguenti azioni: +
++ Estende la distanza di Levenshtein con una nuova operazione: +
++ Differenzia i costi delle varie operazioni, diffenenziando ad esempio in base al carattere sostituito. +
+ +
+ Dato un token, si ordinano i token del vocabolario in base al numero di
+ Misura di overlap tra due insiemi di
+ Esistono modi veloci per approssimare l'edit distance
+ Richiede che venga tenuto traccia delle posizione dei
+ Scoperti i token "vicini", si può optare per varie soluzioni: +
+@@ -542,6 +758,124 @@ export default function Gestinfo() {
AND
:
+
+
+ È costoso in termini di tempo: ci saranno tanti risultati che andranno processati, e l'intersezione è
+ Un particolare vocabolario in cui vengono inserite tutte le possibili permutazioni di wildcard per ogni token: +
+ ++ È possibile effettuare ricerche wildcard ruotando la wildcard a destra, trasformando tutti i pattern in prefissi: +
+ ++ È costoso in termini di spazio: ogni termine va salvato molte volte nel vocabolario (permuterm problem). +
+
+ Vocabolario aggiuntivo che associa
+ È possibile interpretare la ricerca come intersezione di
+ Utilizzando dei bigram: +
+AND
AND
+ I risultati della ricerca andranno post-filtrati, in quanto ci potrebbero essere dei falsi positivi: +
++ Utilizzando dei bigram: +
+AND
AND