diff --git a/src/routes/Gestinfo/index.js b/src/routes/Gestinfo/index.js index 9d43020..4aa8805 100644 --- a/src/routes/Gestinfo/index.js +++ b/src/routes/Gestinfo/index.js @@ -373,6 +373,9 @@ export default function Gestinfo() { Si basa sulla profondità del minimo antenato comune tra i due token:

{`sim_{wp}(t_1, t_2) = 2 \\cdot \\frac{depth(mac_{\\ t_1,t_2})}{depth(t_1) + depth(t_2)}`} + @@ -387,6 +390,9 @@ export default function Gestinfo() {

La similitudine -based è quindi un modo di misurare la similitudine basato sull'.

+

Si basa sull' del minimo antenato comune: @@ -407,161 +413,184 @@ export default function Gestinfo() {

- - + +

+ È possibile trovare per ogni token dei suoi vicini utilizzabili per migliorare la query: +

+

- È possibile applicare trovare per ogni token dei suoi vicini utilizzabili per migliorare la query: + Dato un token, si cercano tutti i token entro un certo valore di edit distance.

- +

- Dato un token, si cercano tutti i token entro un certo valore di edit distance. -

- -

- Il numero minimo di operazioni per convertire un token in un altro. -

- - -

- Definisce operazioni le seguenti azioni: -

-
    -
  • Inserimento di un singolo carattere
  • -
  • Rimozione di un singolo carattere
  • -
  • Sostituzione di un singolo carattere
  • -
- - -
- -

- Estende la distanza di Levenshtein con una nuova operazione: -

-
    -
  • Trasposizione di un singolo carattere
  • -
- -
- -

- Differenzia i costi delle varie operazioni, diffenenziando ad esempio in base al carattere sostituito. -

- -
-
-
-
- Tramite overlap dei {`q`}-grammi}> -

- Dato un token, si ordinano i token del vocabolario in base al numero di {`q`}-grammi in comune. -

- -

- Misura di overlap tra due insiemi di {`q`}-grammi {`X`} e {`Y`}: -

- {r`Jaccard = \frac{size(X \cap Y)}{size(X \cup Y)}`} - -
-
- -

- Esistono modi veloci per approssimare l'edit distance {`E`} dei token del vocabolario. Sono dei "se e solo se", giusto? + Il numero minimo di operazioni per convertire un token in un altro.

- + +

+ Definisce operazioni le seguenti azioni: +

+
    +
  • Inserimento di un singolo carattere
  • +
  • Rimozione di un singolo carattere
  • +
  • Sostituzione di un singolo carattere
  • +
- {r`\left| size(X) - size(Y) \right| \leq k`} - {r`\Updownarrow`} - {r`E \leq k`} + +

+ Matrice costruita per calcolare la distanza di Levenshtein con un algoritmo greedy: +

+ +
- + +

+ Estende la distanza di Levenshtein con una nuova operazione: +

+
    +
  • Trasposizione di un singolo carattere
  • +
+
+ +

+ Differenzia i costi delle varie operazioni, diffenenziando ad esempio in base al carattere sostituito. +

+ - {r`size(X \cap Y) = \max(size(X),\ size(Y)) + q - 1 - (k \cdot q)`} - {r`\Updownarrow`} - {r`E \leq k`}
- - +

+ Calcolare l'edit distance {`E`} tra due token è un processo computazionalmente molto costoso {`O(n^2)`}. +

+

- Richiede che venga tenuto traccia delle posizione dei {`q`}-grammi, e prevede che i {`q`}-grammi a più di {`k`} posizioni di distanza non vengano considerati uguali. + È possibile evitare di calcolare l'edit distance per la maggior parte dei termini del vocabolario filtrandoli su criteri più veloci.

+ + + + {r`\left| size(X) - size(Y) \right| \leq k`} + {r`\Updownarrow`} + {r`E \leq k`} + + + + {r`size(X \cap Y) = \max(size(X),\ size(Y)) + q - 1 - (k \cdot q)`} + {r`\Updownarrow`} + {r`E \leq k`} + + + + +

+ Richiede che venga tenuto traccia delle posizione dei {`q`}-grammi, e prevede che i {`q`}-grammi a più di {`k`} posizioni di distanza non vengano considerati uguali. +

+
+

+ Scoperti i token "vicini", si può optare per varie soluzioni: +

+
    +
  • + Mostrare le possibili correzioni all'utente + +
  • +
  • + Aggiungere i token vicini alla query + +
  • +
  • + Sostituire il token originale con il più vicino ad esso + +
  • +
-

- Scoperti i token "vicini", si può optare per varie soluzioni: -

-
    -
  • - Mostrare le possibili correzioni all'utente - -
  • -
  • - Aggiungere i token vicini alla query - -
  • -
  • - Sostituire il token originale con il più vicino ad esso - -
  • -
-
+ Tramite overlap dei {`q`}-grammi}> +

+ Dato un token, si ordinano i token del vocabolario in base al numero di {`q`}-grammi in comune. +

+ +

+ Misura di overlap tra due insiemi di {`q`}-grammi {`X`} e {`Y`}: +

+ {r`Jaccard = \frac{size(X \cap Y)}{size(X \cup Y)}`} + +
+
+ + +

+ È possibile confrontare ogni token con il contesto dei termini circostanti per rilevare ulteriori errori. +

+ + +

+ Un metodo che prevede di enumerare varie alternative aventi contesti concordi e di restituire quella con il maggior numero di risultati. +

+
+ +

+ Un metodo che prevede di enumerare varie alternative aventi contesti concordi e di restituire quella che è stata ricercata più volte. +

+
+
+

@@ -872,7 +901,9 @@ export default function Gestinfo() {

@@ -1018,16 +1049,17 @@ export default function Gestinfo() {

{`sim_{prob} = \\frac{P(R\\ |\\ d, q)}{P(\\overline{R}\\ |\\ d, q)}`}

- Si dimostra che è possibile capire quanto la presenza di un dato token {`k_i`} in un documento ne contribuisca alla rilevanza: + Si dimostra che è possibile capire quanto la presenza di un dato token {`k_i`} in un documento {r`d`} ne contribuisca alla rilevanza per la query {r`\vec{q}`}:

{` - c_i = - \\log \\frac{P(k_i\\ |\\ R, \\vec{q})}{1 - P(k_i\\ |\\ R, \\vec{q})} - + - \\log \\frac{1 - P(k_i\\ |\\ \\overline{R}, \\vec{q})}{P(k_i\\ |\\ \\overline{R}, \\vec{q})} - `} + c_i = + \\log \\frac{P(k_i\\ |\\ R, \\vec{q})}{1 - P(k_i\\ |\\ R, \\vec{q})} + + + \\log \\frac{1 - P(k_i\\ |\\ \\overline{R}, \\vec{q})}{P(k_i\\ |\\ \\overline{R}, \\vec{q})} + `} + Continuo a non aver capito gran che.

- Non ci ho capito gran che onestamente. Help. + Il contributo {r`c_i`} viene poi usato come peso

@@ -1043,13 +1075,19 @@ export default function Gestinfo() {

Deriva dal peso dei termini della query presenti nel documento:

- {`x = \\sum_{t \\in q} ( \\log ( idf ) )`} + {`x = \\sum_{t \\in q} ( idf_{\\log} )`}
Fattore {`y`}}>

- Deriva dal peso , dalla lunghezza media dei documenti {`L_{avg}`}, la lunghezza del documento specifico {`L_d`} e da due parametri di configurazione {`k_1`} e {`b`}: + Deriva dal peso , dalla lunghezza media dei documenti {`L_{avg}`}, la lunghezza del documento specifico {`L_d`} e da due parametri di configurazione {`k_1`} e {`b`}:

{`y = \\frac{(k_1 + 1) \\cdot tf_{td}}{k_1 \\cdot \\left( 1 - b + \\left( b \\cdot \\frac{L_d}{L_{avg}} \\right) \\right) + tf_{td}}`} + +
Fattore {`z`}}>

@@ -1116,7 +1154,7 @@ export default function Gestinfo() {

- Il richiamo di una query con precisione {`R`}. + A precisione {`R`}, il richiamo relativo ad una query.

@@ -1373,7 +1411,12 @@ export default function Gestinfo() { - Questa pagina è incompleta! 8/10 +

+ Forse sarebbe utile parlare del Soundex, ma è talmente decontestualizzato che non saprei dove infilarlo. +

+

+ Questa pagina è completa al 90% (9 presentazioni su 10). +

) }