From b5307d4370ba96040d4a31f3501be373e8886cc5 Mon Sep 17 00:00:00 2001 From: Stefano Pigozzi Date: Sat, 30 Jan 2021 17:29:12 +0100 Subject: [PATCH] =?UTF-8?q?=E2=9C=A8=20Finally=20complete=20modeling?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- src/components/TitleSplit.module.css | 2 +- src/routes/Gestinfo/abbr/RSV.js | 12 ++ src/routes/Gestinfo/index.js | 169 +++++++++++++++++---------- 3 files changed, 121 insertions(+), 62 deletions(-) create mode 100644 src/routes/Gestinfo/abbr/RSV.js diff --git a/src/components/TitleSplit.module.css b/src/components/TitleSplit.module.css index d69691e..c4c5368 100644 --- a/src/components/TitleSplit.module.css +++ b/src/components/TitleSplit.module.css @@ -1,3 +1,3 @@ .titlesplit { - margin-top: 80px; + margin-top: 32px; } diff --git a/src/routes/Gestinfo/abbr/RSV.js b/src/routes/Gestinfo/abbr/RSV.js new file mode 100644 index 0000000..6ed9f08 --- /dev/null +++ b/src/routes/Gestinfo/abbr/RSV.js @@ -0,0 +1,12 @@ +import React from "react"; +import {Help} from "bluelib/lib/components"; +import PropTypes from "prop-types"; + + +export default function RSV() { + return ( + RSV + ) +} + +RSV.propTypes = {} diff --git a/src/routes/Gestinfo/index.js b/src/routes/Gestinfo/index.js index 2170d75..aecddde 100644 --- a/src/routes/Gestinfo/index.js +++ b/src/routes/Gestinfo/index.js @@ -18,6 +18,7 @@ import Todo from "../../components/Todo"; import IDF from "./abbr/IDF"; import TF from "./abbr/TF"; import TFIDF from "./abbr/TFIDF"; +import RSV from "./abbr/RSV"; export default function Gestinfo() { @@ -334,34 +335,6 @@ export default function Gestinfo() { {`sim_{r} (t_1,t_2) = ic \\left( mac_{\\ t_1,t_2} \\right)`} - -

- Un modo di misurare la similitudine in cui i token sono rappresentati come dimensioni vettoriali. -

- -

- Si basa sulla norma a 2, e corrisponde a cercare l'angolo centrato all'origine tra i due vettori: -

- {`sim_{\\cos} (t_1, t_2) = \\frac{\\vec{t_1} \\cdot \\vec{t_2}}{\\| \\vec{t_1} \\| \\cdot \\| \\vec{t_2} \\|}`} - - - Forse dovrei scrivere la formula "completa". - -
- -
@@ -617,57 +590,131 @@ export default function Gestinfo() { Modello classico che rappresenta il vocabolario come uno spazio vettoriale, in cui ogni dimensione rappresenta un token.

- Ogni documento viene rappresentato come un vettore, i cui valori sono pesi assegnati in base a quanto il token è signficativo all'interno del documento. + Ogni documento viene rappresentato come un vettore {`d`}, i cui valori sono pesi {`w`} assegnati in base a quanto il token è signficativo all'interno del documento.

-

- Le query vengono anch'esse trasformate in vettori, e le rilevanze vengono ottenute dalla similitudine vettoriale tra i vettore query e i vettori documenti. -

-
- Peso }>

- Un metodo di assegnamento peso che si basa sul prodotto dei fattori e : + Le query vengono anch'esse trasformate in vettori {`q`}, e le rilevanze vengono ottenute dalla similitudine vettoriale tra i vettore query e i vettori documenti.

- {`w = tf_{norm} \\cdot idf_{log}`} - : Term frequency}> + Peso }>

- Misura quanto un token è frequente nel singolo documento: + Un metodo di assegnamento peso che si basa sul prodotto dei fattori e :

- {`tf = \\frac{occorrenze}{totale\\ token}`} -

- Nella formula principale, viene normalizzato dividendolo per il più alto del documento, limitandolo così a valori tra 0 e 1: -

- {`tf_{norm} = \\frac{tf}{\\max\\ tf_d}`} + {`w = tf_{norm} \\cdot idf_{log}`} + : Term frequency}> +

+ Misura quanto un token è frequente nel singolo documento: +

+ {`tf = \\frac{occorrenze}{totale\\ token}`} +

+ Nella formula principale, viene normalizzato dividendolo per il più alto del documento, limitandolo così a valori tra 0 e 1: +

+ {`tf_{norm} = \\frac{tf}{\\max\\ tf_d}`} +
+ : Inverse document freq.}> +

+ Misura quanto un token è raro nella collezione di documenti: +

+ {`idf = \\frac{documenti\\ con\\ occ.}{totale\\ documenti}`} +

+ Nella formula principale, viene logaritmizzato, al fine di ridurre significativamente il suo impatto: +

+ {`idf_{log} = \\log(idf)`} +
- : Inverse document freq.}> +

- Misura quanto un token è raro nella collezione di documenti: + Un modo di misurare la similitudine tra insiemi di token rappresentati come dimensioni vettoriali.

- {`idf = \\frac{documenti\\ con\\ occ.}{totale\\ documenti}`} -

- Nella formula principale, viene logaritmizzato, al fine di ridurre significativamente il suo impatto: -

- {`idf_{log} = \\log(idf)`} + +

+ Si basa sulla norma a 2, e corrisponde a cercare l'angolo centrato all'origine tra i due vettori: +

+ {` + sim_{\\cos} (d, q) = + \\frac{ + \\vec{d} \\cdot \\vec{q} + }{ + \\| \\vec{d} \\|_2 \\cdot \\| \\vec{q} \\|_2 + } = + \\frac{ + \\sum_{i = 0}^{dim.} (d_i \\cdot q_i ) + }{ + \\sqrt{\\sum_{i = 0}^{dim.} (d_i^2)} \\cdot \\sqrt{\\sum_{i = 0}^{dim.} (q_i^2}) + } + `} + +
+
- - -

- Modello classico che ordina i documenti in base alla loro probabilità di rilevanza. -

-

- Da finire! -

-
-
+ +

+ Modello classico che ordina i documenti {`d`} in base alla probabilità che siano rilevanti {`R`} per la query {`q`}: +

+ {`sim_{prob} = \\frac{P(R\\ |\\ d, q)}{P(\\overline{R}\\ |\\ d, q)}`} +

+ Si dimostra che è possibile capire quanto la presenza di un dato token {`k_i`} in un documento ne contribuisca alla rilevanza: +

+ {` + c_i = + \\log \\frac{P(k_i\\ |\\ R, \\vec{q})}{1 - P(k_i\\ |\\ R, \\vec{q})} + + + \\log \\frac{1 - P(k_i\\ |\\ \\overline{R}, \\vec{q})}{P(k_i\\ |\\ \\overline{R}, \\vec{q})} + `} +

+ Non ci ho capito gran che onestamente. Help. +

+
+ +

+ Variante del modello probabilistico che ordina i documenti in base a un punteggio ad essi assegnato. +

+

+ L' deriva dal prodotto di tre fattori: +

+ {`RSV = x \\cdot y \\cdot z`} + + Fattore {`x`}}> +

+ Deriva dal peso dei termini della query presenti nel documento: +

+ {`x = \\sum_{t \\in q} ( \\log ( idf ) )`} +
+ Fattore {`y`}}> +

+ Deriva dal peso , dalla lunghezza media dei documenti {`L_{avg}`}, la lunghezza del documento specifico {`L_d`} e da due parametri di configurazione {`k_1`} e {`b`}: +

+ {`y = \\frac{(k_1 + 1) \\cdot tf_{td}}{k_1 \\cdot \\left( 1 - b + \\left( b \\cdot \\frac{L_d}{L_{avg}} \\right) \\right) + tf_{td}}`} +
+ Fattore {`z`}}> +

+ Deriva dal peso dei termini della query e da un parametro di configurazione {`k_3`}: +

+ {`z = \\frac{(k_3 + 1) \\cdot tf_{tq}}{k_3 + tf_{tq}}`} +
+
+
) }