mirror of
https://github.com/Steffo99/unisteffo.git
synced 2024-11-22 16:04:21 +00:00
✨ Finally complete modeling
This commit is contained in:
parent
7c099f469f
commit
b5307d4370
3 changed files with 121 additions and 62 deletions
|
@ -1,3 +1,3 @@
|
|||
.titlesplit {
|
||||
margin-top: 80px;
|
||||
margin-top: 32px;
|
||||
}
|
||||
|
|
12
src/routes/Gestinfo/abbr/RSV.js
Normal file
12
src/routes/Gestinfo/abbr/RSV.js
Normal file
|
@ -0,0 +1,12 @@
|
|||
import React from "react";
|
||||
import {Help} from "bluelib/lib/components";
|
||||
import PropTypes from "prop-types";
|
||||
|
||||
|
||||
export default function RSV() {
|
||||
return (
|
||||
<Help text={"Retrieval Status Value, il punteggio assegnato ai documenti dal modello Okapi BM25"}>RSV</Help>
|
||||
)
|
||||
}
|
||||
|
||||
RSV.propTypes = {}
|
|
@ -18,6 +18,7 @@ import Todo from "../../components/Todo";
|
|||
import IDF from "./abbr/IDF";
|
||||
import TF from "./abbr/TF";
|
||||
import TFIDF from "./abbr/TFIDF";
|
||||
import RSV from "./abbr/RSV";
|
||||
|
||||
|
||||
export default function Gestinfo() {
|
||||
|
@ -334,34 +335,6 @@ export default function Gestinfo() {
|
|||
<B><LatexMath block={true}>{`sim_{r} (t_1,t_2) = ic \\left( mac_{\\ t_1,t_2} \\right)`}</LatexMath></B>
|
||||
</TitleBox>
|
||||
</TitleBox>
|
||||
<TitleBox title={"Similitudine vettoriale"}>
|
||||
<P>
|
||||
Un modo di misurare la similitudine in cui i token sono rappresentati come <B>dimensioni vettoriali</B>.
|
||||
</P>
|
||||
<TitleBox title={"Coseno di similitudine"}>
|
||||
<P>
|
||||
Si basa sulla <B>norma a 2</B>, e corrisponde a cercare l'angolo centrato all'origine tra i due vettori:
|
||||
</P>
|
||||
<B><LatexMath block={true}>{`sim_{\\cos} (t_1, t_2) = \\frac{\\vec{t_1} \\cdot \\vec{t_2}}{\\| \\vec{t_1} \\| \\cdot \\| \\vec{t_2} \\|}`}</LatexMath></B>
|
||||
<Aside>
|
||||
Solitamente viene usata nei modelli di <IR/> vettoriali, descritti in seguito.
|
||||
</Aside>
|
||||
<Todo>
|
||||
Forse dovrei scrivere la formula "completa".
|
||||
</Todo>
|
||||
</TitleBox>
|
||||
<Aside>
|
||||
<P>
|
||||
Altre misure di similitudine vettoriale sono:
|
||||
</P>
|
||||
<ul>
|
||||
<LI>La <Anchor href={"https://it.wikipedia.org/wiki/Distanza_euclidea"}>distanza euclidea</Anchor></LI>
|
||||
<LI>Il <Anchor href={"https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%93Dice_coefficient"}>Sørensen–Dice coefficient</Anchor></LI>
|
||||
<LI>Il <Anchor href={"https://en.wikipedia.org/wiki/Jaccard_index"}>Jaccard Index</Anchor></LI>
|
||||
<LI>La <Anchor href={"https://it.wikipedia.org/wiki/Distanza_di_Minkowski"}>distanza di Minkowski</Anchor></LI>
|
||||
</ul>
|
||||
</Aside>
|
||||
</TitleBox>
|
||||
</Split>
|
||||
<TitleSplit title={"Indici"}>
|
||||
<TitleBox title={"Cosa sono?"}>
|
||||
|
@ -617,24 +590,23 @@ export default function Gestinfo() {
|
|||
Modello classico che rappresenta il vocabolario come uno <B>spazio vettoriale</B>, in cui ogni dimensione rappresenta un token.
|
||||
</P>
|
||||
<P>
|
||||
Ogni documento viene rappresentato come un <B>vettore</B>, i cui valori sono <B>pesi</B> assegnati in base a quanto il token è signficativo all'interno del documento.
|
||||
Ogni documento viene rappresentato come un <B>vettore <LatexMath>{`d`}</LatexMath></B>, i cui valori sono <B>pesi <LatexMath>{`w`}</LatexMath></B> assegnati in base a quanto il token è signficativo all'interno del documento.
|
||||
</P>
|
||||
<Aside>
|
||||
Il metodo più comunemente usato per assegnare i pesi è il <TFIDF/>, descritto successivamente.
|
||||
</Aside>
|
||||
<P>
|
||||
Le query vengono anch'esse trasformate in vettori, e le rilevanze vengono ottenute dalla <B>similitudine vettoriale</B> tra i vettore query e i vettori documenti.
|
||||
</P>
|
||||
<Aside>
|
||||
La matrice della collezione è estremamente sparsa: viene implementata <B>per colonne</B> attraverso un <B>inverted index</B>.
|
||||
La matrice della collezione <LatexMath>{`\\mathbf{D}`}</LatexMath> è estremamente sparsa: viene implementata <B>per colonne</B> attraverso un <B>inverted index</B>.
|
||||
</Aside>
|
||||
</TitleBox>
|
||||
<P>
|
||||
Le query vengono anch'esse trasformate in <B>vettori <LatexMath>{`q`}</LatexMath></B>, e le rilevanze vengono ottenute dalla <B>similitudine vettoriale</B> tra i vettore query e i vettori documenti.
|
||||
</P>
|
||||
<Split>
|
||||
<TitleBox title={<span>Peso <TFIDF/></span>}>
|
||||
<P>
|
||||
Un metodo di assegnamento peso che si basa sul <B>prodotto</B> dei fattori <B><TF/></B> e <B><IDF/></B>:
|
||||
</P>
|
||||
<B><LatexMath block={true}>{`w = tf_{norm} \\cdot idf_{log}`}</LatexMath></B>
|
||||
<Split>
|
||||
<TitleBox title={<span><TF/>: Term frequency</span>}>
|
||||
<P>
|
||||
Misura quanto un token è <B>frequente</B> nel <B>singolo documento</B>:
|
||||
|
@ -655,19 +627,94 @@ export default function Gestinfo() {
|
|||
</P>
|
||||
<B><LatexMath block={true}>{`idf_{log} = \\log(idf)`}</LatexMath></B>
|
||||
</TitleBox>
|
||||
</TitleBox>
|
||||
<TitleBox title={"Similitudine vettoriale"}>
|
||||
<P>
|
||||
Un modo di misurare la similitudine tra <B>insiemi di token</B> rappresentati come <B>dimensioni vettoriali</B>.
|
||||
</P>
|
||||
<TitleBox title={"Coseno di similitudine"}>
|
||||
<P>
|
||||
Si basa sulla <B>norma a 2</B>, e corrisponde a cercare l'angolo centrato all'origine tra i due vettori:
|
||||
</P>
|
||||
<B><LatexMath block={true}>{`
|
||||
sim_{\\cos} (d, q) =
|
||||
\\frac{
|
||||
\\vec{d} \\cdot \\vec{q}
|
||||
}{
|
||||
\\| \\vec{d} \\|_2 \\cdot \\| \\vec{q} \\|_2
|
||||
} =
|
||||
\\frac{
|
||||
\\sum_{i = 0}^{dim.} (d_i \\cdot q_i )
|
||||
}{
|
||||
\\sqrt{\\sum_{i = 0}^{dim.} (d_i^2)} \\cdot \\sqrt{\\sum_{i = 0}^{dim.} (q_i^2})
|
||||
}
|
||||
`}</LatexMath></B>
|
||||
<Aside>
|
||||
Solitamente viene usata nei modelli di <IR/> vettoriali, descritti in seguito.
|
||||
</Aside>
|
||||
</TitleBox>
|
||||
<Aside>
|
||||
<P>
|
||||
Altre misure comuni di similitudine vettoriale sono:
|
||||
</P>
|
||||
<ul>
|
||||
<LI>La <Anchor href={"https://it.wikipedia.org/wiki/Distanza_euclidea"}>distanza euclidea</Anchor></LI>
|
||||
<LI>Il <Anchor href={"https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%93Dice_coefficient"}>Sørensen–Dice coefficient</Anchor></LI>
|
||||
<LI>Il <Anchor href={"https://en.wikipedia.org/wiki/Jaccard_index"}>Jaccard Index</Anchor></LI>
|
||||
<LI>La <Anchor href={"https://it.wikipedia.org/wiki/Distanza_di_Minkowski"}>distanza di Minkowski</Anchor></LI>
|
||||
</ul>
|
||||
</Aside>
|
||||
</TitleBox>
|
||||
</Split>
|
||||
</TitleBox>
|
||||
</Split>
|
||||
<Split>
|
||||
<TitleBox title={"Modello probabilistico"}>
|
||||
<P>
|
||||
Modello classico che ordina i documenti in base alla loro <B>probabilità di rilevanza</B>.
|
||||
Modello classico che ordina i documenti <LatexMath>{`d`}</LatexMath> in base alla <B>probabilità</B> che siano <B>rilevanti <LatexMath>{`R`}</LatexMath></B> per la query <LatexMath>{`q`}</LatexMath>:
|
||||
</P>
|
||||
<B><LatexMath block={true}>{`sim_{prob} = \\frac{P(R\\ |\\ d, q)}{P(\\overline{R}\\ |\\ d, q)}`}</LatexMath></B>
|
||||
<P>
|
||||
<Todo>Da finire!</Todo>
|
||||
<Todo>Si dimostra che</Todo> è possibile capire quanto la presenza di un dato token <LatexMath>{`k_i`}</LatexMath> in un documento ne <B>contribuisca alla rilevanza</B>:
|
||||
</P>
|
||||
<B><LatexMath block={true}>{`
|
||||
c_i =
|
||||
\\log \\frac{P(k_i\\ |\\ R, \\vec{q})}{1 - P(k_i\\ |\\ R, \\vec{q})}
|
||||
+
|
||||
\\log \\frac{1 - P(k_i\\ |\\ \\overline{R}, \\vec{q})}{P(k_i\\ |\\ \\overline{R}, \\vec{q})}
|
||||
`}</LatexMath></B>
|
||||
<P>
|
||||
<Todo>Non ci ho capito gran che onestamente. Help.</Todo>
|
||||
</P>
|
||||
</TitleBox>
|
||||
<TitleBox title={"Modello Okapi BM25"}>
|
||||
<P>
|
||||
Variante del modello probabilistico che ordina i documenti in base a un <B>punteggio <RSV/></B> ad essi assegnato.
|
||||
</P>
|
||||
<P>
|
||||
L'<RSV/> deriva dal prodotto di tre fattori:
|
||||
</P>
|
||||
<B><LatexMath block={true}>{`RSV = x \\cdot y \\cdot z`}</LatexMath></B>
|
||||
<Split>
|
||||
<TitleBox title={<span>Fattore <LatexMath>{`x`}</LatexMath></span>}>
|
||||
<P>
|
||||
Deriva dal <B>peso <IDF/></B> dei termini della query presenti nel documento:
|
||||
</P>
|
||||
<B><LatexMath block={true}>{`x = \\sum_{t \\in q} ( \\log ( idf ) )`}</LatexMath></B>
|
||||
</TitleBox>
|
||||
<TitleBox title={<span>Fattore <LatexMath>{`y`}</LatexMath></span>}>
|
||||
<P>
|
||||
Deriva dal <B>peso <TF/></B>, dalla lunghezza media dei documenti <LatexMath>{`L_{avg}`}</LatexMath>, la lunghezza del documento specifico <LatexMath>{`L_d`}</LatexMath> e da due parametri di configurazione <LatexMath>{`k_1`}</LatexMath> e <LatexMath>{`b`}</LatexMath>:
|
||||
</P>
|
||||
<B><LatexMath block={true}>{`y = \\frac{(k_1 + 1) \\cdot tf_{td}}{k_1 \\cdot \\left( 1 - b + \\left( b \\cdot \\frac{L_d}{L_{avg}} \\right) \\right) + tf_{td}}`}</LatexMath></B>
|
||||
</TitleBox>
|
||||
<TitleBox title={<span>Fattore <LatexMath>{`z`}</LatexMath></span>}>
|
||||
<P>
|
||||
Deriva dal <B>peso <TF/> dei termini della query</B> e da un parametro di configurazione <LatexMath>{`k_3`}</LatexMath>:
|
||||
</P>
|
||||
<B><LatexMath block={true}>{`z = \\frac{(k_3 + 1) \\cdot tf_{tq}}{k_3 + tf_{tq}}`}</LatexMath></B>
|
||||
</TitleBox>
|
||||
</Split>
|
||||
</TitleBox>
|
||||
</Page>
|
||||
)
|
||||
}
|
||||
|
|
Loading…
Reference in a new issue