1
Fork 0
mirror of https://github.com/Steffo99/unisteffo.git synced 2024-11-25 09:24:21 +00:00

✏ Migliora (?) notazione formula tf-idf

This commit is contained in:
Steffo 2021-02-24 16:23:55 +01:00
parent a08b3f0630
commit 6ab23d58fc
Signed by: steffo
GPG key ID: 6965406171929D01

View file

@ -986,7 +986,7 @@ export default function Gestinfo() {
Modello classico che rappresenta il vocabolario come uno <B>spazio vettoriale</B>, in cui ogni dimensione rappresenta un token. Modello classico che rappresenta il vocabolario come uno <B>spazio vettoriale</B>, in cui ogni dimensione rappresenta un token.
</P> </P>
<P> <P>
Ogni documento viene rappresentato come un <B>vettore <LatexMath>{`d`}</LatexMath></B>, i cui valori sono <B>pesi <LatexMath>{`w`}</LatexMath></B> assegnati in base a quanto il token è signficativo all'interno del documento. Ogni documento viene rappresentato come un <B>vettore <LatexMath>{`d`}</LatexMath></B>, i cui valori sono <B>pesi <LatexMath>{`d_i`}</LatexMath></B> assegnati in base a quanto il token è signficativo all'interno del documento.
</P> </P>
<Aside> <Aside>
Il metodo più comunemente usato per assegnare i pesi è il <TFIDF/>, descritto successivamente. Il metodo più comunemente usato per assegnare i pesi è il <TFIDF/>, descritto successivamente.
@ -1002,26 +1002,26 @@ export default function Gestinfo() {
<P> <P>
Un metodo di assegnamento peso che si basa sul <B>prodotto</B> dei fattori <B><TF/></B> e <B><IDF/></B>: Un metodo di assegnamento peso che si basa sul <B>prodotto</B> dei fattori <B><TF/></B> e <B><IDF/></B>:
</P> </P>
<B><LatexMath block={true}>{`w = tf_{norm} \\cdot idf_{log}`}</LatexMath></B> <B><LatexMath block={true}>{`d_i = tf_{norm}(i) \\cdot idf_{log}(i)`}</LatexMath></B>
<TitleBox title={<span><TF/>: Term frequency</span>}> <TitleBox title={<span><TF/>: Term frequency</span>}>
<P> <P>
Misura quanto un token è <B>frequente</B> nel <B>singolo documento</B>: Misura quanto un token è <B>frequente</B> nel <B>singolo documento</B>:
</P> </P>
<B><LatexMath block={true}>{`tf = \\frac{occorrenze}{totale\\ token}`}</LatexMath></B> <B><LatexMath block={true}>{`tf(i) = \\frac{occorrenze}{totale\\ token}`}</LatexMath></B>
<P> <P>
Nella formula principale, viene <B>normalizzato</B> dividendolo per il <TF/> più alto del documento, limitandolo così a valori tra 0 e 1: Nella formula principale, viene <B>normalizzato</B> dividendolo per il <TF/> più alto del documento, limitandolo così a valori tra 0 e 1:
</P> </P>
<B><LatexMath block={true}>{`tf_{norm} = \\frac{tf}{\\max\\ tf_d}`}</LatexMath></B> <B><LatexMath block={true}>{`tf_{norm}(i) = \\frac{tf(i)}{\\max_{j:\\ docs}\\ tf(j)}`}</LatexMath></B>
</TitleBox> </TitleBox>
<TitleBox title={<span><IDF/>: Inverse document freq.</span>}> <TitleBox title={<span><IDF/>: Inverse document freq.</span>}>
<P> <P>
Misura quanto un token è <B>raro</B> nella <B>collezione di documenti</B>: Misura quanto un token è <B>raro</B> nella <B>collezione di documenti</B>:
</P> </P>
<B><LatexMath block={true}>{`idf = \\frac{totale\\ documenti}{documenti\\ con\\ occ.}`}</LatexMath></B> <B><LatexMath block={true}>{`idf(i) = \\frac{totale\\ documenti}{documenti\\ con\\ occ.}`}</LatexMath></B>
<P> <P>
Nella formula principale, viene <B>logaritmizzato</B>, al fine di ridurre significativamente il suo impatto: Nella formula principale, viene <B>logaritmizzato</B>, al fine di ridurre significativamente il suo impatto:
</P> </P>
<B><LatexMath block={true}>{`idf_{log} = \\log(idf)`}</LatexMath></B> <B><LatexMath block={true}>{`idf_{log}(i) = \\log(idf(i))`}</LatexMath></B>
</TitleBox> </TitleBox>
</TitleBox> </TitleBox>
<TitleBox title={"Similitudine vettoriale"}> <TitleBox title={"Similitudine vettoriale"}>