1
Fork 0
mirror of https://github.com/Steffo99/unisteffo.git synced 2025-02-16 15:53:58 +00:00

Create 02_DocumentProcessing.js

This commit is contained in:
Steffo 2020-11-15 16:19:14 +01:00
parent 41e4e4e091
commit bf41533d55
3 changed files with 87 additions and 1 deletions

View file

@ -46,7 +46,7 @@ export default function (props) {
Definisce <b>parole chiave</b> da cercare all'interno dei documenti.
</p>
<p>
In essi, è possibile cercare <b>molteplici</b> parole chiave, <b>concatenarle</b> per formare una <b>frase</b> oppure cercare parole a una data <b>prossimità</b> l'una dall'altra.
In esse, è possibile cercare <b>molteplici</b> parole chiave, <b>concatenarle</b> per formare una <b>frase</b> oppure cercare parole a una data <b>prossimità</b> l'una dall'altra.
</p>
<p>
Spesso processa il linguaggio naturale per trasformarne le parole specifiche in parole chiave più generiche.
@ -66,6 +66,8 @@ export default function (props) {
Permettono dunque la ricerca di <b>prefissi</b>, <b>suffissi</b>, <b>sottostringhe</b> e <b>intervalli</b>.
</p>
</Panel>
</Section>
<Section>
<Panel title={"Boolean query"}>
<Example>
<Link href={"https://www.google.it/"}>Google</Link>, <Link href={"https://duckduckgo.com/"}>DuckDuckGo</Link>, <Link href={"https://www.ecosia.org/"}>Ecosia</Link> usano tutti un linguaggio di query keyword-based booleano.

View file

@ -0,0 +1,82 @@
import {Fragment} from "preact";
import {Section, Panel, ILatex, BLatex, PLatex} from "bluelib";
import ToBeContinued from "../../components/ToBeContinued";
const r = String.raw;
export default function () {
return (
<Fragment>
<Section title={"Document processing"}>
<Panel title={"Cos'è?"}>
<p>
Una <b>procedura</b> che ottimizza un documento per la ricerca.
</p>
</Panel>
</Section>
<Section>
<Panel title={"1. Analisi lessicale"}>
<p>
Passo che trasforma il documento in una <b>lista</b> (<i>bag of words</i>) di <b>parole</b> (<i>token</i>).
</p>
<p>
Deve decidere come considerare i <b>simboli tipografici</b>, il <b>case</b> delle lettere e le <b>cifre</b>.
</p>
</Panel>
<Panel title={"2. Eliminazione delle stopwords"}>
<p>
Passo che <b>elimina</b> dalla lista i <b>token inutili</b> ai fini delle ricerche.
</p>
<p>
Esse solitamente sono gli <b>articoli</b> e le <b>preposizioni</b>.
</p>
</Panel>
<Panel title={"3. Stemming dei token"}>
<p>
Passo che <b>riduce alla radice</b> tutti i token della lista.
</p>
<p>
Converte i <b>plurali in singolari</b>, <b>passati ai presenti</b>, e così via.
</p>
</Panel>
<Panel title={"4. Selezione degli index term"}>
<p>
Passo che <b>seleziona i termini più importanti</b> della lista.
</p>
<p>
Generalmente sfrutta dei <i>parser</i> o dei <i>tagger</i>.
</p>
<aside>
<u>Parser</u>: impreciso ma molto dettagliato, effettua l'analisi grammaticale, logica e del periodo.
</aside>
<aside>
<u>Tagger</u>: preciso ma poco dettagliato, effettua solo l'analisi logica.
</aside>
</Panel>
<Panel title={"5. Categorizzazione"}>
<p>
Passo che <b>classifica</b> il documento in una o più <b>categorie</b> del <i>thesaurus</i>.
</p>
<aside>
<u>Thesaurus</u>: gerarchia di categorie, può essere creata <b>manualmente</b> o generata <b>automaticamente</b>.
</aside>
</Panel>
</Section>
<Section title={"Similitudine tra parole"}>
<ToBeContinued/>
<Panel title={"Cos'è?"}>
<p>
Misura di quanto due parole abbiano <b>caratteristiche in comune</b>.
</p>
<p>
È simile alla <i>sinonimia tra parole</i>
</p>
<p>
È diversa dalla <i>correlazione tra parole</i>, che misura quanto due parole vengono
</p>
</Panel>
</Section>
</Fragment>
)
}

View file

@ -1,5 +1,6 @@
import Intro from "./00_Intro";
import InformationRetrieval from "./01_InformationRetrival";
import DocumentProcessing from "./02_DocumentProcessing";
export default function () {
@ -8,6 +9,7 @@ export default function () {
<h1>Gestione dell'informazione</h1>
<Intro/>
<InformationRetrieval/>
<DocumentProcessing/>
</div>
)
}