mirror of
https://github.com/Steffo99/unisteffo.git
synced 2025-02-16 15:53:58 +00:00
Create 02_DocumentProcessing.js
This commit is contained in:
parent
41e4e4e091
commit
bf41533d55
3 changed files with 87 additions and 1 deletions
|
@ -46,7 +46,7 @@ export default function (props) {
|
|||
Definisce <b>parole chiave</b> da cercare all'interno dei documenti.
|
||||
</p>
|
||||
<p>
|
||||
In essi, è possibile cercare <b>molteplici</b> parole chiave, <b>concatenarle</b> per formare una <b>frase</b> oppure cercare parole a una data <b>prossimità</b> l'una dall'altra.
|
||||
In esse, è possibile cercare <b>molteplici</b> parole chiave, <b>concatenarle</b> per formare una <b>frase</b> oppure cercare parole a una data <b>prossimità</b> l'una dall'altra.
|
||||
</p>
|
||||
<p>
|
||||
Spesso processa il linguaggio naturale per trasformarne le parole specifiche in parole chiave più generiche.
|
||||
|
@ -66,6 +66,8 @@ export default function (props) {
|
|||
Permettono dunque la ricerca di <b>prefissi</b>, <b>suffissi</b>, <b>sottostringhe</b> e <b>intervalli</b>.
|
||||
</p>
|
||||
</Panel>
|
||||
</Section>
|
||||
<Section>
|
||||
<Panel title={"Boolean query"}>
|
||||
<Example>
|
||||
<Link href={"https://www.google.it/"}>Google</Link>, <Link href={"https://duckduckgo.com/"}>DuckDuckGo</Link>, <Link href={"https://www.ecosia.org/"}>Ecosia</Link> usano tutti un linguaggio di query keyword-based booleano.
|
||||
|
|
82
src/routes/GestioneDellInformazione/02_DocumentProcessing.js
Normal file
82
src/routes/GestioneDellInformazione/02_DocumentProcessing.js
Normal file
|
@ -0,0 +1,82 @@
|
|||
import {Fragment} from "preact";
|
||||
import {Section, Panel, ILatex, BLatex, PLatex} from "bluelib";
|
||||
import ToBeContinued from "../../components/ToBeContinued";
|
||||
|
||||
const r = String.raw;
|
||||
|
||||
|
||||
export default function () {
|
||||
return (
|
||||
<Fragment>
|
||||
<Section title={"Document processing"}>
|
||||
<Panel title={"Cos'è?"}>
|
||||
<p>
|
||||
Una <b>procedura</b> che ottimizza un documento per la ricerca.
|
||||
</p>
|
||||
</Panel>
|
||||
</Section>
|
||||
<Section>
|
||||
<Panel title={"1. Analisi lessicale"}>
|
||||
<p>
|
||||
Passo che trasforma il documento in una <b>lista</b> (<i>bag of words</i>) di <b>parole</b> (<i>token</i>).
|
||||
</p>
|
||||
<p>
|
||||
Deve decidere come considerare i <b>simboli tipografici</b>, il <b>case</b> delle lettere e le <b>cifre</b>.
|
||||
</p>
|
||||
</Panel>
|
||||
<Panel title={"2. Eliminazione delle stopwords"}>
|
||||
<p>
|
||||
Passo che <b>elimina</b> dalla lista i <b>token inutili</b> ai fini delle ricerche.
|
||||
</p>
|
||||
<p>
|
||||
Esse solitamente sono gli <b>articoli</b> e le <b>preposizioni</b>.
|
||||
</p>
|
||||
</Panel>
|
||||
<Panel title={"3. Stemming dei token"}>
|
||||
<p>
|
||||
Passo che <b>riduce alla radice</b> tutti i token della lista.
|
||||
</p>
|
||||
<p>
|
||||
Converte i <b>plurali in singolari</b>, <b>passati ai presenti</b>, e così via.
|
||||
</p>
|
||||
</Panel>
|
||||
<Panel title={"4. Selezione degli index term"}>
|
||||
<p>
|
||||
Passo che <b>seleziona i termini più importanti</b> della lista.
|
||||
</p>
|
||||
<p>
|
||||
Generalmente sfrutta dei <i>parser</i> o dei <i>tagger</i>.
|
||||
</p>
|
||||
<aside>
|
||||
<u>Parser</u>: impreciso ma molto dettagliato, effettua l'analisi grammaticale, logica e del periodo.
|
||||
</aside>
|
||||
<aside>
|
||||
<u>Tagger</u>: preciso ma poco dettagliato, effettua solo l'analisi logica.
|
||||
</aside>
|
||||
</Panel>
|
||||
<Panel title={"5. Categorizzazione"}>
|
||||
<p>
|
||||
Passo che <b>classifica</b> il documento in una o più <b>categorie</b> del <i>thesaurus</i>.
|
||||
</p>
|
||||
<aside>
|
||||
<u>Thesaurus</u>: gerarchia di categorie, può essere creata <b>manualmente</b> o generata <b>automaticamente</b>.
|
||||
</aside>
|
||||
</Panel>
|
||||
</Section>
|
||||
<Section title={"Similitudine tra parole"}>
|
||||
<ToBeContinued/>
|
||||
<Panel title={"Cos'è?"}>
|
||||
<p>
|
||||
Misura di quanto due parole abbiano <b>caratteristiche in comune</b>.
|
||||
</p>
|
||||
<p>
|
||||
È simile alla <i>sinonimia tra parole</i>
|
||||
</p>
|
||||
<p>
|
||||
È diversa dalla <i>correlazione tra parole</i>, che misura quanto due parole vengono
|
||||
</p>
|
||||
</Panel>
|
||||
</Section>
|
||||
</Fragment>
|
||||
)
|
||||
}
|
|
@ -1,5 +1,6 @@
|
|||
import Intro from "./00_Intro";
|
||||
import InformationRetrieval from "./01_InformationRetrival";
|
||||
import DocumentProcessing from "./02_DocumentProcessing";
|
||||
|
||||
|
||||
export default function () {
|
||||
|
@ -8,6 +9,7 @@ export default function () {
|
|||
<h1>Gestione dell'informazione</h1>
|
||||
<Intro/>
|
||||
<InformationRetrieval/>
|
||||
<DocumentProcessing/>
|
||||
</div>
|
||||
)
|
||||
}
|
||||
|
|
Loading…
Add table
Reference in a new issue