Create 02_DocumentProcessing.js

2025-02-16 15:53:58 +00:00 · 2020-11-15 16:19:14 +01:00 · 2020-11-15 16:19:14 +01:00 · bf41533d55
commit bf41533d55
parent 41e4e4e091
3 changed files with 87 additions and 1 deletions
--- a/src/routes/GestioneDellInformazione/01_InformationRetrival.js
+++ b/src/routes/GestioneDellInformazione/01_InformationRetrival.js
@ -46,7 +46,7 @@ export default function (props) {
                        Definisce <b>parole chiave</b> da cercare all'interno dei documenti.
                    </p>
                    <p>
-                        In essi, è possibile cercare <b>molteplici</b> parole chiave, <b>concatenarle</b> per formare una <b>frase</b> oppure cercare parole a una data <b>prossimità</b> l'una dall'altra.
+                        In esse, è possibile cercare <b>molteplici</b> parole chiave, <b>concatenarle</b> per formare una <b>frase</b> oppure cercare parole a una data <b>prossimità</b> l'una dall'altra.
                    </p>
                    <p>
                        Spesso processa il linguaggio naturale per trasformarne le parole specifiche in parole chiave più generiche.
@ -66,6 +66,8 @@ export default function (props) {
                        Permettono dunque la ricerca di <b>prefissi</b>, <b>suffissi</b>, <b>sottostringhe</b> e <b>intervalli</b>.
                    </p>
                </Panel>
+            </Section>
+            <Section>
                <Panel title={"Boolean query"}>
                    <Example>
                        <Link href={"https://www.google.it/"}>Google</Link>, <Link href={"https://duckduckgo.com/"}>DuckDuckGo</Link>, <Link href={"https://www.ecosia.org/"}>Ecosia</Link> usano tutti un linguaggio di query keyword-based booleano.
--- a/src/routes/GestioneDellInformazione/02_DocumentProcessing.js
+++ b/src/routes/GestioneDellInformazione/02_DocumentProcessing.js
@ -0,0 +1,82 @@
+import {Fragment} from "preact";
+import {Section, Panel, ILatex, BLatex, PLatex} from "bluelib";
+import ToBeContinued from "../../components/ToBeContinued";
+
+const r = String.raw;
+
+
+export default function () {
+    return (
+        <Fragment>
+            <Section title={"Document processing"}>
+                <Panel title={"Cos'è?"}>
+                    <p>
+                        Una <b>procedura</b> che ottimizza un documento per la ricerca.
+                    </p>
+                </Panel>
+            </Section>
+            <Section>
+                <Panel title={"1. Analisi lessicale"}>
+                    <p>
+                        Passo che trasforma il documento in una <b>lista</b> (<i>bag of words</i>) di <b>parole</b> (<i>token</i>).
+                    </p>
+                    <p>
+                        Deve decidere come considerare i <b>simboli tipografici</b>, il <b>case</b> delle lettere e le <b>cifre</b>.
+                    </p>
+                </Panel>
+                <Panel title={"2. Eliminazione delle stopwords"}>
+                    <p>
+                        Passo che <b>elimina</b> dalla lista i <b>token inutili</b> ai fini delle ricerche.
+                    </p>
+                    <p>
+                        Esse solitamente sono gli <b>articoli</b> e le <b>preposizioni</b>.
+                    </p>
+                </Panel>
+                <Panel title={"3. Stemming dei token"}>
+                    <p>
+                        Passo che <b>riduce alla radice</b> tutti i token della lista.
+                    </p>
+                    <p>
+                        Converte i <b>plurali in singolari</b>, <b>passati ai presenti</b>, e così via.
+                    </p>
+                </Panel>
+                <Panel title={"4. Selezione degli index term"}>
+                    <p>
+                        Passo che <b>seleziona i termini più importanti</b> della lista.
+                    </p>
+                    <p>
+                        Generalmente sfrutta dei <i>parser</i> o dei <i>tagger</i>.
+                    </p>
+                    <aside>
+                        <u>Parser</u>: impreciso ma molto dettagliato, effettua l'analisi grammaticale, logica e del periodo.
+                    </aside>
+                    <aside>
+                        <u>Tagger</u>: preciso ma poco dettagliato, effettua solo l'analisi logica.
+                    </aside>
+                </Panel>
+                <Panel title={"5. Categorizzazione"}>
+                    <p>
+                        Passo che <b>classifica</b> il documento in una o più <b>categorie</b> del <i>thesaurus</i>.
+                    </p>
+                    <aside>
+                        <u>Thesaurus</u>: gerarchia di categorie, può essere creata <b>manualmente</b> o generata <b>automaticamente</b>.
+                    </aside>
+                </Panel>
+            </Section>
+            <Section title={"Similitudine tra parole"}>
+                <ToBeContinued/>
+                <Panel title={"Cos'è?"}>
+                    <p>
+                        Misura di quanto due parole abbiano <b>caratteristiche in comune</b>.
+                    </p>
+                    <p>
+                        È simile alla <i>sinonimia tra parole</i>
+                    </p>
+                    <p>
+                        È diversa dalla <i>correlazione tra parole</i>, che misura quanto due parole vengono
+                    </p>
+                </Panel>
+            </Section>
+        </Fragment>
+    )
+}
--- a/src/routes/GestioneDellInformazione/index.js
+++ b/src/routes/GestioneDellInformazione/index.js
@ -1,5 +1,6 @@
 import Intro from "./00_Intro";
 import InformationRetrieval from "./01_InformationRetrival";
+import DocumentProcessing from "./02_DocumentProcessing";


 export default function () {
@ -8,6 +9,7 @@ export default function () {
            <h1>Gestione dell'informazione</h1>
            <Intro/>
            <InformationRetrieval/>
+            <DocumentProcessing/>
        </div>
    )
 }