From 4f66018538273fa1aafb2d0be48463bb3b06df7b Mon Sep 17 00:00:00 2001 From: Stefano Pigozzi Date: Wed, 27 Jan 2021 03:39:57 +0100 Subject: [PATCH] =?UTF-8?q?=E2=9D=93=20Idr=20what=20i=20did?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- src/routes/Gestinfo/components/Token.js | 19 ++- .../Gestinfo/components/Token.module.css | 3 +- src/routes/Gestinfo/index.js | 133 ++++++++++++------ 3 files changed, 109 insertions(+), 46 deletions(-) diff --git a/src/routes/Gestinfo/components/Token.js b/src/routes/Gestinfo/components/Token.js index 5cac862..1984f00 100644 --- a/src/routes/Gestinfo/components/Token.js +++ b/src/routes/Gestinfo/components/Token.js @@ -1,14 +1,29 @@ import React from "react"; import PropTypes from "prop-types"; import style from "./Token.module.css"; +import {Bold, Strike, Color} from "bluelib/lib/components"; -export default function Token({children}) { +export default function Token({children, indexTerm, stopword}) { + if(indexTerm) { + return ( + {children} + ) + } + + if(stopword) { + return ( + {children} + ) + } + return ( {children} ) } Token.propTypes = { - children: PropTypes.node + children: PropTypes.node, + indexTerm: PropTypes.bool, + stopword: PropTypes.bool, } diff --git a/src/routes/Gestinfo/components/Token.module.css b/src/routes/Gestinfo/components/Token.module.css index 0d51793..a3ceadc 100644 --- a/src/routes/Gestinfo/components/Token.module.css +++ b/src/routes/Gestinfo/components/Token.module.css @@ -2,4 +2,5 @@ border: 1px currentColor solid; border-radius: 2px; padding: 2px; -} \ No newline at end of file + line-height: 2em; +} diff --git a/src/routes/Gestinfo/index.js b/src/routes/Gestinfo/index.js index f58fce3..fdf5bee 100644 --- a/src/routes/Gestinfo/index.js +++ b/src/routes/Gestinfo/index.js @@ -32,7 +32,7 @@ export default function Gestinfo() {

- +

È il processo di raccolta documenti, elaborazione query e richiamo di più risposte. @@ -101,31 +101,69 @@ export default function Gestinfo() {

Tutte le parole del documento vengono trasformate in token.

-

- Il motore di ricerca decide se considerare come parte dei token i simboli tipografici, la grafia delle lettere, le cifre... -

+

Spesso si decide di distinguere tra gli ononimi attraverso algoritmi di word sense disambiguation, in grado di dedurre il contesto analizzando i significati delle parole circostanti.

- + +

+ Il motore di ricerca decide come trattare i simboli tipografici, la grafia delle lettere, le cifre, modificando l'insieme di token come ritiene necessario. +

+ +
+

Le stopwords, i token ritenuti inutili ai fini delle ricerche, vengono eliminate dall'insieme di token ottenuto nel passo precedente.

- Stopwords comuni sono gli articoli, le congiunzioni e tutte le parole più frequenti di una lingua. + Stopwords comuni sono gli articoli, le congiunzioni e, in generale, tutte le parole più frequenti di una lingua.

+

Talvolta capita di dover distinguere tra stopwords e nomi propri, soprattutto nell'inglese; per risolvere il problema ci si affida alla disambiguazione degli ononimi effettuata durante l'analisi lessicale.

- + + +

Ai token del passo precedente vengono sostituite le radici (stems) oppure le forme base (lemmas) delle parole.

@@ -161,47 +199,56 @@ export default function Gestinfo() { Generalmente sono implementati tramite lookup tables, ma i motori di ricerca più avanzati possono avere implementazioni anche più complesse.
-
- - -

- I simboli rimasti nei token vengono processati, sostituendoli con caratteri diversi oppure sdoppiando i token in diverse forme. -

- -

- + Il motore di ricerca stabilisce la relativa importanza di ciascun token dell'insieme, in modo da determinare più facilmente in seguito la rilevanza del documento in cui si trovano. +

+

+ I termini più importanti di un documento sono detti index term. +

+ +

+ Essi solitamente sono individuati da parser e scanner, che analizzano la semantica di ciascun token.

- + Opzionalmente, l'intero documento può essere inserito in una o più categorie di un thesaurus, una gerarchia predeterminata di categorie di documenti.

+ +