From 4f66018538273fa1aafb2d0be48463bb3b06df7b Mon Sep 17 00:00:00 2001
From: Stefano Pigozzi
+ )
+ }
+
return (
{children}
)
}
Token.propTypes = {
- children: PropTypes.node
+ children: PropTypes.node,
+ indexTerm: PropTypes.bool,
+ stopword: PropTypes.bool,
}
diff --git a/src/routes/Gestinfo/components/Token.module.css b/src/routes/Gestinfo/components/Token.module.css
index 0d51793..a3ceadc 100644
--- a/src/routes/Gestinfo/components/Token.module.css
+++ b/src/routes/Gestinfo/components/Token.module.css
@@ -2,4 +2,5 @@
border: 1px currentColor solid;
border-radius: 2px;
padding: 2px;
-}
\ No newline at end of file
+ line-height: 2em;
+}
diff --git a/src/routes/Gestinfo/index.js b/src/routes/Gestinfo/index.js
index f58fce3..fdf5bee 100644
--- a/src/routes/Gestinfo/index.js
+++ b/src/routes/Gestinfo/index.js
@@ -32,7 +32,7 @@ export default function Gestinfo() {
È il processo di raccolta documenti, elaborazione query e richiamo di più risposte. @@ -101,31 +101,69 @@ export default function Gestinfo() {
Tutte le parole del documento vengono trasformate in token.
-
- Il motore di ricerca decide se considerare come parte dei token i simboli tipografici, la
Spesso si decide di distinguere tra gli
+ Il motore di ricerca decide come trattare i simboli tipografici, la
Le stopwords, i token ritenuti inutili ai fini delle ricerche, vengono eliminate dall'insieme di token ottenuto nel passo precedente.
- Stopwords comuni sono gli
Talvolta capita di dover distinguere tra stopwords e nomi propri, soprattutto nell'inglese; per risolvere il problema ci si affida alla disambiguazione degli ononimi effettuata durante l'analisi lessicale.
Ai token del passo precedente vengono sostituite le radici (stems) oppure le forme base (lemmas) delle parole.
@@ -161,47 +199,56 @@ export default function Gestinfo() { Generalmente sono implementati tramite- I simboli rimasti nei token vengono processati, sostituendoli con caratteri diversi oppure sdoppiando i token in diverse forme. -
-- Alcune delle operazioni che possono essere effettuate sono: -
-- + Il motore di ricerca stabilisce la relativa importanza di ciascun token dell'insieme, in modo da determinare più facilmente in seguito la rilevanza del documento in cui si trovano. +
++ I termini più importanti di un documento sono detti index term. +
++ Essi solitamente sono individuati da parser e scanner, che analizzano la semantica di ciascun token.
- + Opzionalmente, l'intero documento può essere inserito in una o più categorie di un thesaurus, una gerarchia predeterminata di categorie di documenti.
+