1
Fork 0
mirror of https://github.com/Steffo99/unimore-bda-5.git synced 2025-03-13 12:17:36 +00:00
bda-5-steffo/README.md

47 lines
3.2 KiB
Markdown
Raw Normal View History

\[ Stefano Pigozzi | Grafo "creato da zero" | Tema Graph Analytics | Big Data Analytics | A.A. 2022/2023 | Unimore \]
2023-02-16 17:41:57 +01:00
> ### Graph analytics
>
> Obiettivo dellattività è analizzare il data graph di una Sandbox di Neo4j (esclusa quella vista a lezione) attraverso la definizione di almeno due research question che possano essere risolte attraverso le tecniche di graph analytics viste a lezione.
>
2023-02-16 17:41:57 +01:00
> Lattività consisterà nello studio delle research question attraverso la progettazione, limplementazione e lesecuzione di almeno 4 tecniche distinte e una loro interpretazione nel contesto della Sandbox scelta.
>
2023-02-16 17:41:57 +01:00
> Alcune precisazioni riguardo lattività richiesta:
>
2023-02-16 17:41:57 +01:00
> * Le Sandbox di Neo4J che possono essere usate a questo scopo sono quelle che hanno installato la Graph Data Science (GDS) Library.
> * Lattività di progettazione consisterà
> 1. nella definizione delle proiezioni che saranno memorizzate in named graph, Almeno una proiezione dovrà essere una Cypher Projection;
> 2. nella scelta degli algoritmi. In questa fase, si farà uso delle funzioni di memory estimation.
>
2023-02-16 17:41:57 +01:00
> * Le tecniche potranno essere implementate sia usando gli algoritmi di GDS messi a disposizione da Neo4J sia attraverso lesecuzione di query Cypher. Le tecniche implementate non dovranno essere già presenti nella Sandbox.
>
2023-02-16 17:41:57 +01:00
> Il risultato dellattività sarà un documento contenente
>
2023-02-16 17:41:57 +01:00
> * una breve descrizione della Sandbox scelta, dello schema del grafo analizzato e delle principali caratteristiche;
> * una descrizione delle research question e della soluzione proposta inclusa la progettazione delle tecniche proposte che dovrà essere adeguatamente giustificata;
> * il codice delle query eseguite sulla Sandbox, i risultati ottenuti e linterpretazione dei risultati ottenuti che rappresenteranno le risposte alle research question.
>
2023-02-16 17:41:57 +01:00
> Le attività verranno valutate sulla base dei seguenti criteri:
>
2023-02-16 17:41:57 +01:00
> * storytelling: la Sandbox è ben descritta? le research question proposte sono adeguate alle caratteristiche del grafo analizzato?
> * progettazione della graph analytics e analisi dei risultati:
> * Le proiezioni e gli algoritmi individuati sono adeguati in termini di correttezza e completezza a rispondere alle research question?
> * Linterpretazione dei risultati risponde alle research quesion?
2023-02-16 17:41:57 +01:00
> * complessità dellimplementazione
>
> #### Corrispondenza
>
> > \[...\] Ho installato la Graph Data Science library sul grafo che ho realizzato per la precedente attività, ed adesso sarei interessato a svolgere l'attività di Graph Analytics su di esso.
> >
> > È un'opzione prevista dalla consegna, oppure non è consentita?
>
> > Si è consentita ma la dimensione del grafo deve essere sufficiente per fare Graph Analytics. 
2023-05-09 01:25:33 +02:00
## Sinossi
Si sono realizzate varie ricerche di Graph Analytics sul database a grafo dell'indice [Crates.io], realizzato per il progetto a tema Neo4J, determinando le crate più importanti all'ecosistema attraverso gli algoritmi di *Degree Centrality*, *Betweenness Centrality*, e *PageRank*, e ricercando cluster di tag per migliorare la classificazione delle crate nell'indice attraverso gli algoritmi di *Louvain*, *Label Propagation*, e *Leiden*.
<!-- Collegamenti -->
[Crates.io]: https://crates.io/