README.md |
[ Stefano Pigozzi | Tema Graph Analytics | Big Data Analytics | A.A. 2022/2023 | Unimore ]
WIP
Graph analytics
Obiettivo dell’attività è analizzare il data graph di una Sandbox di Neo4j (esclusa quella vista a lezione) attraverso la definizione di almeno due research question che possano essere risolte attraverso le tecniche di graph analytics viste a lezione.
L’attività consisterà nello studio delle research question attraverso la progettazione, l’implementazione e l’esecuzione di almeno 4 tecniche distinte e una loro interpretazione nel contesto della Sandbox scelta.
Alcune precisazioni riguardo l’attività richiesta:
Le Sandbox di Neo4J che possono essere usate a questo scopo sono quelle che hanno installato la Graph Data Science (GDS) Library.
L’attività di progettazione consisterà
- nella definizione delle proiezioni che saranno memorizzate in named graph, Almeno una proiezione dovrà essere una Cypher Projection;
- nella scelta degli algoritmi. In questa fase, si farà uso delle funzioni di memory estimation.
Le tecniche potranno essere implementate sia usando gli algoritmi di GDS messi a disposizione da Neo4J sia attraverso l’esecuzione di query Cypher. Le tecniche implementate non dovranno essere già presenti nella Sandbox.
Il risultato dell’attività sarà un documento contenente
- una breve descrizione della Sandbox scelta, dello schema del grafo analizzato e delle principali caratteristiche;
- una descrizione delle research question e della soluzione proposta inclusa la progettazione delle tecniche proposte che dovrà essere adeguatamente giustificata;
- il codice delle query eseguite sulla Sandbox, i risultati ottenuti e l’interpretazione dei risultati ottenuti che rappresenteranno le risposte alle research question.
Le attività verranno valutate sulla base dei seguenti criteri:
- storytelling: la Sandbox è ben descritta? le research question proposte sono adeguate alle caratteristiche del grafo analizzato?
- progettazione della graph analytics e analisi dei risultati:
- Le proiezioni e gli algoritmi individuati sono adeguati in termini di correttezza e completezza a rispondere alle research question?
- L’interpretazione dei risultati risponde alle research quesion?
- complessità dell’implementazione