[ Stefano Pigozzi | Tema Data Analytics | Big Data Analytics | A.A. 2022/2023 | Unimore ]

# Data analytics

> ### Data processing e exploratory data analytics su dataset provenienti da più sorgenti
> 
> L’attività da svolgere consiste nel:
>
> 1. Scegliere due o più dataset provenienti da due o più sorgenti.  
>     * Il dataset finale deve essere costituito almeno da due file.
> 2. Usando [pandas](https://pandas.pydata.org/) implementare le operazioni di data processing necessarie (principalmente join e selezioni) per mettere in collegamento i dataset e per preparare i dati al passo successivo
> 3. Usando pacchetti Python quali [pandas](https://pandas.pydata.org/), [scipy](https://scipy.org/), [matplotlib](https://matplotlib.org/) e [seaborn](https://seaborn.pydata.org/) implementare attività di data cleaning, exploratory data analysis estraendo dati statistici e di visualizzazione dei risultati attraverso il quale sia possibile "raccontare qualcosa sui dati" (storytelling), eventualmente partendo da dei quesiti di ricerca.  
>    L'uso dei pacchetti non deve necessariamente essere limitato alle istruzioni viste a lezione. Le documentazioni dei pacchetti stessi e i volumi messi a disposizione su Dolly fornisco spunti d’uso interessanti!
> 4. Produrre un notebook Jupyter (https://jupyter.org/) che contenga:
>     * una introduzione all’argomento scelto, alle sorgenti dati e agli obiettivi del progetto specificando eventualmente i quesiti di ricerca
>     * una sezione per ogni fase del progetto di data analytics

## [Vedi README.ipynb](README.ipynb)