1
Fork 0
mirror of https://github.com/Steffo99/unimore-bda-3.git synced 2024-11-24 17:04:20 +00:00
bda-3-steffo/README.md

19 lines
1.6 KiB
Markdown
Raw Permalink Normal View History

2022-11-25 08:23:40 +00:00
[ Stefano Pigozzi | Tema Data Analytics | Big Data Analytics | A.A. 2022/2023 | Unimore ]
# Data analytics
> ### Data processing e exploratory data analytics su dataset provenienti da più sorgenti
>
> Lattività da svolgere consiste nel:
>
> 1. Scegliere due o più dataset provenienti da due o più sorgenti.
> * Il dataset finale deve essere costituito almeno da due file.
> 2. Usando [pandas](https://pandas.pydata.org/) implementare le operazioni di data processing necessarie (principalmente join e selezioni) per mettere in collegamento i dataset e per preparare i dati al passo successivo
> 3. Usando pacchetti Python quali [pandas](https://pandas.pydata.org/), [scipy](https://scipy.org/), [matplotlib](https://matplotlib.org/) e [seaborn](https://seaborn.pydata.org/) implementare attività di data cleaning, exploratory data analysis estraendo dati statistici e di visualizzazione dei risultati attraverso il quale sia possibile "raccontare qualcosa sui dati" (storytelling), eventualmente partendo da dei quesiti di ricerca.
> L'uso dei pacchetti non deve necessariamente essere limitato alle istruzioni viste a lezione. Le documentazioni dei pacchetti stessi e i volumi messi a disposizione su Dolly fornisco spunti duso interessanti!
> 4. Produrre un notebook Jupyter (https://jupyter.org/) che contenga:
> * una introduzione allargomento scelto, alle sorgenti dati e agli obiettivi del progetto specificando eventualmente i quesiti di ricerca
> * una sezione per ogni fase del progetto di data analytics
## [Vedi README.ipynb](README.ipynb)