unimore/bda-3-steffo

Fork 0

mirror of https://github.com/Steffo99/unimore-bda-3.git synced 2024-11-24 17:04:20 +00:00

Stefano Pigozzi 086ad7d796

First commit

2023-07-02 09:08:57 +02:00

1.6 KiB

Raw Permalink Blame History

[ Stefano Pigozzi | Tema Data Analytics | Big Data Analytics | A.A. 2022/2023 | Unimore ]

Data analytics

Data processing e exploratory data analytics su dataset provenienti da più sorgenti

L’attività da svolgere consiste nel:

Scegliere due o più dataset provenienti da due o più sorgenti.

Il dataset finale deve essere costituito almeno da due file.

Usando pandas implementare le operazioni di data processing necessarie (principalmente join e selezioni) per mettere in collegamento i dataset e per preparare i dati al passo successivo

Usando pacchetti Python quali pandas, scipy, matplotlib e seaborn implementare attività di data cleaning, exploratory data analysis estraendo dati statistici e di visualizzazione dei risultati attraverso il quale sia possibile "raccontare qualcosa sui dati" (storytelling), eventualmente partendo da dei quesiti di ricerca.
L'uso dei pacchetti non deve necessariamente essere limitato alle istruzioni viste a lezione. Le documentazioni dei pacchetti stessi e i volumi messi a disposizione su Dolly fornisco spunti d’uso interessanti!

Produrre un notebook Jupyter (https://jupyter.org/) che contenga:

una introduzione all’argomento scelto, alle sorgenti dati e agli obiettivi del progetto specificando eventualmente i quesiti di ricerca

una sezione per ogni fase del progetto di data analytics

1.6 KiB Raw Permalink Blame History Unescape Escape

Data analytics

Data processing e exploratory data analytics su dataset provenienti da più sorgenti

Vedi README.ipynb

1.6 KiB

Raw Permalink Blame History