1
Fork 0
mirror of https://github.com/Steffo99/unimore-bda-3.git synced 2024-11-21 23:44:21 +00:00
bda-3-steffo/README.md
2023-07-02 09:08:57 +02:00

1.6 KiB
Raw Permalink Blame History

[ Stefano Pigozzi | Tema Data Analytics | Big Data Analytics | A.A. 2022/2023 | Unimore ]

Data analytics

Data processing e exploratory data analytics su dataset provenienti da più sorgenti

Lattività da svolgere consiste nel:

  1. Scegliere due o più dataset provenienti da due o più sorgenti.
    • Il dataset finale deve essere costituito almeno da due file.
  2. Usando pandas implementare le operazioni di data processing necessarie (principalmente join e selezioni) per mettere in collegamento i dataset e per preparare i dati al passo successivo
  3. Usando pacchetti Python quali pandas, scipy, matplotlib e seaborn implementare attività di data cleaning, exploratory data analysis estraendo dati statistici e di visualizzazione dei risultati attraverso il quale sia possibile "raccontare qualcosa sui dati" (storytelling), eventualmente partendo da dei quesiti di ricerca.
    L'uso dei pacchetti non deve necessariamente essere limitato alle istruzioni viste a lezione. Le documentazioni dei pacchetti stessi e i volumi messi a disposizione su Dolly fornisco spunti duso interessanti!
  4. Produrre un notebook Jupyter (https://jupyter.org/) che contenga:
    • una introduzione allargomento scelto, alle sorgenti dati e agli obiettivi del progetto specificando eventualmente i quesiti di ricerca
    • una sezione per ogni fase del progetto di data analytics

Vedi README.ipynb