1
Fork 0
mirror of https://github.com/Steffo99/unimore-bda-3.git synced 2024-11-24 00:44:20 +00:00
Terza attività di Big Data Analytics
Find a file
2024-05-15 04:05:20 +02:00
.vscode First commit 2023-07-02 09:08:57 +02:00
data First commit 2023-07-02 09:08:57 +02:00
media First commit 2023-07-02 09:08:57 +02:00
unimore_bda_3 First commit 2023-07-02 09:08:57 +02:00
.editorconfig First commit 2023-07-02 09:08:57 +02:00
.gitignore First commit 2023-07-02 09:08:57 +02:00
.gitmodules First commit 2023-07-02 09:08:57 +02:00
LICENSE.txt Create LICENSE.txt 2024-05-15 04:05:20 +02:00
poetry.lock First commit 2023-07-02 09:08:57 +02:00
pyproject.toml First commit 2023-07-02 09:08:57 +02:00
README.ipynb First commit 2023-07-02 09:08:57 +02:00
README.md First commit 2023-07-02 09:08:57 +02:00
unimore-bda-3.iml First commit 2023-07-02 09:08:57 +02:00

[ Stefano Pigozzi | Tema Data Analytics | Big Data Analytics | A.A. 2022/2023 | Unimore ]

Data analytics

Data processing e exploratory data analytics su dataset provenienti da più sorgenti

Lattività da svolgere consiste nel:

  1. Scegliere due o più dataset provenienti da due o più sorgenti.
    • Il dataset finale deve essere costituito almeno da due file.
  2. Usando pandas implementare le operazioni di data processing necessarie (principalmente join e selezioni) per mettere in collegamento i dataset e per preparare i dati al passo successivo
  3. Usando pacchetti Python quali pandas, scipy, matplotlib e seaborn implementare attività di data cleaning, exploratory data analysis estraendo dati statistici e di visualizzazione dei risultati attraverso il quale sia possibile "raccontare qualcosa sui dati" (storytelling), eventualmente partendo da dei quesiti di ricerca.
    L'uso dei pacchetti non deve necessariamente essere limitato alle istruzioni viste a lezione. Le documentazioni dei pacchetti stessi e i volumi messi a disposizione su Dolly fornisco spunti duso interessanti!
  4. Produrre un notebook Jupyter (https://jupyter.org/) che contenga:
    • una introduzione allargomento scelto, alle sorgenti dati e agli obiettivi del progetto specificando eventualmente i quesiti di ricerca
    • una sezione per ogni fase del progetto di data analytics

Vedi README.ipynb