mirror of https://github.com/Steffo99/unimore-bda-3.git synced 2025-03-24 09:27:15 +00:00

Terza attività di Big Data Analytics

data-science jupyter matplotlib pandas unimore-informatica

Find a file

Stefano Pigozzi 4ef1e3a242 Create LICENSE.txt		2024-05-15 04:05:20 +02:00
.vscode	First commit	2023-07-02 09:08:57 +02:00
data	First commit	2023-07-02 09:08:57 +02:00
media	First commit	2023-07-02 09:08:57 +02:00
unimore_bda_3	First commit	2023-07-02 09:08:57 +02:00
.editorconfig	First commit	2023-07-02 09:08:57 +02:00
.gitignore	First commit	2023-07-02 09:08:57 +02:00
.gitmodules	First commit	2023-07-02 09:08:57 +02:00
LICENSE.txt	Create LICENSE.txt	2024-05-15 04:05:20 +02:00
poetry.lock	First commit	2023-07-02 09:08:57 +02:00
pyproject.toml	First commit	2023-07-02 09:08:57 +02:00
README.ipynb	First commit	2023-07-02 09:08:57 +02:00
README.md	First commit	2023-07-02 09:08:57 +02:00
unimore-bda-3.iml	First commit	2023-07-02 09:08:57 +02:00

README.md

[ Stefano Pigozzi | Tema Data Analytics | Big Data Analytics | A.A. 2022/2023 | Unimore ]

Data analytics

Data processing e exploratory data analytics su dataset provenienti da più sorgenti

L’attività da svolgere consiste nel:

Scegliere due o più dataset provenienti da due o più sorgenti.

Il dataset finale deve essere costituito almeno da due file.

Usando pandas implementare le operazioni di data processing necessarie (principalmente join e selezioni) per mettere in collegamento i dataset e per preparare i dati al passo successivo

Usando pacchetti Python quali pandas, scipy, matplotlib e seaborn implementare attività di data cleaning, exploratory data analysis estraendo dati statistici e di visualizzazione dei risultati attraverso il quale sia possibile "raccontare qualcosa sui dati" (storytelling), eventualmente partendo da dei quesiti di ricerca.
L'uso dei pacchetti non deve necessariamente essere limitato alle istruzioni viste a lezione. Le documentazioni dei pacchetti stessi e i volumi messi a disposizione su Dolly fornisco spunti d’uso interessanti!

Produrre un notebook Jupyter (https://jupyter.org/) che contenga:

una introduzione all’argomento scelto, alle sorgenti dati e agli obiettivi del progetto specificando eventualmente i quesiti di ricerca

una sezione per ogni fase del progetto di data analytics

README.md Unescape Escape

Data analytics

Data processing e exploratory data analytics su dataset provenienti da più sorgenti

Vedi README.ipynb

README.md