import * as Bluelib from "@steffo/bluelib-react" import { BaseElement } from "@steffo/bluelib-react/dist/components/BaseElement" import { Split, Box, Color, Plus, Minus, r, LatexMath, P, Anchor, I, B, Todo, Section, Latex, Example } from "../../components/compat1" import 'katex/dist/katex.min.css'; import { WarningPorted, WarningUnchecked } from "../../components/warnings"; export default function Statistica() { return <> Statistica ed elementi di probabilità Introduzione

Come Fisica, Statistica ed elementi di probabilità è stato un altro esame in cui il modello "a carte mnemoniche" mi ha aiutato un sacco a ricordare i concetti per l'orale.

Spero che questi contenuti possano essere altrettanto utili a voi!

{r`P(E) = \frac{casi\ favorevoli}{casi\ possibili}`}

{r`P(E) = \frac{successi}{prove\ totali}`}

Il prezzo che un individuo coerente riterrebbe equo per ricevere 1 nel caso l'evento si verificasse e 0 nel caso l'evento non si verificasse.

"omegone"

L'insieme di tutti gli esiti possibili di un esperimento.

{r`\Omega = \left \{ 1, 2, 3, 4, 5, 6 \right \}`}

"omeghino"

Un elemento dello spazio campionario.

{r`\omega = 1`}

"e"

Un sottoinsieme dello spazio campionario.

{r`E = \left \{ 1, 2 \right \}`}

Lo spazio campionario stesso è un evento certo.

"not e"

Il complementare di un sottoinsieme.

{r`\bar{E} = \left \{ 3, 4, 5, 6 \right \}`}

"e intersecato effe"

L'intersezione di più sottoinsiemi.

{r`E \cap F = \left \{ 1 \right \}`}

"e unito a effe"

L'unione di più sottoinsiemi.

{r`E \cup F = \left \{ 1, 2, 3, 4 \right \}`}

"e meno effe"

{r`E \setminus F = E \cap \bar{F}`}

"e contenuto in effe"

L'inclusione del primo insieme in un altro.

{r`E \subseteq F`}

Se si verifica E, allora si verifica anche F.

"e è impossibile"

Un sottoinsieme vuoto.

{r`E = \emptyset`}

"e ed effe si escludono mutualmente"

La disgiunzione di due insiemi.

{r`E \cap F = \emptyset`}

"famiglia effe"

I sottoinsiemi dello spazio campionario formano una famiglia di sottoinsiemi detta famiglia degli eventi.

{r`\mathcal{F}`}

Qualsiasi sottoinsieme appartenente a {r`\mathcal{F}`} è considerato un evento.

{r`\sigma`}-algebra}> "sigma algebra"

Se la famiglia degli eventi soddisfa questi tre requisiti, allora viene detta {r`\sigma`}-algebra:

  1. Lo spazio campionario è un evento: {r`\Omega \in \mathcal{F}`}
  2. Se un sottoinsieme è un evento, allora anche il suo complementare lo è: {r`E \in \mathcal{F} \implies \bar{E} \in \mathcal{F}`}
  3. Se due sottoinsiemi sono eventi, allora lo sono anche la loro unione e intersezione: {r`(E, F) \in \mathcal{F} \implies (E \cup F, E \cap F) \in \mathcal{F}`}

Un esempio: {r`E \in \mathcal{F} \implies \mathcal{F} = \{ \emptyset, E, \bar{E}, \Omega \}`}

"la partizione e composta da e uno, e due, e tre..."

Un insieme di esiti e eventi:

La partizione {r`E_i`} è composta dagli eventi {r`E_1`}, {r`E_2`}, {r`E_3`}, fino a {r`E_n`}.

Se lo spazio campionario fosse una torta, una sua partizione sarebbe l'insieme delle fette di uno dei modi in cui si potrebbe tagliare.

La probabilità di un evento è un numero tra 0 e 1.

{r`\forall E \in \mathcal{F}, 0 \leq P(E) \leq 1`}

La probabilità dello spazio campionario è sempre 1.

{r`P(\Omega) = 1`}

La probabilità dell'unione di eventi indipendenti è uguale alla somma delle loro probabilità.

{r`P \left ( \bigcup_i E_i \right ) = \sum_i P ( E_i )`}

La probabilità di un evento negato è uguale a 1 meno la probabilità dell'evento non negato.

{r`P(\bar{E}) = 1 - P({E})`}

La probabilità di un evento incluso in un altro è sempre minore o uguale alla probabilità dell'evento in cui è incluso.

{r`F \subseteq E \implies P(F) \leq P(E)`}

La probabilità di un evento unito a un altro è uguale alla somma delle probabilità dei due eventi meno la probabilità della loro intersezione.

{r`P(E \cup F) = P(E) + P(F) - P(E \cap F)`}

Sommando le probabilità dei due eventi, l'intersezione viene contata due volte, e va quindi rimossa!

Spazi campionari in cui ci sono un numero finito di esiti e ogni esito ha la stessa probabilità di verificarsi.

{r`P(E) = \frac{len(E)}{len(\Omega)}`}

Gli spazi campionari possono avere un numero infinito di esiti: sono equiprobabili geometrici se nessun esito è privilegiato rispetto agli altri.

Estraggo un numero, da un sacchetto con n numeri, mi segno che numero ho estratto e lo tengo fuori dal sacchetto. Ripeto per k volte.

Tengo conto dell'ordine in cui ho estratto i numeri.

{r`\boldsymbol{D}_{n, k} = \frac{n!}{(n - k)!}`}

Estraggo un numero, da un sacchetto con n numeri, mi segno che numero ho estratto e lo rimetto nel sacchetto. Ripeto per k volte.

Tengo conto dell'ordine in cui ho estratto i numeri.

{r`\boldsymbol{D}^{r}_{n, k} = n^k`}

Estraggo un numero, da un sacchetto con n numeri, mi segno che numero ho estratto e lo tengo fuori dal sacchetto. Ripeto per k volte.

Non mi interessa l'ordine in cui ho estratto i numeri.

{r`\boldsymbol{C}_{n, k} = \binom{n}{k} = \frac{n!}{(k)! \cdot (n - k)!}`}

Estraggo un numero, da un sacchetto con n numeri, mi segno che numero ho estratto e lo rimetto nel sacchetto. Ripeto per k volte.

Non mi interessa l'ordine in cui ho estratto i numeri.

{r`\boldsymbol{C}^{r}_{n, k} = \binom{n + k - 1}{k} = \frac{(n + k - 1)!}{(k)! \cdot (n - 1)!}`}

Estraggo n numeri e guardo in quanti ordini diversi li posso mettere.

{r`\boldsymbol{P}_n = n!`}

"E dato F"

La probabilità che si verifichi E sapendo che si è già verificato F.

{r`P(E|F) = \frac{P(E \cap F)}{P(F)}`}

Ricorda vagamente le pipe di bash, però al contrario...

Se due eventi sono mutualmente esclusivi, entrambe le loro probabilità condizionate saranno uguali a 0.

{r`E \cap F = \emptyset \Longleftrightarrow P(E|F) = P(F|E) = 0`}

Si può sfruttare la formula inversa della probabilità condizionata per calcolare catene di intersezioni:

{r`P(E_1 \cap \times \cap E_n) = P(E_1) \times P(E_2 | E_1) \times \dots \times P(E_n | E_1 \cap E_2 \cap \dots \cap E_{n-1})`}

La probabilità che si verifichi un evento è pari alla somma delle probabilità dell'evento stesso dati tutti gli eventi di una partizione.

{r`P(F) = \sum_{i} P(F|E_i) \cdot P(E_i)`}

La legge delle alternative funziona anche quando ad essere partizionato è un evento:

{r`P(F|G) = \sum_i P(F|E_i \cap G) \cdot P(E_i | G)`}

Tramite la formula di Bayes possiamo risalire alla probabilità di un evento condizionato a un altro partendo dalla probabilità di quest'ultimo condizionato al primo:

{r`P(E_h | F) = \frac{P(F | E_h) \cdot P(E_h)}{P(F)}`}

In pratica, invertiamo gli eventi.
"eventi indipendenti a due a due"

Se due eventi sono indipendenti, sapere che uno dei due si è verificato non influisce sulle probabilità che si sia verificato l'altro.

{r`P(E \cap F) = P(E) \cdot P(F) \Longleftrightarrow P(E|F) = P(E) \Longleftrightarrow P(F|E) = P(F)`}

"eventi indipendenti a tre a tre, a quattro a quattro, a cinque a cinque..."

Si può verificare l'indipendenza di più eventi alla volta:

{r`P(E \cap F \cap G) = P(E) \cdot P(F) \cdot P(G)`}

Eventi indipendenti a due a due non sono per forza indipendenti a tre a tre, e viceversa.

Un insieme di n eventi è una famiglia di eventi indipendenti se, preso un qualsiasi numero di eventi da essa, essi risulteranno indipendenti.

Tutti gli eventi provenienti da essa saranno indipendenti sia a due a due, sia a tre a tre, sia a quattro a quattro, e così via!

Una funzione che fa corrispondere un numero reale a ogni possibile esito dello spazio campionario. {r`X(\omega) : \Omega \to \mathbb{R}`}.

Insieme di ripartizione}>

Ad ogni variabile aleatoria sono associati gli eventi {r`A_t = \{ \omega | X(\omega) \leq t \}`}, che contengono tutti gli esiti a cui la variabile aleatoria associa un valore minore o uguale a t.

Per definizione, tutte le variabili aleatorie devono rispettare questa condizione:

{r`\forall t \in \mathbb{R}, A_t \in \mathcal{F}`}

All'aumentare di t, l'insieme conterrà sempre più elementi.
"supporto di X"

Il codominio della variabile aleatoria è il suo supporto.

Per indicare che un valore x_0 appartiene al supporto di X, si usa la notazione X \mapsto x_0.

La funzione probabilità {r`p_X : X \to [0, 1]`} di una variabile aleatoria discreta X è la funzione che associa ad ogni esito la sua probabilità:

{r` p_X (x) = \begin{cases} P([X = x]) \quad se\ X \mapsto x \\ 0 \qquad \qquad \quad se\ X \not\mapsto x \end{cases} `}

La funzione densità {r`f_X : X \to [0, 1]`} di una variabile aleatoria continua X è l'equivalente continuo della funzione probabilità:

{r`P([a < X \leq b]) = \int_a^b f_X (x) dx`}

A differenza della funzione probabilità, è possibile che la funzione densità non esista per una certa variabile aleatoria.

Rappresenta "quanta" probabilità c'è in un'unità di x!

Ogni variabile aleatoria ha una funzione di ripartizione {r`F_X : \mathbb{R} \to [0, 1]`} associata, che rappresenta la probabilità che la variabile aleatoria assuma un valore minore o uguale a t:

Si può dire che essa rappresenti la probabilità dell'evento {r`A_t`}:

{r` F_X (t) = P(A_t) = \begin{cases} \sum_{i = 0}^{t} p_X (x_i) \quad nel\ discreto\\ \\ \int_{-\infty}^t f_X (x) dx \quad nel\ continuo \end{cases} `}

Possiamo usare la funzione di ripartizione per calcolare la probabilità di un certo valore reale:

{r`P([X = x_0]) = \lim_{t \to x^+_0} F_X (t) - \lim_{t \to x^-_0} F_X (t)`}

Nel discreto basta abbinare un nuovo valore a ogni valore della variabile originale.

Nel continuo applichiamo la formula dell'integrazione per sostituzione:

{r`f_Y (y) = \int_{g(a)}^{g(b)} f_X ( g^{-1} (x) ) g^{-2} (x)`}

Trasformare variabili aleatorie è molto utile nell'informatica per creare distribuzioni partendo da una funzione random() che restituisce numeri da 0 a 1 con una distribuzione lineare.

Ogni variabile aleatoria che ha una funzione di ripartizione e un supporto finito ha anche una media (o valore medio o atteso):

{r`E(X) = \int_0^{+infty} (1 - F_X (t)) dt - \int_{-\infty}^{0} F_X (t) dt`}

Nel discreto, si può calcolare con:

{r`E(X) = \sum_i P(X = x_i) \cdot x_i`}

Nel continuo, si può calcolare con:

{r`E(X) = \int_{-\infty}^{+\infty} f_X (x) \cdot x \cdot dx`}

Valore per cui la funzione probabilità o funzione densità è massima.

Il quantile {r`x_{\alpha}`} di ordine {r`0 \leq \alpha \leq 1`} della variabile aleatoria X è il più piccolo numero tale che:

{r`P([X < x_{\alpha}]) \leq \alpha \leq P([X \leq x_{\alpha}])`}

Il quantile di ordine 0.5 {r`x_{0.5}`} è detto mediana.

I quantili di ordine 0.25 {r`x_{0.25}`} e 0.75 {r`x_{0.75}`} sono detti quartili.

I quantili di ordine {r`\frac{n}{100}`} sono detti n-esima percentile.

È un valore che indica quanto la variabile aleatoria si discosta generalmente dalla media:

{r`Var(X) = E( (X - E(X) )^2 ) = E ( X^2 ) - (E(X))^2`}

Data una variabile aleatoria non-negativa:

{r`\forall k > 0, P([X \geq k]) \leq \frac{E(X)}{k}`}

Divide in due parti ({r`P(X < k)`} e {r`P(X \geq k)`}) la funzione X, la cui media risulterà uguale a:

{r`E(X) = \overline{k} \cdot P(X < k) + k \cdot P(X \geq k)`}

"disuguaglianza di cebicev"

Se la variabile aleatoria X ha media e varianza, allora la probabilità che essa abbia un valore a più di {r`\epsilon`} di distanza dal valore medio è minore o uguale a {r`\frac{Var(X)}{\epsilon^2}`}.

{r`\forall \epsilon > 0, P([ \left| X - E(X) \right| \geq \epsilon]) \leq \frac{Var(X)}{\epsilon^2}`}

E anche:

{r`\forall \epsilon > 0, P([ \left| X - E(X) \right| < \epsilon]) \geq 1 - \frac{Var(X)}{\epsilon^2}`}

Serve per semplificare i calcoli quando la funzione di ripartizione è difficile da calcolare!

Il momento k-esimo di una variabile aleatoria è:

{r` \mu_k = E ( X^k ) = \begin{cases} \sum_i x_i^k p_X (x_i) \qquad nel\ discreto\\ \\ \int_{-\infty}^{+\infty} x^k f_X (x) dx \qquad nel\ continuo \end{cases}` }

La media di una variabile aleatoria è anche il suo primo momento.

La funzione generatrice dei momenti è:

{r`m_X (t) = E( e^{t \cdot X} )`}

Se due variabile aleatorie hanno la stessa funzione generatrice dei momenti, allora esse hanno la stessa distribuzione.

E' la trasformata di Laplace della variabile aleatoria di X.

La funzione caratteristica è:

{r`H_X (t) = E ( e^{i \cdot t \cdot X} )`}

Se due variabile aleatorie hanno la stessa funzione caratteristica, allora esse hanno la stessa distribuzione.

E' la trasformata di Fourier della variabile aleatoria di X.

Per dire che una variabile ha una certa distribuzione, si usa la notazione:

{r`X \sim Distribuzione()`}

Una prova con solo due possibili esiti: successo e insuccesso.

Una sequenza di prove di Bernoulli per le quali le probabilità di successo e fallimento rimangono invariate.

Una variabile aleatoria che rappresenta una prova di Bernoulli:

Il suo simbolo è {r`Ber(p)`}

La distribuzione bernoulliana ha come densità:

{r` f_X (k) : \{0, 1\} = \begin{cases} p \quad se\ k = 1\\ q \quad se\ k = 0\\ 0 \quad altrimenti \end{cases} = p^x \cdot q^{1 - k}` }

Una variabile aleatoria che conta il numero di successi di n prove di uno schema di Bernoulli.

Il suo simbolo è {r`Bin(n, p)`}.

La binomiale ha come densità:

{r`f_X (k) : \{0..n\} = \binom{n}{k} \cdot p^k \cdot q^{n - k}`}

La funzione generatrice dei momenti della binomiale è:

{r`m_X (t) = (q + p \cdot e^t) ^ n`}

La media di una binomiale è:

{r`E(X) = n \cdot p`}

La varianza di una binomiale è:

{r`Var(X) = n \cdot p \cdot q`}

Una variabile aleatoria che conta il numero di prove in uno schema di Bernoulli fino alla comparsa del primo successo.

Il suo simbolo è Geo(p).

La geometrica ha come densità:

{r`f_X (k) : \mathbb{N} = q^{k - 1} p`}

La funzione generatrice dei momenti della geometrica è:

{r`m_X (t) = \frac{p \cdot e^t}{1 - q \cdot e^t}`}

La media della geometrica è:

{r`E(X) = \frac{1}{p}`}

La varianza della geometrica è:

{r`Var(X) = \frac{q}{p^2}`}

La geometrica non tiene conto degli eventi avvenuti in passato: ha la proprietà dell'assenza di memoria:

{r`P([X = i + j | X > i ]) = P([X = j])`}

Ovvero, riscalando opportunamente l'asse Y posso prendere come 0 qualsiasi punto dell'asse X.

Una variabile aleatoria che conta il numero di prove in uno schema di Bernoulli necessarie perchè si verifichi l'n-esimo successo.

Il suo simbolo è {r`\overline{Bin}(n, p)`}.

La binomiale negativa ha come densità:

{r`f_X (k) : \{ n .. +\infty \} \in \mathbb{N} = \binom{k - 1}{n - 1} \cdot p^n \cdot q^{k - n} `}

La funzione generatrice dei momenti della binomiale negativa è:

{r`m_X (t) : \{ t < ln(\frac{1}{q}) \} = \left( \frac{p \cdot e^t}{1 - q \cdot e^t} \right) ^n`}

La media della binomiale negativa è:

{r`E(X) = \frac{n}{p}`}

La varianza della binomiale negativa è:

{r`Var(X) = \frac{n \cdot q}{p^2}`}

Una variabile aleatoria che conta il numero k di insuccessi consecutivi in uno schema di Bernoulli:

Il suo simbolo rimane {r`Geo(p)`}.

La geometrica traslata ha come densità:

{r`f_X (k) : \mathbb{N} = p \cdot q^k `}

La funzione generatrice dei momenti della geometrica traslata è:

{r`m_X (t) : \left\{ t < ln \left( \frac{1}{q} \right) \right\} = \frac{p}{1 - q \cdot e^t}`}

La media della geometrica traslata è:

{r`E(X) = \frac{q}{p}`}

La varianza della geometrica è:

{r`Var(X) = \frac{q}{p^2}`}

La geometrica traslata non tiene conto degli eventi avvenuti in passato: ha la proprietà dell'assenza di memoria:

{r`P([X = i + j | X > i ]) = P([X = j])`}

Ovvero, riscalando opportunamente l'asse Y posso prendere come 0 qualsiasi punto dell'asse X.

Una variabile aleatoria che conta il numero di insuccessi in uno schema di Bernoulli prima che si verifichi l'n-esimo successo.

Il suo simbolo rimane {r`\overline{Bin}(n, p)`}.

La binomiale negativa traslata ha come densità:

{r`f_X (k) : \mathbb{N} = \binom{k + n - 1}{n - 1} \cdot p^n \cdot q^k `}

La funzione generatrice dei momenti della binomiale negativa traslata è:

{r`m_X (t) : \left\{ t < ln \left( \frac{1}{q} \right) \right\} = \left( \frac{p \cdot e^t}{1 - q \cdot e^t} \right) ^n`}

La media della binomiale negativa traslata è:

{r`E(X) = \frac{n \cdot q}{p}`}

La varianza della binomiale negativa traslata è:

{r`Var(X) = \frac{n \cdot q}{p^2}`}

Una variabile aleatoria che, sapendo il numero di successi K e di insuccessi N-K, conta quanti successi si otterrebbero se se ne estraessero n in blocco.

Il suo simbolo è Ipe(N, K, n).

La ipergeometrica ha come densità:

{r`f_X (k) : \{0..n\} \in \mathbb{N} = \frac{\binom{K}{k} \cdot \binom{N - K}{n - k}}{\binom{N}{n}}`}

La funzione generatrice dei momenti della ipergeometrica è trascurabile.

La media della ipergeometrica è:

{r`E(X) = n \cdot \frac{K}{N}`}

La varianza della ipergeometrica è:

{r`Var(X) = n \cdot \frac{K}{N} \cdot \frac{N - K}{N} \cdot \frac{N - n}{N - 1}`}

Una variabile aleatoria che soddisfa tutte le seguenti caratteristiche:

Il suo simbolo è {r`Poi(\mu)`}

La poissoniana ha come densità:

{r`f_X (k) : \mathbb{N} = \frac{e^{-\mu} \cdot \mu^k}{k!}`}

La funzione generatrice dei momenti della poissoniana è:

{r`m_X (t) = e^{\mu \cdot (e^t - 1)}`}

La media della poissoniana è:

{r`E(X) = \mu`}

La varianza della poissoniana è:

{r`Var(X) = \mu`}

Gli altri momenti della poissoniana sono:

  1. {r`E(X^2) = \mu^2 + \mu`}

Una successione di arrivi avvenuti in un certo arco temporale che:

Una variabile aleatoria N_t che conta il numero di arrivi di uno schema di Poisson di intensità {r`\lambda`} in un intervallo di tempo di durata t.

E' una distribuzione poissoniana con {r`\mu = t \cdot \lambda`}: {r`Poi(t \cdot \lambda)`}

E' paragonabile a una bernoulliana: ogni successo corrisponde a un arrivo, mentre il tempo è il numero di prove effettuate (ma nel continuo).

Una variabile aleatoria che conta il tempo diwidehattesa prima del primo arrivo di un processo di Poisson di intensità {r`\lambda`}.

Il suo simbolo è {r`Esp(\lambda)`}.

L'esponenziale ha come densità:

{r` f_X (x) = \begin{cases} 0 \qquad \qquad x < 0\\ \lambda \cdot e^{-\lambda \cdot x} \quad x > 0 \end{cases}` }

L'esponenziale ha come funzione di ripartizione:

{r` F_X (t) = \begin{cases} 0 \qquad \qquad t < 0\\ 1 - e^{-\lambda \cdot t} \quad t \geq 0 \end{cases}` }

La funzione generatrice dei momenti dell'esponenziale è:

{r`m_X (t) : \{ t | t < \lambda \} \in \mathbb{R} = \frac{\lambda}{\lambda - t}`}

La media dell'esponenziale è:

{r`E(X) = \frac{1}{\lambda}`}

La varianza dell'esponenziale è:

{r`Var(X) = \frac{1}{\lambda^2}`}

L'esponenziale non tiene conto degli eventi avvenuti in passato: ha la proprietà dell'assenza di memoria:

{r`P([X > s + t | X > s]) = P([X > t])`}

Ovvero, riscalando opportunamente l'asse Y posso prendere come 0 qualsiasi punto dell'asse X.

Una variabile aleatoria che conta il tempo diwidehattesa prima dell'n-esimo arrivo di un processo di Poisson di intensità {r`\lambda`}.

Il suo simbolo è {r`\Gamma(n, \lambda)`}.

La legge gamma ha come densità:

{r` f_X (x) = \begin{cases} 0 \qquad \qquad \qquad \qquad \qquad x < 0\\ \frac{1}{(n-1)!} \cdot \lambda^n \cdot x^{n-1} \cdot e^{-\lambda \cdot x} \quad k > 0 \end{cases}` }

La funzione generatrice dei momenti della legge gamma è:

{r`m_X (t) : ( t < \lambda ) \in \mathbb{R} = \left( \frac{\lambda}{\lambda - t} \right) ^\alpha`}

La media della legge gamma è:

{r`E(X) = \frac{\alpha}{\lambda}`}

La varianza della legge gamma è:

{r`Var(X) = \frac{\alpha}{\lambda^2}`}

Una variabile aleatoria che può assumere qualsiasi valore in un intervallo {r`[a, b]`} in modo equiprobabile.

Il suo simbolo è {r`Uni(a, b)`}

Su di essa vale la seguente proprietà:

{r`P(X \in (c, d)) = \frac{d - c}{b - a}`}

La distribuzione uniforme ha come densità:

{r` f_X (x) = \begin{cases} \frac{1}{b - a} \qquad a \leq x \leq b\\ 0 \qquad \quad altrimenti \end{cases} `}

La distribuzione uniforme ha come funzione di ripartizione:

{r` f_X (x) = \begin{cases} 0 \qquad \quad x < a \frac{1}{b - a} \qquad a \leq x \leq b\\ 1 \qquad \quad x > b \end{cases}` }

La funzione generatrice dei momenti della distribuzione uniforme è:

{r`m_X (t) = \frac{e^{b \cdot t} - e^{a \cdot t}}{(b - a) \cdot t}`}

La media della distribuzione uniforme è:

{r`E(X) = \frac{a + b}{2}`}

La varianza della distribuzione uniforme è:

{r`Var(X) = \frac{(b - a)^2}{12}`}

Una variabile aleatoria con una specifica distribuzione.

Il suo simbolo è {r`Nor(\mu, \sigma^2)`}.

\mu e \sigma^2 sono rispettivamente la media e la varianza della distribuzione!

La distribuzione normale ha come densità:

{r`f_X (x) = \frac{e^{-\frac{(x - \mu)^2}{2 \sigma^2}}}{\sqrt{2 \pi \cdot \sigma^2}}`}

La funzione generatrice dei momenti della distribuzione normale è:

{r`m_X (t) = e^{\mu \cdot t + \frac{\sigma^2 \cdot t^2}{2}}`}

La media della distribuzione normale è:

{r`E(X) = \mu`}

La varianza della distribuzione normale è:

{r`Var(X) = \sigma^2`}

Qualsiasi normale può essere trasformata in qualsiasi altra normale:

{r`X \sim Nor(m, v^2) \implies \alpha X + \beta \sim Nor(\alpha m + \beta, (\alpha v)^2)`}

La distribuzione normale standard Z è:

Z \sim Nor(0, 1)

La sua funzione di ripartizione è detta {r`\phi(z)`} e vale:

{r`F_Z(z) = \phi(z) = \frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{z} e^{-\frac{x^2}{2}} dx`}

Da un quantile {r`z_\alpha`} della normale standard è possibile risalire allo stesso quantile di qualsiasi altra normale:

{r`x_\alpha = \mu + z_\alpha \cdot \sqrt{\sigma^2}`}

La distribuzione normale ha una particolare relazione con la distribuzione Gamma:

{r`Z^2 \sim \chi^2 (v = 1)`}

"chi-quadro a un grado di libertà"

Esiste una distribuzione Gamma particolare:

{r`\Gamma \left( \frac{1}{2}, \frac{1}{2} \right) = \chi^2 (v = 1)`}

Più chi-quadro possono essere sommate per aumentare i loro gradi di libertà:

{r`\chi^2 (n) + \chi^2 (m) = \chi^2 (n + m)`}

Un'altra funzione particolare è la funzione T di Student:

{r`T(v) = \frac{Nor(0, 1)}{\sqrt{\frac{\chi^2(v)}{v}}}`}

La binomiale è come una ipergeometrica ma con ripetizioni, quindi per valori molto grandi di N rispetto a n, si può dire che:

{r`Ipe(N, K, n) \approx Bin(n, \frac{K}{N})`}

La binomiale non è altro che una poissoniana a tempo discreto, quindi, se n è grande e n \cdot p è nell'ordine di grandezza delle unità, allora:

{r`Bin(n, p) \approx Poi(n \cdot p)`}

Per il Teorema di De Moivre-Laplace, se una binomiale ha una n grande e p non vicina a 0 o 1, si può approssimare con:

{r`Bin(n, p) \approx Nor(n \cdot p, n \cdot p \cdot q)`}

Passando da una variabile discreta X a una continua Y, per ogni valore discreto k la probabilità viene "spalmata" su tutto l'intervallo {r`(k - \frac{1}{2}, k + \frac{1}{2})`}:

Un vettore composto da variabili aleatorie.

Il suo simbolo generalmente è {r`\boldsymbol{X}`} oppure {r`X, Y`}.

I vettori aleatori hanno più funzioni di ripartizione che si differenziano in base al numero di parametri.

Se il numero di parametri coincide con la dimensione del vettore aleatorio, allora la funzione sarà una funzione di ripartizione congiunta:

{r`F_{X, Y} (x, y) = P(X \leq x, Y \leq y)`}

Se il numero di parametri è minore della dimensione del vettore aleatorio, allora la funzione sarà una funzione di ripartizione marginale:

{r`F_X (x) = P(X \leq x) = \lim_{y \to +\infty} F_{X, Y} (x, y)`}

I vettori aleatori discreti hanno più densità che si differenziano in base al numero di parametri.

Se il numero di parametri coincide con la dimensione del vettore aleatorio, allora la funzione sarà una densità congiunta:

{r`p_{X, Y} (x, y) = P(X = x, Y = y)`}

Se il numero di parametri è minore della dimensione del vettore aleatorio, allora la funzione sarà una densità marginale:

{r`p_X (x) = \sum_j p_{X, Y} (x_i, y_j)`}

Più variabili aleatorie sono indipendenti se, per qualsiasi scelta di intervalli A_i:

{r`P(X_1 \in A_1, \dots, X_n \in A_n) = P(X_1 \in A_1) \times \dots \times P(X_n \in A_n)`}

E' possibile calcolare la media di qualsiasi funzione g(X, Y) avente elementi del vettore come variabili:

{r`E(g(X, Y)) = \sum_{i, j} g(x_i, y_i) \cdot p_{X, Y} (x_i, y_i)`}

Solitamente si calcola la media di x \cdot y.

Le medie di più variabili aleatorie si possono sommare:

{r`E(X + Y) = E(X) + E(Y)`}

Un operatore che misura la correlazione di due variabili aleatorie.

Si calcola con il valore atteso dei prodotti delle distanze dalla media:

{r`Cov(X, Y) = E((X - E(X) \cdot (Y - E(Y)) = E(XY) - E(X) \cdot E(Y)`}

Ha diverse proprietà:

Due variabili sono variabili incorrelate se:

{r`Cov(X, Y) = 0`}

Variabili indipendenti sono sempre incorrelate.

Una matrice {r`\boldsymbol{C_X}`} che contiene la covarianza tra tutte le variabili di un vettore aleatorio {r`\boldsymbol{X}`}:

{r` \boldsymbol{C_X} = \begin{bmatrix} Var(X_1) & Cov(X_1, X_2) & Cov(X_1, X_3)\\ Cov(X_2, X_1) & Var(X_2) & Cov(X_2, X_3)\\ Cov(X_3, X_1) & Cov(X_3, X_2) & Var(X_3) \end{bmatrix} `}

E' sempre simmetrica e semidefinita positiva (tutti gli autovalori sono \geq 0.

Un valore che misura come due variabili aleatorie sono correlate:

{r`\rho_{X, Y} = \frac{Cov(X, Y)}{\sqrt{Var(X)} \cdot \sqrt{Var(Y)}}`}

E' sempre compreso tra -1 e 1:

{r`-1 \leq \rho_{X, Y} \leq 1`}

Vale esattamente -1 o 1 solo se esiste un legame lineare tra le due variaibli:

{r`Y = a X + b \Longleftrightarrow | \rho_{X, Y} | = 1`}

La varianza di due variabili aleatorie sommate è:

{r`Var(X + Y) = Var(X) + Var(Y) + 2 \cdot Cov(X, Y)`}

Si dimostra applicando le proprietà della covarianza!

Se più variabili aleatorie X_i sono indipendenti ({r`Cov(X, Y) = 0`}), allora:

{r`Var \left( \sum_i X_i \right) = \sum_i Var(X_i)`}

Una n-pla di variabili aleatorie con la stessa distribuzione della variabile aleatoria X ("popolazione") ma indipendenti tra loro.

Le variabili aleatorie sono come un lazy-load in programmazione; quando ci sarà bisogno del loro valore numerico, esse si realizzeranno nel loro valore.

Il valore dato dalla media aritmetica degli n elementi del campione elevati alla potenza k:

{r`M^{(k)}_n = \frac{1}{n} \cdot \sum_{i = 1}^n X_i^k `}

Il momento campionario di primo ordine è la media campionaria {r`\overline{X}_n`}.

La media aritmetica dello scarto quadratico medio degli elementi del campione.

Se è noto il valore medio {r`m = E(X)`} di X:

{r`S_0^2 = \frac{1}{n} \cdot \sum_{i = 1}^n (X_i - m)^2 = M_n^(2) - 2 \cdot m \cdot \overline{X}_n + m^2`}

Altrimenti:

{r`S_n^2 = \frac{1}{n - 1} \cdot \sum_{i = 1}^n (X_i - \overline{X}_n)^2 = \frac{1}{n - 1} \cdot ( n \cdot M_2^{(2)} - n \cdot \overline{X}_n^2)`}

Se calcoliamo la media della media campionaria, risulterà vero che:

{r`E(\overline{X}_n) = E(X)`}

Quindi, è possibile usare i campioni per trovare la media di una variabile aleatoria!

Se calcoliamo la varianza della media campionaria, risulterà vero che:

{r`Var(\overline{X}_n) = \frac{Var(X)}{n}`}

Quindi, possiamo stimare l'errore della media calcolata tramite campioni!

Se calcoliamo la media della varianza campionaria, risulterà vero che:

{r`E(S_0^2) = E(S_n^2) = Var(X)`}

Quindi, possiamo stimare l'errore della media calcolata tramite campioni!

Se la popolazione X ha una distribuzione normale ({r`X \sim Nor(\mu, \sigma^2)`})...

...allora sappiamo anche la distribuzione della media campionaria!

{r`\overline{X}_n \sim Nor \left( \mu, \frac{\sigma^2}{n} \right)`}

...e anche della varianza campionaria!

{r`S_0^2 \sim \frac{\sigma^2}{n} \cdot \chi^2 (n)`}

{r`S_n^2 \sim \frac{\sigma^2}{n - 1} \cdot \chi^2 (n-1)`}

...e che media campionaria e varianza campionaria sono indipendenti tra loro!

Se la successione di variabili aleatorie X_n all'infinito ha la stessa funzione di ripartizione della popolazione X, allora essa converge in distribuzione.

{`\\lim_{n \\to +\\infty} F_{X_n} (x) = F_X (x) \\implies X_n \\xrightarrow{d} X`}

Se la successione di variabili aleatorie X_n all'infinito ha la stessa probabilità della popolazione X, allora essa converge in probabilità.

{`\\forall \\epsilon > 0, \\lim_{n \\to +\\infty} P( | X_n - X | < \\epsilon) = 1 \\implies X_n \\xrightarrow{p} X`}

Se la successione di variabili aleatorie X_n all'infinito ha la stessa probabilità a della popolazione X, allora essa converge quasi certamente.

{`\\forall \\epsilon > 0, P \left( \\lim_{n \\to +\\infty} | X_n - X | < \\epsilon) \right) = 1 \\implies X_n \\xrightarrow{qc} X`}

Se la successione di variabili aleatorie X_n all'infinito ha la media del quadrato della distanza tra la successione e la popolazione X uguale a 0, allora essa converge in media quadratica.

{`\\lim_{n \\to +\\infty} E( | X_n - X |^2 = 0 \\implies X_n \\xrightarrow{mq} X`}

{` \\begin{matrix} X_n \\xrightarrow{mq} X\\\\ X_n \\xrightarrow{qc} X \\end{matrix} \\implies X_n \\xrightarrow{p} X \\implies X_n \\xrightarrow{d} X` }

In più:

{`X_n \\xrightarrow{p} x \\Longleftrightarrow X_n \\xrightarrow{d} x`}

La successione delle medie campionarie {r`\overline{X}_n`} converge in probabilità alla media della popolazione {r`E(X)`}, se essa esiste.

{`\\overline{X}_n \\xrightarrow{p} X`}

Ovvero:

{r`\forall \epsilon > 0, \lim_{n \to +\infty} P( | \overline{X}_n - E(X) | < \epsilon) = 1`}

{r`P( | \overline{X}_n - E(X) | < \epsilon) \to 1`}

La successione delle medie campionarie {r`\overline{X}_n`} converge quasi certamente alla media della popolazione {r`E(X)`}, se essa esiste.

{`\\overline{X}_n \\xrightarrow{qc} X`}

Ovvero:

{r`\forall \epsilon > 0, P \left( \lim_{n \to +\infty} | \overline{X}_n - E(X) | < \epsilon \right) = 1`}

Dimostra che l'interpretazione frequentista della probabilità è valida!

La successione delle medie campionarie {r`\overline{X}_n`} converge in distribuzione a {r`Nor(0, 1) = \Phi()`}.

{r`\overline{X}_n \approx Nor \left(E(X), \frac{Var(X)}{n} \right)`}

Ovvero:

{r`\forall x \in \mathbb{R}, \lim_{n \to +\infty} P \left( \frac{\overline{X}_n - E(X)}{\sqrt{\frac{Var(X)}{n}}} \leq x \right) = \Phi(x)`}

E' una somma di bernoulliane, e quindi si approssima a una normale:

{r`Bin(n, p) \approx Nor(n \cdot p, n \cdot p \cdot q)`}

E' una somma di geometriche, e quindi si approssima a una normale:

{r`\overline{Bin} (n, p) \approx Nor \left( \frac{n}{p}, \frac{n \cdot (1 - p)}{p^2} \right)`}

E' una somma di altre poissoniane, e quindi si approssima a una normale:

{r`Poi(\lambda) \approx Nor(\lambda, \lambda)`}

E' una somma di esponenziali, e quindi si approssima a una normale:

{r`\Gamma (\alpha, \lambda) \approx Nor \left( \frac{\alpha}{\lambda}, \frac{\alpha}{\lambda^2} \right)`}

Se n è grande, allora:

{r`Y = \sum_{i=1}^{n} X_i`}

Per indicare parametri sconosciuti di una legge si usa \theta.

Una variabile aleatoria funzione di un campione:

{r`T(\boldsymbol{X})`}

Ad esempio, sono statistiche media e varianza campionaria, così come il campione stesso {r`T(\boldsymbol{X}) = \boldsymbol{X}`}.

Una statistica T_n ottenuta da n osservazioni, che stimi i parametri di una legge e sia indipendente da essi.

Uno stimatore è corretto se il suo valore atteso coincide con quello dei parametri che stima:

{r`E(T_n) = \theta`}

Uno stimatore è asintoticamente corretto se, per infinite osservazioni, il suo valore atteso coincide con quello dei parametri che stima:

{r`\lim_{n \to +\infty} E(T_n) = \theta`}

Uno stimatore è consistente in media quadratica se:

{r`\lim_{n \to +\infty} E((T_n - \theta)^2) = 0`}

Uno stimatore è consistente in probabilità se:

{r`\forall \epsilon > 0, \lim_{n \to +\infty} P( |T_n - \theta| < \epsilon) = 1`}

Uno stimatore è asintoticamente normale se:

{r`\lim_{n \to +\infty} \frac{T_n - E(T_n)}{\sqrt{Var(T_n)}} \sim Nor(0, 1)`}

Si può usare il metodo dei momenti per ottenere uno stimatore di una popolazione X.

Lo stimatore di {r`\theta`} così ottenuto sarà indicato aggiungendo un cappellino e una M a \theta: {r`\widehat{\theta}_M`}

Visto che:

Allora:

{r`\widehat{\theta}_M = g( \overline{X}_n )`}

Se {r`\theta`} non è esprimibile in termini di {r`E(X)`}, si possono usare i momenti successivi {r`M_n^2`}, {r`M_n^3`}, {r`M_n^3`}...

Si può usare il metodo della massima verosomiglianza per ottenere uno stimatore di una popolazione X.

Lo stimatore di {r`\theta`} così ottenuto sarà indicato aggiungendo un cappellino e una L a \theta: {r`\widehat{\theta}_L`}

Consiste nel trovare il massimo assoluto {r`\widehat{\theta}_L`} della la funzione di verosomiglianza {r`L`}:

{r`L(x_1, ..., x_n; \theta) = \prod_{i=1}^n f_X(x_i; \theta)`}

Gli stimatori di massima verosomiglianza sono asintoticamente corretti, consistenti in probabilità e asintoticamente normali.

Gli stimatori di massima verosomiglianza godono delle seguenti proprietà:

Per il metodo dei momenti oppure per il metodo della massima verosomiglianza:

{r`\widehat{p}_M = \widehat{p}_L = \overline{X}_n`}

Per il metodo dei momenti oppure per il metodo della massima verosomiglianza:

{r`\widehat{\mu}_M = \widehat{\mu}_L = \overline{X}_n`}

Per il metodo dei momenti oppure per il metodo della massima verosomiglianza:

{r`\widehat{\lambda}_M = \widehat{\lambda}_L = \frac{1}{\overline{X}_n}`}

Per il metodo della massima verosomiglianza:

"intervallo di confidenza al 95%"

L'intervallo di valori di \theta all'interno del quale siamo "più o meno sicuri" si trovi il valore effettivo:

L'intervallo di confidenza a N della stima {r`\widehat{W}`} è l'intervallo ]a, b[ tale che:

{r`P( a < W < b ) = N`}

Può anche essere unilatero nel caso limiti la stima in una sola direzione, positiva o negativa.

Se conosciamo la varianza di una normale, allora possiamo ricavare velocemente gli intervalli di confidenza all'\alpha% con queste formule:

Se non conosciamo la varianza di una normale, allora possiamo ricavare velocemente gli intervalli di confidenza all'\alpha% con queste formule:

{r`t_{\alpha, v}`} è un quantile della distribuzione di Student di parametro v.

L'intervallo di confidenza per la proprorzione di una bernoulliana qualsiasi si ottiene da questa formula:

{r`p \in \left[ \overline{p} - z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{p} \cdot (1 - \overline{p})}{n+4}}, \overline{p} + z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{\overline{p} \cdot (1 - \overline{p})}{n+4}} \right]`}

L'intervallo di confidenza per la media di una qualsiasi popolazione si ottiene da questa formula:

{r`m \in \left[ \overline{x}_n - z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^2_n}{n}}, \overline{x}_n + z_{1 - \frac{\alpha}{2}} \cdot \sqrt{\frac{s^2_n}{n}} \right]`}

}