import * as Bluelib from "@steffo/bluelib-react" import { BaseElement } from "@steffo/bluelib-react/dist/components/BaseElement" import { Section, Panel, r, ILatex, BLatex, PLatex, P, Anchor, I, B, Help, Example, Link } from "../../components/compat1" import 'katex/dist/katex.min.css'; import { WarningIncomplete, WarningPorted, WarningUnchecked } from "../../components/warnings"; export default function CalcoloNumerico() { return <> Calcolo numerico Introduzione

Calcolo numerico credo sia il corso per il quale ho realizzato il materiale più dettagliato.

Avere tutto schematizzato mi ha permesso di apprendere facilmente tutti i concetti!

Non ho però realizzato nessun materiale su MATLAB, in quanto esistevano già numerose guide su Internet a riguardo...

Elemento neutro della moltiplicazione matriciale.

{r` \begin{pmatrix} {\color{Yellow} 1} & {\color{Yellow} 0} & {\color{Yellow} 0}\\ {\color{Yellow} 0} & {\color{Yellow} 1} & {\color{Yellow} 0}\\ {\color{Yellow} 0} & {\color{Yellow} 0} & {\color{Yellow} 1} \end{pmatrix} `}

Matrice con elementi diversi da 0 solo sulla diagonale.

{r` \begin{pmatrix} {\color{Yellow} 3} & {\color{Gray} 0} & {\color{Gray} 0}\\ {\color{Gray} 0} & {\color{Yellow} 4} & {\color{Gray} 0}\\ {\color{Gray} 0} & {\color{Gray} 0} & {\color{Yellow} 5} \end{pmatrix} `}

Matrice con elementi diversi da 0 sopra la diagonale.

{r` \begin{pmatrix} {\color{Yellow} 3} & {\color{Gray} 0} & {\color{Gray} 0}\\ {\color{Orange} 4} & {\color{Yellow} 4} & {\color{Gray} 0}\\ {\color{Orange} 5} & {\color{Orange} 5} & {\color{Yellow} 5} \end{pmatrix} `}

Matrice con elementi diversi da 0 sotto la diagonale.

{r` \begin{pmatrix} {\color{Yellow} 3} & {\color{Orange} 3} & {\color{Orange} 3}\\ {\color{Gray} 0} & {\color{Yellow} 4} & {\color{Orange} 4}\\ {\color{Gray} 0} & {\color{Gray} 0} & {\color{Yellow} 5} \end{pmatrix} `}

Matrice con determinante diverso da 0.

{r`det(A) \neq 0`}

Sono anche dette matrici linearmente indipendenti o matrici invertibili.

{r` \begin{pmatrix} {\color{Yellow} 1} & {\color{Yellow} 1} & {\color{Yellow} 2}\\ {\color{Orange} 2} & {\color{Orange} 1} & {\color{Orange} 1}\\ {\color{Red} 1} & {\color{Red} 2} & {\color{Red} 1} \end{pmatrix} `}

Matrice con un asse di simmetria lungo la diagonale.

{r`A = A^T`} {r` \begin{pmatrix} 1 & {\color{Yellow} 2} & {\color{Orange} 4}\\ {\color{Yellow} 2} & 3 & {\color{Red} 5}\\ {\color{Orange} 4} & {\color{Red} 5} & 6 \end{pmatrix} `}

Matrice con un asse di simmetria lungo la diagonale; gli elementi nel triangolo superiore sono però l'opposto di quelli del triangolo inferiore.

Ha sempre degli 0 lungo la diagonale.

{r`A = -A^T`} {r` \begin{pmatrix} {\color{Gray} 0} & {\color{Yellow} -2} & {\color{Orange} -4}\\ {\color{Yellow} 2} & {\color{Gray} 0} & {\color{Red} -5}\\ {\color{Orange} 4} & {\color{Red} 5} & {\color{Gray} 0} \end{pmatrix} `}

Matrice in cui i valori della diagonale sono maggiori della somma di tutti gli altri nella riga/colonna.

{r` \begin{pmatrix} {\color{Orange} 9} & 1 & 2\\ 1 & {\color{Orange} 8} & 1\\ 1 & 2 & {\color{Orange} 7} \end{pmatrix} `}

Matrice che se moltiplicata per la sua trasposta dà come risultato la matrice identità.

{r`A^T \cdot A = I`} {r` \begin{pmatrix} \frac{1}{3} & \frac{2}{3} & -\frac{2}{3}\\ \frac{2}{3} & \frac{1}{3} & \frac{2}{3}\\ \frac{2}{3} & -\frac{2}{3} & -\frac{1}{3}\\ \end{pmatrix} `}

Matrice tale che:

{r`A^{-1} \cdot A = I`}

Matrice con pochissimi valori diversi da 0.

{r` \begin{pmatrix} {\color{Gray} 0} & 1 & {\color{Gray} 0}\\ 1 & 1 & {\color{Gray} 0}\\ {\color{Gray} 0} & {\color{Gray} 0} & 1 \end{pmatrix} `}

Matrice riempita di 0 eccetto per un solo 1 per riga e per colonna.

{r` \begin{pmatrix} {\color{Gray} 0} & {\color{Gray} 0} & 1\\ {\color{Gray} 0} & 1 & {\color{Gray} 0}\\ 1 & {\color{Gray} 0} & {\color{Gray} 0}\\ \end{pmatrix} `}

Se premoltiplicata per una matrice, ne riordina le righe; se invece postmoltiplicata, ne riordina le colonne.

Premoltiplicare la matrice precedente scambia la prima e la terza righa, postmoltiplicarla scambia la prima e la terza colonna.

Matrice di permutazione con un solo scambio.

Sono nonsingolari, simmetriche e ortogonali.

Funzione che associa un valore positivo a ogni vettore diverso da 0, e 0 al vettore zero.

Esempi su Wikipedia

Massimo dei valori assoluti di tutti gli elementi del vettore.

{r`\Vert x \Vert_\infty = max_{i = 1..n} | x_i |`}

Somma dei valori assoluti di tutti gli elementi del vettore.

{r`\Vert x \Vert_1 = \sum_{i = 1}^n | x_i |`}

Radice quadrata della somma dei quadrati di tutti gli elementi del vettore.

{r`\Vert x \Vert_2 = \sqrt{\sum_{i = 1}^n x_i^2}`}

Funzione che associa un valore positivo a ogni matrice diversa da 0, e 0 alla matrice zero.

Si ricavano dalle norme vettoriali:

{r`\Vert A \Vert = sup_{x \in \mathbb{R}, x \neq 0} \frac{\Vert A \cdot x \Vert}{\Vert x \Vert}`}

sup è l'estremo superiore di un insieme. E' molto simile al massimo: ricordi le prime lezioni di Analisi?

Massimo delle somme dei valori assoluti di tutti gli elementi di ogni riga di una matrice.

{r`\Vert A \Vert_\infty = max_{i = 1..n} \sum_{j = 1}^n | a_{ij} |`}

Massimo delle somme dei valori assoluti di tutti gli elementi di ogni colonna di una matrice.

{r`\Vert A \Vert_1 = max_{j = 1..n} \sum_{i = 1}^n | a_{ij} |`}

Radice quadrata del rango del prodotto tra una matrice e la sua trasposta.

{r`\Vert A \Vert_2 = \sqrt{\rho ( A^T \times A ) }`}

Funzione che associa un valore reale positivo a ogni funzione.

Valore massimo che assume la funzione nel suo dominio.

{r`\| f \|_\infty = max | f(x) |`}

Le norme sono usate per calcolare l'errore relativo tra due vettori o matrici:

{r`\frac{\Vert x - y \Vert}{\Vert x \Vert}`}

L'errore, ovvero la massima distanza tra due funzioni, si ottiene con:

{r`\| f - g \|_\infty`}

Particolari algoritmi che hanno:

Con i numeri floating point può capitare che un certo numero {r`\alpha`} non sia rappresentato correttamente.

In tal caso, il numero si indica con {r`\alpha^\star`}.

È la differenza tra il numero desiderato e il numero rappresentato:

{r`E_a = \left | \alpha - \alpha^\star \right |`}

Indica quanto il numero rappresentato differisce dal numero desiderato:

{r`\forall \alpha \neq 0, E_r = \frac{E_a}{\left | \alpha \right |}`}

Metodo con cui gestire gli underflow floating point: le cifre meno significative vengono rimosse.

                        1.00  →  1.0
1.01 → 1.0
1.10 → 1.1
1.11 → 1.1

Metodo con cui gestire gli underflow floating point: se la cifra più significativa di quelle che devono essere rimosse è 1, allora aumenta di 1 anche quella meno signficativa che viene tenuta.

                        1.00  →  1.0
1.01 → 1.0
1.10 → 1.1
1.11 → 10.

Un numero reale rappresentato in virgola mobile ha un errore relativo minore o uguale alla precisione di macchina:

{r`\epsilon_x \leq k \cdot \beta^{1-t}`}

Associa un valore reale al suo corrispondente valore floating point, utilizzando uno dei due metodi di gestione dell'undeflow.

{r`fl(x) = (x)(1 + \epsilon_x)`} Indica che un valore è soggetto alla precisione di macchina. {r`fl(1.11) = 1.1`}

L'insieme {r`\mathbb{F}`} è il sottoinsieme dei numeri reali rappresentabili in floating point dalla macchina che stiamo usando.

Operazioni tra elementi di {r`\mathbb{F}`} producono risultati in {r`\mathbb{R}`}, che però decaderanno nuovamente a elementi di {r`\mathbb{F}`}, perdendo informazioni.

Il teorema della precisione di macchina si applica quindi anche ai risultati delle operazioni.

Errore derivato da underflow sui dati.

Si indica con {r`\epsilon_{nome\_var}`}.

L'errore sulla variabile x si indica con {r`\epsilon_{x}`}.

Errore derivato da underflow durante l'esecuzione dell'algoritmo.

Si indica con {r`\epsilon_{num\_passo}`}.

L'errore al primo passo dell'algoritmo si indica con {r`\epsilon_{1}`}.

Sensibilità di un problema all'errore inerente.

{r`y = \frac{1}{x}`} è mal condizionato intorno allo 0 e ben condizionato lontano dallo 0.

Sensibilità di un problema all'errore algoritmico.

Cerchiamo un algoritmo che risolva {r`2x^\star = 4`}.

Calcolare prima {r`t = fl \left( \frac{1}{4} \right)`} e poi {r`x = fl ( 2 \cdot t )`} porta a una perdita di precisione.

Calcolare direttamente {r`x = fl \left( \frac{2}{4} \right)`} non ha alcuna perdita di precisione e rende l'algoritmo più stabile del precedente.

È il coefficiente di proporzionalità tra i dati e l'errore inerente.

Essendo sempre maggiore di uno, si può dire che sia un coefficiente di amplificazione.

Minore è l'indice di condizionamento, meglio condizionato è un problema.

È il coefficiente di proporzionalità tra i dati e l'errore algoritmico.

Essendo sempre maggiore di uno, si può dire che sia un coefficiente di amplificazione.

Dato un sistema di equazioni lineari, si vuole trovare la sua soluzione.

In forma matriciale, avrà una matrice dei coefficienti {r`A`}, un vettore dei termini noti {r`b`} e un vettore delle incognite {r`x`}.

L'equazione matriciale del sistema è:

{r`A \cdot x = b`}

Il condizionamento della risoluzione di sistemi lineari è:

{r`\frac{{\color{yellow} \|A\| \cdot \|A^{-1}\|} \cdot \| \Delta b \|}{\| b \|}`}

In particolare, è segnato in giallo nella formula il numero di condizionamento:

{r`k(A) = \| A \| \cdot \| A^{-1} \|`}

Metodi che trovano la soluzione esatta* di un sistema lineare.

Tipicamente prevedono la fattorizzazione della matrice dei coefficienti in due sottomatrici più facili da risolvere.

Generalmente hanno una complessità temporale {r`O(n^3)`}.

Metodi che trovano una soluzione imperfetta* di un sistema lineare.

Tipicamente prevedono l'applicazione ripetuta di un metodo, in base al quale cambia la velocità di convergenza alla soluzione.

Generalmente hanno una complessità temporale {r`O(n^2)`}.

Se la matrice dei coefficienti del sistema è diagonale, allora è possibile trovare la soluzione dividendo ogni termine noto per l'unico coefficiente diverso da zero presente nella sua riga:

{r`x_i = \frac{b_i}{A_{ii}}`}

Se la matrice dei coefficienti del sistema è triangolare inferiore o superiore, allora è possibile trovare la soluzione effettuando una sostituzione all'avanti oppure all'indietro:

{r`x_i = \frac{b_i - \sum_{k = 1}^{i - 1} (x_k \cdot A_{ik})}{A_{ii}}`} {r`x_i = \frac{b_i - \sum_{k = i - 1}^{n} (x_k \cdot A_{ik})}{A_{ii}}`}
Fattorizzazione {r`LU`}}>

Se tutti i valori sulla diagonale di {r`A`} sono diversi da 0 (eccetto l'ultimo) allora è possibile fattorizzarla in due matrici: una {r`L`} triangolare inferiore, e una {r`U`} triangolare superiore.

{r`A = L \cdot U`} Abbiamo fatto questo metodo in Algebra Lineare, chiamandolo metodo di Gauss.

La matrice {r`L`} è così composta:

{r` \begin{cases} L_{ii} = 1 \qquad \qquad (diagonale)\\ L_{ik} = -\frac{A_{ik}}{A_{kk}} \qquad (tri.\ infer.) \end{cases} `} Sono i moltiplicatori usati per rendere annullare il triangolo inferiore!

La matrice {r`U`} è così composta:

{r` \begin{cases} U_{ik} = A_{ik} \quad se\ i \leq k \quad (tri.\ super.)\\ U_{ik} = 0 \qquad se\ i > k \quad (tri.\ infer.) \end{cases} `} È la parte triangolare superiore di {r`A`}!

Il sistema può essere poi risolto applicando due volte il metodo di sostituzione (all'avanti e all'indietro):

{r` \begin{cases} L \cdot y = b\\ U \cdot x = y \end{cases} `}

Questo metodo ha costo computazionale:

{r`{\color{Yellow} O\left(\frac{n^3}{3}\right)} + 2 \cdot O\left(\frac{n^2}{2}\right)`}
Fattorizzazione {r`LU`} con pivoting parziale}>

È possibile applicare la fattorizzazione {r`LU`} a qualsiasi matrice non-singolare permettendo lo scambio (pivoting) delle righe, potenzialmente aumentando la stabilità dell'algoritmo.

Abbiamo fatto questo metodo in Algebra Lineare, chiamandolo metodo di Gauss-Jordan!

Alla formula precedente si aggiunge una matrice di permutazione che indica quali righe sono state scambiate:

{r`P \cdot A = L \cdot U`}

Per massimizzare la stabilità, si cerca di usare come perno l'elemento più grande della colonna.

Questo metodo ha costo computazionale:

{r`{\color{Yellow} O\left(\frac{n^2}{2}\right)} + O\left(\frac{n^3}{3}\right) + 2 \cdot O\left(\frac{n^2}{2}\right)`}
Fattorizzazione {r`LU`} con pivoting totale}>

È possibile anche permettere il pivoting sulle colonne per aumentare ulteriormente la stabilità dell'algoritmo, a costo di maggiore costo computazionale:

{r`P \cdot A \cdot Q = L \cdot U`}

Per massimizzare la stabilità, si cerca di ordinare in modo decrescente la diagonale, assicurandoci che il primo perno sia più grande del secondo e così via.

Questo metodo ha costo computazionale:

{r`{\color{Yellow} O\left(\frac{n^3}{3}\right)} + O\left(\frac{n^3}{3}\right) + 2 \cdot O\left(\frac{n^2}{2}\right)`}
Fattorizzazione {r`LU`} a banda}>

Se la matrice {r`A`} è a banda, è possibile risparmiare spazio durante la fattorizzazione, in quanto sia {r`L`} sia {r`U`} saranno a banda!

Fattorizzazione {r`LU`} sparsa}>

Se la matrice {r`A`} è sparsa, non è detto che {r`L`} e {r`U`} siano sparse a loro volta.

Per evitare il fill-in, è necessario riordinare la matrice {r`A`} in modo che sia il più possibile simile a una matrice a banda.

Fattorizzazione {r`LDL^{-1}`}}>

È possibile ridurre la complessità computazionale della fattorizzazione {r`LU`} se la matrice dei coefficienti è simmetrica:

{r`A = L \cdot D \cdot L^{-1}`}

In questo caso, si calcola solo la matrice L, utilizzando il metodo di pavimentazione.

{r` \begin{cases} d_{ii} = A_{ii} - \sum_{k=1}^{i-1} ( d_{kk} \cdot (l_{jk})^2 )\\ \\ l_{ij} = \frac{A_{ij} - \sum_{k=1}^{j-1} l_{ik} \cdot d_{kk} \cdot l_{jk}}{d_{ii}} \end{cases} `}

La prima colonna della matrice sarà:

{r` \begin{cases} d_{11} = A_{11}\\ \\ l_{i1} = \frac{A_{i1}}{d_{11}} \end{cases} `}

La seconda colonna della matrice sarà:

{r` \begin{cases} d_{22} = A_{22} - d_{11} \cdot (l_{21})^2\\ \\ l_{i2} = \frac{A_{i2} - l_{i1} \cdot d_{11} \cdot l_{21}}{d_{ii}} \end{cases} `}

Questo metodo ha costo computazionale:

{r`{\color{Yellow} O\left(\frac{n^3}{6}\right)} + O\left(\frac{n^3}{3}\right) + 2 \cdot O\left(\frac{n^2}{2}\right)`}
Fattorizzazione {r`\mathcal{L} \mathcal{L}^{-1}`}}>

È possibile dare stabilità forte alla fattorizzazione {r`LDL^{-1}`} se la matrice dei coefficienti è simmetrica definita positiva:

{r`A = \mathcal{L} \cdot \mathcal{L}^{-1}`}

Il metodo di pavimentazione diventa:

{r` \begin{cases} l_{ii} = \sqrt{A_{ii} - \sum_{k=1}^{i-1} (l_{ik})^2 }\\ \\ l_{ij} = \frac{A_{ij} - \sum_{k=1}^{j-1} l_{ik} \cdot l_{jk}}{l_{ii}} \end{cases} `}

Questo metodo ha costo computazionale:

{r`O\left(\frac{n^3}{3}\right) + O\left(\frac{n^3}{3}\right) + 2 \cdot O\left(\frac{n^2}{2}\right)`}

Matrice ricavata dalla seguente formula, dove {r`v`} è la colonna di un'altra matrice:

{r`U(v) = \mathbf{I} - \frac{2 \cdot v \cdot v^T}{\| v \|_{(2)}^2}`}

Se moltiplicata per per la matrice da cui proviene {r`v`}, sostituirà la colonna {r`v`} con la colonna:

{r` \begin{pmatrix} - \| v \|\\\\ 0\\\\ 0\\\\ \vdots\\\\ 0 \end{pmatrix} `}

Si calcola con una complessità computazionale nell'ordine di {r`O(n)`}.

Fattorizzazione {r`QR`}}>

Metodo che fornisce una maggiore stabilità a costo di una maggiore complessità computazionale.

La matrice {r`A`} viene fattorizzata in due matrici, una ortogonale {r`Q`} e una triangolare superiore {r`R`}:

{r`A = Q \cdot R`}

Le matrici si ottengono dal prodotto delle trasformazioni di Householder (che concatenate formano {r`Q`}) sulla matrice {r`A`} necessarie a trasformarla in una matrice triangolare superiore ({r`R`}).

C'è un bell'esempietto qui.

Una volta fattorizzata, il sistema si può risolvere con:

{r` \begin{cases} y = Q^T \cdot b\\ R \cdot x = y \end{cases} `}

Questo metodo ha costo computazionale:

{r`{\color{Yellow} O\left(\frac{2 \cdot n^3}{3}\right)} + 2 \cdot O\left(\frac{n^2}{2}\right)`}

Se si pone che:

{r` \begin{cases} G = I - M^{-1} \cdot A\\ c = M^{-1} \cdot b \end{cases} `}

Allora la formula generale di un sistema lineare può anche essere scritta in questo modo:

{r`x = G \cdot x + c`}

È particolarmente utile perchè ci permette di definire un algoritmo ricorsivo che trovi {r`x`}:

{r`x_{(i+1)} = G \cdot x_{(i)} + c`}

{r`G`} è il metodo, e in base ad esso cambiano stabilità e velocità di convergenza.

Ponendo {r`A = M - N`}, la formula può essere scritta anche in questo modo:

{r`M \cdot x_{(i+1)} = N \cdot x_{(i)} + b`}

Possiamo ottenere alcuni metodi separando A in tre matrici:

{r`A = D - E - F`}

Un metodo è convergente se e solo se:

{r`\rho (M) < 1`}

(dove {r`\rho`} è il raggio spettrale, il massimo autovalore della matrice)

Perchè un metodo sia convergente, è sufficiente che:

{r`\| M \| < 1`}

Il metodo di Jacobi si ottiene ponendo:

{r` \begin{cases} M = D\\ N = E + F \end{cases} `}

Spostamenti simultanei: Permette di ottenere ogni componente di {r`x`} indipendentemente dagli altri: è parallelizzabile.

Se la matrice è diagonale dominante, allora il metodo di Jacobi converge sicuramente.

Il metodo di Gauss-Seidel si ottiene ponendo:

{r` \begin{cases} M = D - E\\ N = F \end{cases} `}

Ha una velocità di convergenza maggiore o uguale rispetto al metodo di Jacobi.

Spostamenti successivi: Non è parallelizzabile, perchè ogni componente dipende da quelle calcolate in precedenza.

Se la matrice è diagonale dominante, allora il metodo di Gauss-Seidel converge sicuramente.

Si vogliono trovare i punti (zeri) in cui una funzione continua f : [a, b] \to R vale 0.

Per il teorema del valore medio, se {r`f(a) \cdot f(b) \leq 0`}, allora esiste sicuramente un punto in cui la funzione vale 0.

Denominiamo il punto in cui la funzione vale 0 come {r`x_{(\star)}`}.

Più la derivata prima della funzione si avvicina allo 0, peggio il problema sarà condizionato.

{r`f'(x_{(\star)}) \simeq 0 \implies mal\ condizionato`}

Indice {r`{\color{Orange} p}`} di quanto in fretta una successione converge alla soluzione.

{r`\lim_{i \to +\infty} \frac{ \left| x_{(i+1)} - x_{(\star)} \right| }{ \left| x_{(k)} - x_{(\star)} \right|^{\color{Orange} p}}`}

Sono metodi iterativi in grado di ridurre sempre di più l'intervallo in cui è definita la funzione, facendolo convergere allo zero desiderato.

Alcuni di essi sono il metodo dicotomico e il metodo regula falsi.

Richiedono una valutazione di funzione non-lineare ad ogni iterazione.

Ad ogni iterazione, l'intervallo viene sempre almeno dimezzato; si ha, pertanto, che:

{r`b_{(i)} - a_{(i)} = \frac{b - a}{2^{i - 1}}`}

Hanno quindi convergenza lineare ({r`C = \frac{1}{2}, p = 1`}).

Il loro criterio di arresto è un numero di iterazioni prefissato che dipende dalla tolleranza sull'errore:

{r`i \geq \log_2 \left( \frac{b - a}{\tau} \right)`} Dividi l'intervallo {r`[a, b]`} in tante parti grandi quanto la tolleranza. L'algoritmo di bisezione ne escluderà metà ad ogni iterazione; la tolleranza sarà raggiunta quando rimarrà una parte sola!
  1. Finchè non sono state compiute il numero di iterazioni prefissate:
    1. Calcoliamo il punto medio dell'intervallo {r`[a_{(n)}, b_{(n)}]`}: {r`c_{(n)} = a_{(n)} + \frac{b_{(n)} - a_{(n)}}{2}`}
    2. Dividiamo l'intervallo in due parti, separate da {r`c_{(n)}`}:
      • {r`[a_{(n)}, c_{(n)}]`} è la metà sinistra
      • {r`[c_{(n)}, b_{(n)}]`} è la metà destra
    3. Teniamo l'intervallo in cui i valori della funzione ai due estremi sono discordi, e rinominiamolo in {r`[a_{(n+1)}, b_{(n+1)}]`}.
  1. Finchè non sono state compiute il numero di iterazioni prefissate:
    1. Calcoliamo l'intersezione tra la retta che congiunge i due estremi {r`a_{(n)}, b_{(n)}`} e l'asse X: {r`c_{(n)} = b_{(n)} - \frac{f(b_{(n)})}{\frac{f(b_{(n)}) - f(a_{(n)})}{b_{(n)} - a_{(n)}}}`}
    2. Dividiamo l'intervallo in due parti, separate da {r`c_{(n)}`}:
      • {r`[a_{(n)}, c_{(n)}]`} è la parte sinistra
      • {r`[c_{(n)}, b_{(n)}]`} è la parte destra
    3. Teniamo l'intervallo in cui i valori della funzione ai due estremi sono discordi, e rinominiamolo in {r`[a_{(n+1)}, b_{(n+1)}]`}.

Sono metodi iterativi che funzionano in modo molto simile ai metodi iterativi per i sistemi lineari, utilizzando una funzione {r`\phi`} come "metodo".

{r`x = x - \phi(x) \cdot f(x)`}

Che diventa:

{r`x_{(k+1)} = g( x_{(k)} )`}

Sfruttano i punti fissi {r`g(x_{(\star)}) = x_{(\star)}`} della funzione {r`f`} per convergere:
se {r`\phi(x)`} non ha zeri, allora i punti fissi coincideranno con gli zeri della funzione {r`f`}.

{r`g(x) = x - \phi(x) \cdot f(x)`}

Si può raggiungere iterativamente ad un punto fisso attraverso la formula:

{r`x_{(k+1)} = g( x_{(k)} )`}

Non si conosce in anticipo il numero di iterazioni necessarie per soddisfare la tolleranza {r`\tau`}; ad ogni iterazione, si controlla se la tolleranza è soddisfatta:

Se:

Allora:

Più è piccolo L, più il metodo convergerà in fretta.

L è molto simile al raggio spettrale {r`\rho(M)`} dei metodi iterativi per i sistemi lineari!

Sfrutta la continuità delle funzioni per ottenere una convergenza di ordine più alto.

{r`\phi (x) = \frac{1}{f' (x)}`} {r`x_{(k+1)} = x_{(k)} - \frac{ f(x_{(k)}) }{ f'(x_{(k)}) }`} Geometricamente, corrisponde a prolungare una retta nel punto {r`(x_{(k)}, f(x_{(k)}))`} con pendenza {r`f'(x_{(k)})`}, e prendendo come nuovo punto la sua intersezione con l'asse X e la sua corrispettiva immagine nella funzione.

Ha costo computazionale di 2 valutazioni di funzione più 2 valutazioni di derivata.

Ha convergenza quadratica.

È come il metodo di Newton, ma usa il rapporto incrementale, in modo da poter essere applicato a funzioni non continue.

{r`\phi (x) = \frac{ 1 }{ \frac{ f(x_{(k)}) - f(x_{(k-1)}) }{ x_{(k)} - x_{(k-1)} } }`} {r`x_{(k+1)} = x_{(k)} - \frac{ f(x_{(k)}) }{ \frac{ f(x_{(k)}) - f(x_{(k-1)}) }{ x_{(k)} - x_{(k-1)} } }`} Geometricamente, corrisponde a costruire una retta che attraversa i punti {r`(x_{(k)}, f(x_{(k)}))`} e {r`(x_{(k-1)}, f(x_{(k-1)}))`}, e prendendo come nuovo punto la sua intersezione con l'asse X e la sua corrispettiva immagine nella funzione.

Ha costo computazionale di 3 valutazioni di funzione.

Ha convergenza superlineare.

È possibile usare questi metodi per approssimare le soluzioni di sistemi non-lineari.

Si vuole trovare una funzione in grado di approssimarne un'altra, di cui si conoscono però solo alcuni punti.

È utile in un sacco di casi! Ad esempio, quando si vuole scalare un'immagine.

I punti sono detti nodi {r`(x_i, y_i)`}, mentre la funzione costruita su di essi è detta interpolante {r`g`}:

{r`g(x_i) = y_i`}

Dato un insieme di punti, esistono infinite funzioni interpolanti.

Il teorema fondamentale dell'algebra dice che esiste una sola interpolante polinomiale che interpola un dato insieme di punti.

Con n+1 punti, l'interpolante sarà al massimo di grado n, e viene detta {r`p_n`}.

La sua forma canonica sarà:

{r`p_n(x) = a_0 + a_1 x + a_2 x^2 + a_3 x^3 + \dots + a_n x^n`}

È possibile scrivere la forma canonica come matrice:

{r`A \cdot x = b`}

Costruiamo la matrice di Vandermonde:

{r` A = \begin{pmatrix} 1 & x_0 & x_0^2 & \dots & x_0^n\\\\ 1 & x_1 & x_1^2 & \dots & x_1^n\\\\ 1 & x_2 & x_2^2 & \dots & x_2^n\\\\ \vdots & \vdots & \vdots & \ddots & \vdots\\\\ 1 & x_n & x_n^2 & \dots & x_n^n \end{pmatrix} `}

Costruiamo il vettore delle incognite:

{r` x = \begin{pmatrix} a_0\\\\ a_1\\\\ a_2\\\\ \vdots\\\\ a_n \end{pmatrix} `}

Costruiamo il vettore dei termini noti:

{r` b = \begin{pmatrix} y_0\\\\ y_1\\\\ y_2\\\\ \vdots\\\\ y_n \end{pmatrix} `} Per trovare il polinomio di interpolazione è sufficiente risolvere il problema!

È efficace perchè una volta calcolati i coefficienti essi valgono per tutti i punti, ma ha come svantaggio che la matrice di Vandermonde è spesso malcondizionata.

È possibile scrivere il polinomio di interpolazione raccogliendo le {r`y`}:

{r`p_n (x) = y_0 L_0 + y_1 L_1 + y_2 L_2 + \dots + y_n L_n`}

I polinomi {r`L_k`} sono detti polinomi di Lagrange, e hanno le seguenti proprietà:

Non c'è il termine con {r`x_k`}!

Tutti insieme formano la base di Lagrange.

Si chiama base perchè sono linearmente indipendenti!

Questo metodo permette di calcolare il valore del polinomio di interpolazione in un singolo punto:

Si può risparmiare tempo di calcolo calcolando una singola volta il numeratore con tutti i termini:

{r`\omega_n = (x - x_0) \cdot (x - x_1) \cdot \dots \cdot (x - x_n)`}

E poi dividendo per il termine che andrebbe escluso:

{r`L_k(x) = \frac{ \omega_n }{ (x - x_k) \cdot \prod_{i=0, i \neq k} (x_k - x_i) }`}

Ha costo computazionale {r`O(n^2)`}.

È l'errore compiuto durante l'interpolazione.

Se la funzione f è interpolata da p_n, allora esso varrà:

{r`R_n(x) = f(x) - p_n(x)`}

In particolare, è interessante la sua norma a infinito, {r`\| f - p_n \|_\infty`}, che corrisponde alla distanza massima tra le due funzioni.

Un teorema dice che esso è uguale a:

{r`R_n(x) = \frac{ \omega_n(x) }{ (n + 1)! } \cdot f^{(n+1)}(\xi)`}

L'errore nell'interpolazione dipende principalmente da due fattori:

Fenomeno che si verifica cercando di interpolare la funzione di Runge ({r`\frac{1}{1 + 25x^2}`}).

Scegliendo nodi equispaziati, l'errore di interpolazione sarà enorme vicino ai due estremi dell'intervallo.

Addirittura, più nodi verranno scelti, più esso sarà alto!

Si evita scegliendo i nodi in una maniera diversa.

Nodi ottenuti partizionando una semicirconferenza, e proiettando le partizioni sul diametro.

La formula usata per ottenere {r`n`} punti è:

{r`x_i = \cos \left( \frac{ (2 \cdot i + 1) \cdot \pi }{ 2 \cdot (n+1) } \right)`}

Proprietà di min-max: sono la scelta ottimale dei punti di interpolazione.

{r`\omega_n(\star) = \max_{x \in [a, b]} \left| \omega_n(x) \right|`}

In particolare, si ha che:

{r`\omega_n(\star) = 2 \left( \frac{b-a}{4} \right)^{n+1}`}

Invece che costruire una singola funzione che interpola tutti i punti, per ogni intervallo tra due punti (sottointervallo) si costruisce una funzione apposta.

Interpolanti che:

Significa che agli estremi dell'intervallo, i valori di tutte le derivate fino al grado {r`n - 1`} devono essere uguali:

{r`\forall \ k \leq n-1, \forall \ i \in \{intervalli\}, \quad s_i^{(k)} (x_{i+1}) = s_i^{(k)} (x_{i+1})`}

Hanno {r`n + m + 1`} gradi di libertà.

Esistono infinite spline di grado {r`n \geq 2`}!
Sono anche dette interpolanti lineari a tratti.

Per ogni sottointervallo, costruiamo una funzione lineare passante per i due estremi:

{r`s_i(x) = y_i + \frac{ y_{i + 1} - y_i }{ x_{i + 1} - x_i } \cdot (x - x_i)`} È una linea spezzata!

Il loro errore è:

{r`\| R \|_\infty = \| f - s \|_\infty \leq \frac{1}{8} \cdot \max_{y \in [a, b]} \left| f''(y) \right| \cdot \left( \max_{i \in \{intervalli\}} (x_{i+1} - x_{i}) \right)^2`}

Ha come vantaggi complessità computazionale molto più bassa e l'assenza del fenomeno di Runge, ma allo stesso tempo si perde la derivabilità della funzione.

Non hanno gradi di libertà.

Spline con {r`n = 3`}, che soddisfano le seguenti uguaglianze:

{r` \forall \ i \in \{0,\ \dots\ ,\ m - 1\},\ \begin{cases} s_i (x_{i+1}) = s_{i+1} (x_{i+1})\\\\ s'_i (x_{i+1}) = s'_{i+1} (x_{i+1})\\\\ s''_i (x_{i+1}) = s''_{i+1} (x_{i+1}) \end{cases} `} {r` \forall \ i \in \{0,\ \dots\ ,\ m + 1\},\ \begin{cases} s_i(x_i) = y_i \end{cases} `}

Esse hanno la seguente equazione:

{r`s_i(x) = \alpha_i + \beta_i \ ( x - x_i ) + \gamma_i \ ( x - x_i )^2 + \delta_i \ ( x - x_i )^3`} Spesso si indica con {r`h`} la distanza orizzontale tra due punti di un sottointervallo.

Classe di spline cubiche in cui:

È unica.

Forma il seguente sistema di equazioni:

{r`T z = c`} {r` b_i = h_{i+1} \beta_i + 2 ( h_i + h_{i+1} ) + h_{i} \beta_i+2 `} {r` T = \begin{pmatrix} 2 (h_0 + 2 h_1) & h_0 & {\color{Gray} 0} & {\color{Gray} 0} & {\color{Gray} 0} \\\\ h_2 & 2 (h_1 + h_2) & h_1 & {\color{Gray} 0} & {\color{Gray} 0} \\\\ {\color{Gray} 0} & \ddots & \ddots & \ddots & {\color{Gray} 0} \\\\ {\color{Gray} 0} & {\color{Gray} 0} & h_{m-1} & 2 (h_{m-2} + h_{m-1}) & h_{m-2} \\\\ {\color{Gray} 0} & {\color{Gray} 0} & {\color{Gray} 0} & h_m & 2 (h_{m-1} + h_m) \end{pmatrix} `} {r` z = \begin{pmatrix} \beta_1\\\\ \beta_2\\\\ \vdots\\\\ \beta_{m-1}\\\\ \beta_{m} \end{pmatrix} `} {r` c = \begin{pmatrix} b_0 - h_1 \beta_0\\\\ b_1\\\\ \vdots\\\\ b_{m-2}\\\\ b_{m-1} - h_{m-1} \beta_{m+1} \end{pmatrix} `}

Classe di spline cubiche in cui:

È unica.

Classe di spline cubiche in cui:

È unica.

Classe di spline cubiche in cui:

È unica.

Tra tutte le funzioni che interpolano dei punti, le tre classi di funzioni sopraelencate sono quelle che interpolano la funzione più "dolcemente".

Per loro è valida la seguente proprietà:

{r`\int_a^b ( s''(x) )^2 dx \leq \int_a^b ( f''(x) )^2 dx`}

Più diminuisce la lunghezza {r`h`} degli intervalli, più aumenta l'accuratezza.

Non si verifica il fenomeno di Runge.

Si ha un'interpolazione anche della derivata prima.

Interpolare dati sperimentali non fornisce quasi mai un modello del fenomeno.

Vogliamo costruire una funzione di regressione che, dati molti più dati del grado della funzione, minimizzi il quadrato della distanza tra i punti sperimentali e i punti della funzione di regressione.

Denominiamo:

L'obiettivo è minimizzare l'errore di approssimazione {r`Q`}, ovvero:

{r`\min {\color{Red} Q } = \sum_{i = 1}^m (\ {\color{Yellow} q(x_i)} - {\color{Orange} f(x_i)}\ )^2 `}

Trova la retta {r`{\color{Yellow} q}`} che meglio approssima tutti gli {r`m`} dati sperimentali.

Essendo una retta, avrà due parametri: il termine noto {r`a_0`}, e la pendenza {`a_1`}.

{r`{\color{Yellow} q(x) } = a_0 + a_1 \cdot {\color{Green} x}`}

L'errore da minimizzare per ricavare i parametri sarà:

{r` \min {\color{Red} Q } = \sum_{i = 1}^m ( {\color{Yellow} a_0 + a_1 \cdot x_i} - {\color{Orange} f(x_i)} )^2 `}

Possiamo costruire una matrice di regressione {r`A`} contenente tutti i punti sperimentali:

{r` A = \begin{pmatrix} 1 & x_1\\\\ 1 & x_2\\\\ \vdots & \vdots\\\\ 1 & x_m \end{pmatrix} `}

Inoltre, se costruiamo il vettore dei parametri {r`\alpha`}:

{r` \alpha = \begin{pmatrix} a_0\\\\ a_1 \end{pmatrix} `}

Avremo che:

{r`{\color{Yellow} q(x) } = A \cdot \alpha`}

Inoltre, potremo calcolare l'errore attraverso la norma:

{r`{\color{Red} Q } = \| A \cdot \alpha - y \|^2`}

Trova il polinomio {r`{\color{Yellow} q}`} di grado {r`n-1`} che meglio approssima tutti gli {r`m`} dati sperimentali.

Essendo un polinomio di grado {r`n-1`}, avrà {r`n`} parametri.

{r`{\color{Yellow} q(x) } = a_0 + a_1 \cdot {\color{Green} x} + a_2 \cdot {\color{Green} x^2} +\ \dots \ + a_{n-1} \cdot {\color{Green} x^{n-1}`}

La regressione lineare è un caso particolare di regressione generale in cui i parametri sono 2!

L'errore da minimizzare per ricavare i parametri sarà:

{r` \min {\color{Red} Q} = \sum_{i = 1}^m ( {\color{Yellow} a_0 + a_1 \cdot x_i + a_2 \cdot x_i^2 +\ \dots \ + a_{n-1} \cdot x_i^{n-1}} - {\color{Orange} y_i} )^2 `}

Possiamo costruire una matrice di regressione {r`A`} contenente tutti i punti sperimentali a tutti i gradi del polinomio:

{r` A = \begin{pmatrix} 1 & x_1 & x_1^2 & \dots & x_1^{n-1} \\\\ 1 & x_2 & x_2^2 & \dots & x_2^{n-1} \\\\ \vdots & \vdots & \vdots & \ddots & \vdots \\\\ 1 & x_m & x_m^2 & \dots & x_m^{n-1} \end{pmatrix} `}

Inoltre, se costruiamo il vettore dei parametri {r`\alpha`}:

{r` \alpha = \begin{pmatrix} a_0\\\\ a_1\\\\ \vdots\\\\ a_{n-1} \end{pmatrix} `}

Avremo che:

{r`{\color{Yellow} q(x) } = A \cdot \alpha`}

Inoltre, potremo calcolare l'errore attraverso la norma:

{r`{\color{Red} Q } = \| A \cdot \alpha - y \|^2`} Normalmente, i dati sono molti di più, ma se il numero di parametri {r`n`} fosse uguale al numero di dati {r`m`}, allora si otterrebbe il polinomio di interpolazione!

Trova i coefficienti della combinazione lineare {r`{\color{Yellow} q}`} che meglio approssima tutti gli {r`m`} dati sperimentali.

{r`{\color{Yellow} q(x) } = a_0 \cdot {\color{Green} \phi_0 (x)} + a_1 \cdot {\color{Green} \phi_1 (x)} + \dots + a_2 \cdot {\color{Green} \phi_2 (x)} +\ \dots\ + a_{n-1} \cdot {\color{Green} \phi_{n-1} (x)}`}

La regressione polinomiale è un caso particolare di regressione generale in cui:

{r`{\color{Green} \phi_{n} (x)} = x^n`}

L'errore da minimizzare per ricavare i parametri sarà:

{r` \min {\color{Red} Q } = \sum_{i = 1}^m ( {\color{Yellow} a_0 \cdot \phi_0 (x) + a_1 \cdot \phi_1 (x) + \dots + a_2 \cdot \phi_2 (x) +\ \dots\ + a_{n-1} \cdot \phi_{n-1} (x)} - {\color{Orange} f(x_i)} )^2 `}

Possiamo costruire una matrice di regressione {r`A`} contenente tutti i punti sperimentali a tutti i gradi del polinomio:

{r` A = \begin{pmatrix} \phi_0(x_1) & \phi_1(x_1) & \phi_2(x_1) & \dots & \phi_{n_1}(x_1) \\\\ \phi_0(x_2) & \phi_1(x_2) & \phi_2(x_2) & \dots & \phi_{n-1}(x_2) \\\\ \vdots & \vdots & \vdots & \ddots & \vdots \\\\ \phi_0(x_m) & \phi_1(x_m) & \phi_2(x_m) & \dots & \phi_{n-1}(x_m) \end{pmatrix} `}

Inoltre, se costruiamo il vettore dei parametri {r`\alpha`}:

{r` \alpha = \begin{pmatrix} a_0\\\\ a_1\\\\ \vdots\\\\ a_{n-1} \end{pmatrix} `}

Avremo che:

{r`{\color{Yellow} q(x) } = A \cdot \alpha`}

Inoltre, potremo calcolare l'errore attraverso la norma:

{r`{\color{Red} Q } = \| A \cdot \alpha - y \|^2`}

Caso che prevede che le colonne di {r`A`} siano linearmente indipendenti.

La soluzione esiste sempre, ed è unica.

Per trovarla:

Caso che non preclude alcuna composizione di {r`A`}.

Ci sono infinite soluzioni, con {`n-k`} gradi di libertà.

Si cerca sempre di trovare la soluzione di norma minima, che, se {r`k \leq n \leq m`}, allora è unica.

Per trovarla:

Gli zeri nella {r`\gamma`} sono i gradi di libertà, sono zero in modo che essi diano la norma minima.
}