Tesis/II.rmd at master · CruzJulian/Tesis · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
---
title: "Fundamentos"
author: "Julian Cruz"
output:
  pdf_document:
    keep_tex: true
    toc: false
    number_sections: true
bibliography: Biblio.bib
csl: apa.csl
linkcolor: blue

---

# Nube de puntos

## Definiciones iniciales

El objeto de estudio se denomina nube de puntos. En el argot estadístico una nube de puntos se menciona como un concepto intuitivo, que corresponde de alguna manera a una colección finita de elementos en un espacio euclidiano. Muchas veces los valores poseen una estructura de pesos muestrales o factores de expansión asociados. Estos conceptos se formalizan a continuación.

Sea $(\Omega, \| \cdot\|)$ un espacio de Banach y $\mathcal{B}$ su $\sigma$-álgebra de Borel. Las siguientes son directrices de notación, acuerdos y definiciones iniciales:

 - El espacio de Banach medible $(\Omega, \| \cdot\|, \mathcal{B})$ se notará $(\Omega, \mathcal{B})$ y se entenderá como un espacio de Banach a menos que se especifique lo contrario.

 - Familia [@Shao, definición 2.1]: Un conjunto de medidas de probabilidad sobre $(\Omega, \mathcal{B})$ se denomina familia y se nota $\mathcal{P}$. Siempre es posible indexar una familia $\mathcal{P}$ mediante un espacio $\Theta$ que se denomina espacio de parámetros. Una familia $\mathcal{P}$ con un espacio de parámetros $\Theta$ de dimensión finita $d$, se denomina familia paramétrica. Una familia $\mathcal{P}$ cuyo espacio de parámetros $\Theta$ es necesariamente de dimensión infinita se denomina familia no paramétrica. Toda familia paremétrica está contenida en una familia no paramétrica, asímismo toda familia no paramétrica $\mathcal{P}$ contiene familias paramétricas.

 - Cada elemento $\theta$ del espacio de parámetros $\Theta$ que se denomina parámetro. Así, una familia se puede escribir como $\mathcal{P} = \{ P_{\theta} \mid \theta \in \Theta \}$. Una familia se puede $\mathcal{P}$ indexar a sí misma; en este sentido, una medida de probabilidad puede ser un parámetro de si misma.

 - El conjunto de todas las medidas de probabilidad sobre el espacio medible $(\Omega, \mathcal{B})$ se nota $\mathbb{P}$. Dada una medida $\lambda$ sobre $(\Omega, \mathcal{B})$ se nota $\mathbb{P}_\lambda$ el la familia que contiene todas las medidas de probabilidad sobre $(\Omega, \mathcal{B})$ absolutamente contínuas con respecto a $\lambda$. Es posible indexar $\mathbb{P}_\lambda$ usando como espacio de parámetros el conjunto de todas sus derivadas con respecto a $\lambda$, no obstante se trata en general de una familia no paramétrica.

 - En adelante $\int$ representa la integral de Bochner. Se trata de una generalización de la integral de Lebesgue para funciones con valores en espacios de Banach. @Cohn hace un repaso claro y conciso sobre esta integral. El uso de la integral de Bochner evita, en parte, el uso del concepto de vectores aleatorios enriqueciendo la construcción teórica. Es importante tener en cuenta que la definición de integral incluye los casos divergentes, es decir, los valores $\infty$ y $-\infty$ están contemplados como posibles resultados de una integral.

 - Dados dos números naturales $a$ y $b$, se nota $a:b$ al intervalo de números naturales entre $a$ y $b$ inclusive.

 - Salvo se especifique lo contrario, se usarán el símbolo $\wp$ para notar la $\sigma$-álgebra discreta en tanto el contexto sea claro.

 - Asimismo, el símbolo $\ddot{\mu}$ se reserva para la medida cardinal; el símbolo $\ddot{\lambda}$, para la de Lebesgue.

 - Se nota $\mathcal{P}_n$ a la familia de todas las medidas de probabilidad sobre $(1:n, \wp)$.

 - Sea $p$ un elemento de $\mathcal{P}_n$, es decir, una medida de probabilidad sobre $(1:n, \wp)$. Una función $s$ del espacio de probabilidad $(1:n,\wp, p)$ en el espacio medible, $(\Omega, \mathcal{B})$ se denomina nube de puntos. En símbolos:

 - Una nube de puntos $s$ es una función simple y medible. Siendo función, tiene dominio $Dom(s)$, rango $Ran(s)$, y en virtud de ser medible tiene una medida asociada $P_s$ sobre $(\Omega, \mathcal{B})$.

\begin{align}
&p\in\mathcal{P}_n \\
s:(1:n, \wp, p) & \longrightarrow (\Omega, \mathcal{B})\\
P_s: \mathcal{B} & \longrightarrow [0,1]\\
B & \mapsto P_s(B) := p(s^{-1}(B))
\end{align}

 - Dada una nube de puntos $s$ su tamaño es el máximo de su dominio: $n_s := \max(Dom(s))$.

 - El conjunto de todas las nubes de puntos posibles se nota por $\textbf{S}$. En otras palabras: $\textbf{S} := \{ s: (1:n, \wp, p) \rightarrow (\Omega, \mathcal{B}) \mid n \in \mathbb{N} \land p \in \mathcal{P}_n\}$.

 - Una función medible que toma valores en un espacio de Banach se denomina elemento aleatorio.

 - Dado un elemento aleatorio $X$ su valor esperado $E$ está dado por: $E(X) := \int X dP$; este valor no siempre existe.

 - Se definen las funciones centroide $\dddot{E}$ e inercia $\dddot{Var}$ como sigue:

  \begin{align}
  \dddot{E}: \textbf{S} &\longrightarrow (\Omega, \mathcal{B})\\
  s &\mapsto \dddot{E}(s) := \int s dp
  \end{align}
  y
  \begin{align}
  \dddot{Var}: \textbf{S} &\longrightarrow \mathbb{R}\\
  s &\mapsto \dddot{Var}(s) := \int \|s - \dddot{E}(s)\|^2 dp
  \end{align}

  - El centroide y la inercia $\dddot{E}$ y $\dddot{Var}$ son funciones de $\textbf{S}$ en $(\Omega, \mathcal{B})$ y en $\mathbb{R}$ respectivamente. El centroide de $s$ siempre existe y está dado por $\dddot{E}(s) = \sum_{i=1}^{n_s} p(\{i\})s(i)$; asímismo, la inercia de $s$ siempre existe y está dada por $\dddot{Var}(s) = \sum_{i=1}^{n_s} p(\{i\})\|s(i) - \dddot{E}(s)\|^2$.

  - Una función medible de una nube de puntos es una nube de puntos. Es decir si $s:(1:n, \wp, p) \rightarrow (\Omega, \mathcal{B})$ y $f: (\Omega, \mathcal{B}) \rightarrow (\Omega', \mathcal{B})$ es una función medible, entonces, $f\circ s$ es una nube de puntos y, adicionalmente, $\dddot{E}(f\circ s) = \sum_{i=1}^{n_s} p(\{i\})f(s(i))$ y $\dddot{Var}(f\circ s) = \sum_{i=1}^{n_s} p(\{i\})\|f(s(i)) - \dddot{E}(f\circ s)\|^2$.

De esta manera queda formalizado el concepto de nubes de puntos. Los ítemes anteriores deben ser comprendidos a cabalidad, se sugiere un estudio detenido de los mismos para ver sus implicaciones directas. De acuerdo a la estructura propuesta, una nube de puntos $s$ tiene tamaño y probabilidades asociadas. En el uso cotidiano se suelen usar medidas de probabilidad uniformes notadas $\ddot{p}$. Las medidas $\ddot{p}$ dan a cada punto un peso de $\frac{1}{n}$, sin embargo no son la única opción en temas de modelado.

El fundamento teórico se ha escrito usando la integral de Bochner [@Cohn]. Al respecto es importante notar que, salvo se especifique lo contrario, $(\Omega, \|\cdot\|, \mathcal{B})$ es un espacio de Banach. Es decir, un espacio vectorial normado y completo [@Caicedo, definición 1.68]. De esta forma los resultados mostrados son válidos para el caso univariado, el multivariado y el funcional, entre otros.

## Medida de probabilidad empírica

Se define la función $\mathfrak{P}$ de $\textbf{S}$ en $\mathbb{P}$ como sigue:

\begin{align*}
\mathfrak{P}: & \textbf{S} \longrightarrow \mathbb{P}\\
& s \mapsto \mathfrak{P}(s) := P_s
\end{align*}

donde, como se dijo

\begin{align*}
P_s: & \mathcal{B} \longrightarrow [0,1]\\
& A \mapsto P_s(B) := p(s^{-1}(B))
\end{align*}

La función $\mathfrak{P}$ asigna a cada $s \in \textbf{S}$ su medida de probabilidad asociada. Esta medida de probabilidad se denomina medida de probabilidad empírica y es el centro de discusión del presente estudio.

## Ejemplos

Nubes de puntos univariadas

Una medida de probabilidad $p$ sobre $(1:n, \wp)$ queda definida completamente a partir de los valores $p(\{i\})$. Así, es posible especificar una nube de puntos listando las parejas de $(s(i), p(\{i\}))$. Por ejemplo los valores $((1,0.3), (7, 0.2), (3,0.2), (5, 0.3))$ definen una nube de puntos $s: (1:4, \wp, p) \rightarrow (\mathbb{R}, \mathcal{B})$, de tamaño $4$, centroide $3.8$ e inercia 4.6. Como el espacio de llegada de $s$ es de dimensión $1$ se denomina una nube de puntos univariada.

Nubes de puntos categóricas

En la práctica no siempre $\Omega$ es un espacio de Banach, construir una nube de puntos sobre un conjunto cualquiera $\Omega = \{a, b, c\}$ que no cuenta con estructura algebráica ni operaciones definidas es posible. Una una nube de puntos $s: (1:n, \wp, p) \rightarrow (\Omega, \wp)$ es una función medible, con una probabilidad asociada $P_s$; no obstante, la integración no está definida, por lo cual no es posible hablar de centroide o inercia de $s$, en estos casos se habla de una nube de puntos categórica.

Nubes de puntos mixtas

En la práctica suele suceder que un espacio muestral está formado por una parte numérica, y otra categórica, es decir $\Omega = (\Omega_N, \mathcal{B}) \times (\Omega_C, \wp)$, siendo $(\Omega_N, \mathcal{B})$ un espacio de Banach y $\Omega_C$ un conjunto finito no vacío cualquiera sin estructura algebráica. Por ejemplo: sí se define la función $\text{iris}: (1:150, \wp, \ddot{p}) \rightarrow ((\mathbb{R}^4, \mathcal{B}) \times (\{ \text{`r paste(unique(iris$Species), collapse = ", ")`} \}, \wp))$, Iris [@IrisData1935, @FISHER_IRIS] es una nube de puntos mixta, con $\Omega_N = (\mathbb{R}^4, \mathcal{B})$ y $\Omega_C = (\{ \text{`r paste(unique(iris$Species), collapse = ", ")`} \}, \wp)$.

Definición de convexidad usando nubes de puntos

Sea $(\Omega, \mathcal{B})$ un espacio de Banach cualquera fijo. Un subconjunto $A$ de $\Omega$ se dice convexo si toda nube de puntos $s$ con valores en $A$ tiene su centroide $\dddot{E}(s)$ en $A$.

# Propiedades

## Restricciones

$\textbf{S}$ es un conjunto muy interesante; es posible realizar algunas restricciones.

 - En el espacio de medida $(\mathbb{N}, \wp, \mu)$, para cada número natural $n$ existe una única medida de probabilidad $p_{\mu, n}$ generada por $\mu$ sobre $(1:n, \wp)$, es: $p_{\mu,n}(A) := \frac{\mu(A)}{\mu(1:n)}$. Así $\textbf{S} |_\mu$ es el subconjunto de $\textbf{S}$ cuyos elementos $s$ tienen como dominio $(1:n, \wp, p_{\mu,n})$ para algún $n$. Este tipo de restricción no genera una partición sobre $\textbf{S}$, pues las restricciones no son necesariamente disjuntas. En particular las restricciones finitas de $\ddot{\mu}$ se notan por $\ddot{p}$: una medida de probabilidad uniforme.

 - Sea $n$ un entero positivo fijo, $\textbf{S} |_n$ es el subconjunto de $\textbf{S}$ cuyos elementos $s$ tienen tamaño $n$. Esta restricción genera una partición de $\textbf{S}$. En efecto, como se vio, toda nube de puntos tiene un tamaño; por lo cual, pertenece a $\textbf{S} |_n$ para algún $n$; este tamaño es único, de manera que, si $n_1 \neq n_2$, $\textbf{S} |_{n_1}$ y $\textbf{S} |_{n_2}$ no tienen elementos en común.

 - $\textbf{S} |_{\mu,n}$ es la restricción de $\textbf{S}$ cuyos elementos $s$ tienen tamaño $n$ y probabilidad $p_{\mu, n}$. Esta restricción genera una partición de $\textbf{S} |_{\mu}$; el razonamiento es análogo al ítem anterior.

## Particiones

A continuación se muestran algunas particiones.

 - $\textbf{S}/Ran$ corresponde a la partición de $\textbf{S}$ inducida por el rango $Ran(s)$. Dos nubes de puntos $s_1$ y $s_2$ pertenecen a la misma clase si $Ran(s_1) = Ran(s_2)$.

 - $\textbf{S}/\dddot{E}$ corresponde a la partición de $\textbf{S}$ inducida por la función centroide. Dos nubes de puntos $s_1$ y $s_2$ pertenecen a la misma clase si $\dddot{E}(s_1) = \dddot{E}(s_2)$.

 - $\textbf{S}/\dddot{Var}$ corresponde a la partición de $\textbf{S}$ inducida por la función inercia. Dos nubes de puntos $s_1$ y $s_2$ pertenecen a la misma clase si $\dddot{Var}(s_1) = \dddot{Var}(s_2)$.

 - $\mathbb{S} := \textbf{S}/\mathfrak{P}$ corresponde a la partición de $\textbf{S}$ inducida por $\mathfrak{P}$. Además, se dice que dos nubes de puntos $s_1$ y $s_2$ son equivalentes si son iguales en $\mathbb{S}$ y se nota $s_1 \equiv s_2$. $\mathbb{S}$ es inmune a permutaciones. Dada una permutación $j$ tal que $s_1(i) = s_2(j)$ entonces $s_1 \equiv s_2$. Esta ultima partición implica las anteriores: Dos nubes de puntos equivalentes $s_1 \equiv s_2$ tienen el mismo rango, el mismo centroide e igual inercia; no obstante, esto no se cumple para el tamaño.


# Nebulosa

## Definición (Nebulosa)

Sean los espacios de medida $(\mathbb{N}, \wp, \mu)$ y $(\Omega, \mathcal{B}, P)$. Dados $n$ en los naturales y $(\Omega^n, \mathcal{B}^n, P^n)$ el espacio de medida producto existe una biyección $I$ entre $\Omega^n$ y $\textbf{S} |_{\mu,n}$. Esto dota a $\textbf{S} |_{\mu,n}$ de una medida de probabilidad homóloga a $P^n$ generando el espacio de probabilidad notado $(\textbf{S} |_{\mu,n}, \mathcal{B}^n, P^n)$; este espacio de medida se denomina una nebulosa de $(\Omega, \mathcal{B}, P)$.

\begin{align}
I: \textbf{S} |_{\mu,n} & \longrightarrow \Omega^n\\
s & \mapsto I(s) := \omega
\end{align}

donde $\omega_i = s(i)$.

Como se ve, $(\Omega, \mathcal{B}, P)$ tiene infinitas nebulosas dependiendo de la medida $\mu$ y del tamaño $n$. La integral $\int f dP^n$ de una función medible $f$ de $(\textbf{S} |_{\mu, n}, \mathcal{B}^n, P^n)$ en $(\Omega, \mathcal{B}, P)$ no siempre existe.

## Proyecciones

Dados dos números naturales $i$ y $n$, con $i \leq n$, se define la proyección $i$-ésima de $(\textbf{S} |_{\mu, n}, \mathcal{B}^n, P^n)$ sobre $(\Omega, \mathcal{B})$ así:

\begin{align}
X_i: & (\textbf{S} |_{\mu, n}, \mathcal{B}^n, P^n) \longrightarrow (\Omega, \mathcal{B})\\
&s \mapsto X_i(s) := s(i)
\end{align}

La proyeción $i$-ésima $X_i$, de $(\textbf{S} |_{\mu, n}, \mathcal{B}^n, P^n)$ sobre $(\Omega, \mathcal{B}, P)$ es un elemento aleatorio; pues, se trata de una función medible con valores en un espacio de Banach; sin embargo, no siempre tiene definida su integral. No obstante, es posible establecer que, dada una función medible $f$ de $(\Omega, \mathcal{B}, P)$ en $\mathbb{R}$ se tiene que:

\begin{gather}
\int f \circ X_i dP^n = \int f dP
\end{gather}

si las integrales existen. En particular, si $I$ es la función identidad de $(\Omega, \mathcal{B}, P)$ entonces $\int X_i dP^n = \int I dP$ y $\int X_i^2 dP^n = \int I^2 dP$ cuando las integrales existen.

## Lema

Sea el espacio de medida $(\mathbb{N}, \wp, \mu)$ y los espacios asociados $(1:n, \wp, p_{\mu, n})$, si los valores $\mu({i})$ son acotados pero $\mu(\mathbb{N})$ es infinito, entonces la sucesión $a_n = \sum_{i=1}^n \left(p_{\mu,n}(\{i\})\right)^2$ converge a cero.

Esto sucede porque $p_{\mu,n}(\{i\}) = \frac{\mu(\{i\})}{\mu(1:n)}$, de manera que si $k$ en $\mathbb{R}$ es una cota para los valores de $\mu(\{i\})$ con $i$ en $\mathbb{N}$, entonces

\begin{align}
a_n &= \sum_{i=1}^n \left(\frac{\mu(\{i\})}{\mu(1:n)}\right)^2\\
&= \frac{1}{(\mu(1:n))^2}\sum_{i=1}^n \left(\mu(\{i\})\right)^2\\
&\leq \frac{1}{(\mu(1:n))^2}\sum_{i=1}^n \mu(\{i\})\max_{j=1}^n\{\mu(\{j\})\}\\
&= \frac{1}{(\mu(1:n))^2} \max_{j=1}^n\{\mu(\{j\})\} \sum_{i=1}^n \mu(\{i\})\\
&= \frac{1}{(\mu(1:n))^2} \max_{j=1}^n\{\mu(\{j\})\} \mu(1:n)\\
&= \frac{\max_{j=1}^n\{\mu(\{j\})\}}{\mu(1:n)}\\
&\leq \frac{k}{\mu(1:n)}
\end{align}

Así que cuando $n$ aumenta $a_n$ tiende a cero.

## Teorema de valor esperado del centroide

Sean $(\textbf{S} |_{\mu,n}, \mathcal{B}^n, P^n)$ una nebulosa sobre $(\Omega, \mathcal{B}, P)$ un espacio de Banach de probabilidad cualquera fijo, la función identidad $I$ de $\Omega$ y la restricción de tamaño $n$ del centroide $\dddot{E}|_{\mu, n}$ definido:

\begin{align}
\dddot{E}|_{\mu, n}:  = &\textbf{S} |_{\mu, n} \longrightarrow \Omega\\
& s \mapsto \int s dp
\end{align}

Entonces

 - $\dddot{E}|_{\mu, n}$ está bien definido.
 - $\dddot{E}|_{\mu, n}$ es un elemento aleatorio.
 - Su valor esperado, $E(\dddot{E}|_{\mu, n}) = \int I dP$.
 - Su varianza es $Var(\dddot{E}|_{\mu, n}) = Var(I)\sum_{i = 1}^n \left(p_{\mu, n}(\{i\})\right)^2$.

En efecto, $\dddot{E}|_{\mu, n}$ es una función de $(\textbf{S} |_{\mu,n}, \mathcal{B}^n, P^n)$ en $(\Omega, \mathcal{B}, P)$ dada por $\dddot{E}|_{\mu, n} = \int s dp$. Dado que todas las nubes de puntos $s$ en $(\textbf{S} |_{\mu,n}, \mathcal{B}^n, P^n)$ son funciones simples, todas resultan integrables: $\int s dp = \sum_{i=1}^n p(\{i\}) s_i$, o, usando proyecciones, $\int s dp = \sum_{i=1}^n p(\{i\}) X_i(s)$. Esto último es particularmente importante; cada proyección es un elemento aleatorio, en consecuencia $\dddot{E}|_{\mu, n}$, como suma de elementos aleatorios, es elemento aleatorio. Como resultado $\dddot{E}|_{\mu, n}$ es un elemento aleatorio y $(\Omega, \mathcal{B}, P)$ es un espacio de Banach, por consiguiente $\dddot{E}|_{\mu, n}$ puede tener valor esperado $E(\dddot{E}|_{\mu, n}) = \int \dddot{E}|_{\mu, n} dP^n$. Entre las propiedades relevantes de la integración está la linealidad, en consecuencia $E(\dddot{E}|_{\mu, n}) = \sum_{i=1}^n p(\{i\}) \int X_i(s) dP^n$, que, factorizando y sumando, resulta igual a $\int I dP$. Así mismo la varianza de $\dddot{E}|_{\mu, n}$ corresponde a $Var\left(\sum_{i=1}^n p(\{i\}) X_i(s)\right)$ que es igual a $\sum_{i=1}^n (p(\{i\}))^2 Var(X_i(s))$ que a su vez es igual a $Var(I)\sum_{i = 1}^n \left(p_{\mu, n}(\{i\})\right)^2$ cuando las integrales existen.

A consecuencia del anterior teorema, si $P$ tiene primer y segundo momento finitos y los valores $\mu({i})$ son acotados pero $\mu(\mathbb{N})$ es infinito, entonces la sucesión $a_n = \sum_{i=1}^n \left(p_{\mu,n}(\{i\})\right)^2$ y por ende $Var(\dddot{E})$ convergen a cero. Usando este hecho y la desigualdad de Chevichev es posible probar (un caso particular de) la ley débil de los grandes números [@LBlanco]. Probar la ley débil y la ley fuerte de los grandes números excede los objetivos del estudio, sin embargo son resultados usados más adelante.

Particularmente si $B \in \mathcal{B}$ es un evento cualquiera fijo, la función característica $\chi_B(x)$ es una función medible, de manera que el valor esperado de su centroide $E(\dddot{E}|_n(\chi_B))$ es su valor esperado $E(\chi_B)$.

## Teorema de Glivenko Cantelli

Sean $(\textbf{S} |_\mu, \mathcal{B}^n, P^n)$ una nebulosa sobre $(\Omega, \mathcal{B}, P)$ un espacio de Banach de probabilidad cualquera fijo, $(\mathbb{N}, \wp, \mu)$ con los valores $\mu({i})$ acotados pero $\mu(\mathbb{N})$ infinito, $s$ una nube de puntos cualquiera en $(\textbf{S} |_{\mu,n}, \mathcal{B}^n, P^n)$ y $\dddot{E}|_{\mu, n}$ la restricción de tamaño $n$ del centroide definido anteriormente.

$P_s$, la medida de probabilidad empírica de $s$ converge puntualmente a $P$ cuando $n_s$ tiende a infinito.

Para un evento cualquiera $A \in \mathcal{B}$ se tiene por definición que $P_s(A) = \int \chi_A dp$, que es igual a $\dddot{E}|_{n_s}(\chi_A)$, elemento aleatorio de primer y segundo momentos finitos, cuyo valor esperado $E(\dddot{E}|_{n_s}(\chi_A))$ es igual a $E(\chi_A)$, que a su vez es igual a $\int \chi_A dP$, por definición $P(A)$. Resumiendo, el valor esperado de $P_s(A)$ es $P(A)$, al cual converge a medida que el tamaño de $s$ aumenta, si los valores $\mu({i})$ son acotados pero $\mu(\mathbb{N})$ es infinito, por la ley débil de los grandes números.

# Distancias

La estructura construida hasta el momento tiene por objetivo analizar las características generales de las nubes de puntos. En particular pretende definir formalmente distancias entre nubes de puntos, sin embargo esta tarea no ha resultado tan sencilla como el resto. El desarrollo presentado a continuación permite establecer las propiedades matemáticas que dan sentido a toda la tesis.

## Función de densidad general

Sea $(\Omega, \mathcal{B}, \lambda)$ un espacio de medida cualquiera fijo. Sea $g$ una función de $\Omega$ en $\mathcal{B}$ que a cada elemento $x$ de $\Omega$ le asigna un evento $g(x)$, tal que $\mathcal{B}$ coincide con el álgebra generada por el rango de $f$. Es decir $\sigma(g(\Omega)) = \mathcal{B}$. Entonces $g$ se denomina función elemental.

Sea $P$ una medida de probabilidad sobre $(\Omega, \mathcal{B})$ y $F = P \circ g$. $F$ es una función de $\Omega$ en $\mathbb{R}$ y se denomina función de densidad general asociada a $g$.

Por ejemplo, sobre $(\mathbb{N}, \wp, \ddot{\mu})$ se define la función elemental $g$, que a cada elemento le asigna su conjunto unitario: $g(i) = \{i\}$, de manera que efectivamente $\sigma(g(\mathbb{N})) = \wp$.

Sea $P$ la medida de probabilidad de Poisson de parámetro $1$, entonces la función de densidad general asociada a $g$ está dada por

$$ F(i) = P(g(i)) = \frac{dP}{d\ddot{\mu}}(i)$$

Otro ejemplo, sobre $(\mathbb{R}, \mathcal{B}, \ddot{\lambda})$ se define la función elemental $g$, que a cada elemento le asigna su cola abierta a izquierda: $g(x) = (-\infty, x)$, de manera que efectivamente $\sigma(g(\mathbb{R})) = \mathcal{B}$.

Sea $P$ la medida de probabilidad exponencial de parámetro $1$, entonces la función de densidad general asociada a $g$^[Cuando $\Omega = \mathbb{R}$ y $g(x) = (-\infty, x)$ la función de densidad general asociada a $g$, $F = P \circ g$, se denomina función de densidad acumulada.] está dada por

$$ F(i) = P(g(i)) = \int \limits_{(-\infty, x)} \frac{dP}{d\ddot{\lambda}}(t) d\lambda(t) = \chi_{(-\infty, x)}(1 - e^{-x}) $$

Dados $(\Omega, \mathcal{B}, \lambda)$ un espacio de medida cualquiera fijo y una función elemental $g$, sí dos medidas de probabilidad $P_1$ y $P_2$ tienen la misma función de densidad general entonces son iguales entre sí.

Dados $(\Omega, \mathcal{B}, P, \lambda)$ un espacio de medida cualquiera fijo, una función elemental $g$ y una nube de puntos $s: (1:n, \wp, p) \rightarrow (\Omega, \mathcal{B}, \lambda)$. La medida de probabilidad empírica $P_s$ definida previamente, tiene una función de densidad general, que se denomina función de densidad general (acumulada) empirica.

El teorema de Glivenko Cantelli implica la convergencia puntual de la función de densidad general empírica (acumulada empírica) a la función de densidad general (acumulada) conforme el tamaño muestral $n_s$ aumenta. En consecuencia es posible pensar que nubes de puntos sobre el mismo espacio son cercanas en tanto su tamaño aumenta. Para poder formalizar estas conclusiones es necesario definir distancias entre nubes de puntos.

Varias distancias entre funciones requieren de integrabilidad, por esto es necesario examinar la integrabilidad de las funciones de densidad generales respecto a la medida $\lambda$ antes de proseguir. Tomando primero el caso particular de las medidas de probabilidad empírica $P_s$ es posible ver que las funciones de densidad general empírica son funciones simples. Teniendo en cuenta la convergencia de $P_s$ a $P$, se tiene que cada función de densidad general es el límite de una sucesión de funciones de densidadd general empírica, como cada una de estas es una función simple, las funciones de densidad general son integrables.

## Primer acercamiento

La primera idea de una distancia entre nubes de puntos $\mathtt{d}$ puede estar asociada con la distancia entre sus funciones de densidad general empíricas. Intuitivamente, nubes de puntos muy diferentes producen medidas de probabilidad empírica muy diferentes, que a su vez producen funciones de densidad general empírica distintas; en consecuencia, medir cercanía entre funciones de densidad general empírica puede dar luces respecto a la cercanía entre nubes de puntos. O al menos esa es la propuesta EP-Means [@EPMEANS].

Sean $(\Omega, \mathcal{B})$ y $d$ una distancia entre funciones de $(\Omega, \mathcal{B})$ en $\mathbb{R}$. Dadas dos nubes de puntos $s_1$ y $s_2$, con sus medidas de probabilidad empírica $P_{s_1}$ y $P_{s_2}$ y sus funciones de densidad general empírica $f_{s_1}$ y $f_{s_2}$ se define la función $\mathtt{d}_0(s_1, s_2) =  d(f_{s_1}, f_{s_2})$.

Sin embargo $\mathtt{d}_0$ no es una distancia. Nubes de puntos equivalentes tienen medidas de pribabilidad empírica iguales y funciones de densidad general empírica iguales, por lo cual dos nubes de puntos distintas pueden tener distancia cero. En ese sentido $\mathtt{d}_0$ es una semidistancia.

Por otro lado es necesario examinar la incidencia del tamaño de las nubes de puntos en la asignación de una distancia a la luz de la convergencia. El teorema de Glivenko Cantelli implica que, a medida que el tamaño aumenta, las funciones de densidad general empírica convergen a la función de densidad acumulada del modelo. Al aumentar el tamaño de las nubes de puntos la varianza de la medida de probabilidad empírica disminuye. De manera ilustrativa es posible ver el espacio de nubes de puntos pequeñas como un mundo amplio y el espacio de nubes de puntos puntos de gran tamaño como un mundo bastante más estrecho, que se encoge conforme el tamaño aumenta. La distancia definida debe reflejar esto, es decir, dos nubes de puntos de tamaños bajos deben considerase cercanas más fácilmente que dos de tamaños altos.

## Teorema de corrección de distancias

Sea un espacio métrico $(V, d)$ y dos constantes $a > 0$ y $b > 0$, entonces la correción $d' = min(ad, d + b)$ es una distancia.

En efecto:

 - $d'(x, y) \geq 0$ para todo par $(x,y)$, pues $a > 1$, $b > 0$ y $d(x, y) \geq 0$.
 - Si $d'(x, y) = 0$ si y sólo si $\min(ad(x,y), d(x,y) + b) = 0$ si y sólo si $ad(x,y) = 0$, si y sólo si $d(x,y) = 0$, si y sólo si $x = y$.
 - La desigualdad triangular se tiene, pues $d'(x, y) \leq ad(x,y)$ y $d'(x, y) \leq d(x,y) + b$ por lo cual, sumando: $2d'(x, y) \leq ad(x,y) + d(x,y) + b\leq ad(x,z) + ad(z,y) + d(x,z) + b + d(z, y) + b \leq 2 \min(ad(x,z), d(x,z) + b) + 2\min(ad(z,y), d(z, y) + b) = 2d'(x,z) + 2d'(z,y)$


## Criterio de Cramer-von Misses generalizado controlado por tamaño entre nubes de puntos

Para finalizar el capítulo se define el criterio de distancia o cercania propuesto entre nubes de puntos. Como se aclaró en el capíitulo anterior, este criterio permitirá el uso de algoritmos basados en distancias y semidistancias en nubes de puntos. Se espera que el examen minucioso de los criterios de cercania o similaridad entre nubes de puntos sirva como insumo para fortalecer los modlos estadísiticos libres de distribución.

Sean $(\Omega, \mathcal{B})$, $d$ una distancia entre funciones de $(\Omega, \mathcal{B})$ en $\mathbb{R}$. Dadas dos nubes de puntos $s_1$ y $s_2$, con sus medidas de probabilidad empírica $P_{s_1}$ y $P_{s_2}$ y sus funciones de densidad general empírica $f_{s_1}$ y $f_{s_2}$ y tamaños $n_{s_1}$ y $n_{s_2}$; se define la función $\mathtt{d}(s_1, s_2) =  \min(h(n_{s_1}, n_{s_2})d(f_{s_1}, f_{s_2}), d(f_{s_1}, f_{s_2}) + 1)$.

$\mathtt{d}$ no es una distancia: nubes de puntos equivalentes tienen medidas de pribabilidad empírica iguales y funciones de densidad general empírica iguales, por lo cual dos nubes de puntos distintas pueden tener distancia cero. Tampoco es una semidistancia, pues $h(n_{s_1}, n_{s_2})$ no es constante, en conescuencia es posible que no cumpla con la desigualdad triangular en unos casos muy específicos. El caso contínuo puede examinarse a la luz de las funciones de densidad acumulada y acumulada empírica, no obstante los resultados teóricos son bastante más generales.

# Referencias