replace infegal by leqslant

sdpython · Oct 8, 2024 · 8f557c5 · 8f557c5
1 parent 5d2706f
commit 8f557c5
Show file tree

Hide file tree

Showing 39 changed files with 304 additions and 316 deletions.
diff --git a/CHANGELOGS.rst b/CHANGELOGS.rst
@@ -4,11 +4,11 @@ Change Logs
 0.5.0
 +++++
 
-* :pr:`42`: quantization
-* :pr:`39`: refactoring, use black, better documentation
-
 0.4.0
 =====
+
+* :pr:`42`: quantization
+* :pr:`39`: refactoring, use black, better documentation
 * :pr:`32`: Improves usability of distance_matching_graphs_paths (2021-08-10)
 * :pr:`31`: Links to notebooks are broken, notebooks slides are not working. (2021-03-31)
 * :pr:`30`: Fixes #26, implements a compact architecture (2021-01-23)

diff --git a/_doc/c_algo/edit_distance.rst b/_doc/c_algo/edit_distance.rst
@@ -264,7 +264,7 @@ tels que :math:`d\pa{m_1,m_2} = d\pa{N_2,N_1}` alors :
 Il reste à démontrer l'inégalité triangulaire.
 Soient trois mots :math:`\pa{m_1,m_2,m_3}`,
 on veut démontrer que
-:math:`d\pa{m_1,m_3} \infegal d\pa{m_1,m_2} + d \pa{m_2,m_3}`.
+:math:`d\pa{m_1,m_3} \leqslant d\pa{m_1,m_2} + d \pa{m_2,m_3}`.
 On définit :
 
 .. math::
@@ -292,15 +292,15 @@ tels que :
     \end{eqnarray*}
 
 Or comme la fonction :math:`c` est une distance sur :math:`\mathcal{C}'`, on peut affirmer que :
-:math:`d\pa{M_1,M_3} \infegal d\pa{M_1,M_2} + d \pa{M_2,M_3}`.
+:math:`d\pa{M_1,M_3} \leqslant d\pa{M_1,M_2} + d \pa{M_2,M_3}`.
 D'où :
 
 .. math::
     :nowrap:
     :label: edit_demo_eq_3
 
     \begin{eqnarray*}
-    d\pa{m_1,m_3} \infegal d\pa{m_1,m_2} + d \pa{m_2,m_3}
+    d\pa{m_1,m_3} \leqslant d\pa{m_1,m_2} + d \pa{m_2,m_3}
     \end{eqnarray*}
 
 Les assertions :eq:`1 <edit_demo_eq_1>`, :eq:`2 <edit_demo_eq_2>`, :eq:`3 <edit_demo_eq_3>`
@@ -410,7 +410,7 @@ La démonstration s'effectue par récurrence, la définition :ref:`3 <definition
 est bien sûr équivalente :ref:`1 <defition_distance_edition_1>`
 pour des mots de longueur un. On suppose donc que ce résultat est
 vrai pour un couple de mots :math:`\pa{m_1,m_2}` de longueur :math:`\pa{l_1,l_2}`
-vérifiant :math:`l_1 \infegal i` et `l_2 \infegal j` avec au plus une égalité.
+vérifiant :math:`l_1 \leqslant i` et `l_2 \leqslant j` avec au plus une égalité.
 Soit :math:`m` un mot, on note :math:`n` le nombre de lettres qu'il contient.
 On note  :math:`m\left(  l\right)` le mot formé des :math:`l` premières lettres de :math:`m`.
 Alors :

diff --git a/_doc/c_clus/gauss_mixture.rst b/_doc/c_clus/gauss_mixture.rst
@@ -17,7 +17,7 @@ Algorithme EM
 
     Soit :math:`X` une variable aléatoire d'un espace vectoriel de dimension :math:`d`, :math:`X`
     suit un la loi d'un mélange de :math:`N` lois gaussiennes de paramètres
-    :math:`\pa{\mu_i, \Sigma_i}_ {1 \infegal i \infegal N}`,
+    :math:`\pa{\mu_i, \Sigma_i}_ {1 \leqslant i \leqslant N}`,
     alors la densité :math:`f` de :math:`X` est de la forme :
 
     .. math::
@@ -92,7 +92,7 @@ on suppose que :math:`X` suit la loi du mélange suivant :
 
     f\pa{X \sac \theta} = \sum_{i=1}^{k}  \alpha_i \, f\pa{X \sac \theta_i}
 
-Avec : :math:`\theta = \pa{\alpha_i,\theta_i}_{1 \infegal i \infegal k}, \; \forall i, \; \alpha_i \supegal 0`
+Avec : :math:`\theta = \pa{\alpha_i,\theta_i}_{1 \leqslant i \leqslant k}, \; \forall i, \; \alpha_i \supegal 0`
 et :math:`\sum_{i=1}^{k} \alpha_i = 1`.
 
 On définit pour une classe :math:`m` la probabilité
@@ -184,7 +184,7 @@ est dérivé de l'algorithme EM :
         P_a = \min \acc{ \exp\cro{ \frac{ L\pa{ \theta''_t, X} - L\pa{ \theta_t, X} }{\gamma} }, 1}
 
     On génére aléatoirement une variable :math:`u \sim U\cro{0,1}`,
-    si :math:`u \infegal P_a`, alors les paramètres :math:`\theta''_t`
+    si :math:`u \leqslant P_a`, alors les paramètres :math:`\theta''_t`
     sont validés. :math:`\hat{\theta}_t \longleftarrow \theta''_t`
     et retour à l'étape d'expectation. Dans le cas contraire, les paramètres
     :math:`\theta''_t` sont refusés et retour à l'étape précédente.

diff --git a/_doc/c_clus/kmeans.rst b/_doc/c_clus/kmeans.rst
@@ -130,12 +130,12 @@ On en déduit que :
 
     \begin{eqnarray}
     J^{t+1}    &=& \sum_{i, c_i^t \neq c_i^{t+1}} \; d^2\pa{ X_i, G_{c_i^{t+1}}^t} + J^{t+1} \sum_{i, c_i^t = c_i^{t+1}} \; d^2\pa{ X_i, G_{c_i^{t+1}}^t}  \\
-    J^{t+1}    &\infegal&  \sum_{i, c_i^t \neq c_i^{t+1}} \; d^2\pa{ X_i, G_{c_i^{t}}^t} + \sum_{i, c_i^t = c_i^{t+1}} \; d^2\pa{ X_i, G_{c_i^{t}}^t} \\
-    J^{t+1}    &\infegal&  I^t
+    J^{t+1}    &\leqslant&  \sum_{i, c_i^t \neq c_i^{t+1}} \; d^2\pa{ X_i, G_{c_i^{t}}^t} + \sum_{i, c_i^t = c_i^{t+1}} \; d^2\pa{ X_i, G_{c_i^{t}}^t} \\
+    J^{t+1}    &\leqslant&  I^t
     \end{eqnarray}
 
 Le lemme précédent appliqué à chacune des classes :math:`\ensemble{1}{C}`,
-permet d'affirmer que :math:`I^{t+1} \infegal J^{t+1}`.
+permet d'affirmer que :math:`I^{t+1} \leqslant J^{t+1}`.
 Par conséquent, la suite :math:`\pa{I_t}_{t\supegal 0}` est décroissante et minorée par
 0, elle est donc convergente.
 
@@ -242,7 +242,7 @@ par la suivante :
 
     La fonction :math:`D_k` est définie par la distance du point :math:`x`
     au centre :math:`G_l` choisi parmi les :math:`k` premiers centres.
-    :math:`D_k(x) = \min_{1 \infegal l \infegal k} d(x - G_l)`.
+    :math:`D_k(x) = \min_{1 \leqslant l \leqslant k} d(x - G_l)`.
 
     La suite de l'algorithme *k-means++* reprend les mêmes étapes que
     :ref:`k-means <kmeans_def_algo>`.
@@ -257,7 +257,7 @@ centres déjà choisis. L'article montre que :
     On définit l'inertie par
     :math:`J_(X) = \sum_{i=1}^{P} \; \min_G d^2(X_i, G)`.
     Si :math:`J_{OPT}` définit l'inertie optimale alors
-    :math:`\esp{J(X)} \infegal 8 (\ln C + 2) J_{OPT}(X)`.
+    :math:`\esp{J(X)} \leqslant 8 (\ln C + 2) J_{OPT}(X)`.
 
 La démonstration est disponible dans l'article [Arthur2007]_.
 
@@ -314,7 +314,7 @@ Estimation de probabilités
 ==========================
 
 A partir de cette classification en :math:`C` classes, on construit un
-vecteur de probabilités pour chaque point :math:`\pa{X_{i}}_{1 \infegal i \infegal P}`
+vecteur de probabilités pour chaque point :math:`\pa{X_{i}}_{1 \leqslant i \leqslant P}`
 en supposant que la loi de :math:`X` sachant sa classe :math:`c_X` est une loi
 normale multidimensionnelle. La classe de :math:`X_i` est
 notée :math:`c_i`. On peut alors écrire :
@@ -500,7 +500,7 @@ L'inertie de ce nuage de points est définie par :
 
 On définit tout d'abord une distance
 :math:`\alpha \in \mathbb{R}^+`, puis l'ensemble
-:math:`V\pa{y,\alpha} = \acc{ z \in Y \sac d\pa{y,z} \infegal \alpha }`,
+:math:`V\pa{y,\alpha} = \acc{ z \in Y \sac d\pa{y,z} \leqslant \alpha }`,
 :math:`V\pa{y,\alpha}` est donc l'ensemble des voisins des
 centres dont la distance avec :math:`y` est inférieur à :math:`\alpha`.
 L'article [Kothari1999]_ propose de minimiser le coût :math:`J\pa{\alpha}`
@@ -596,7 +596,7 @@ Il s'appuie sur la méthode des multiplicateurs de Lagrange.
 
     | for i in :math:`1..N`
     |   Mise à jour d'après le premier terme de la fonction de coût :math:`J\pa{\alpha}`.
-    |   :math:`w \longleftarrow \underset{1 \infegal l \infegal K}{\arg \min} \; \norme{x_i - y_l}^2`
+    |   :math:`w \longleftarrow \underset{1 \leqslant l \leqslant K}{\arg \min} \; \norme{x_i - y_l}^2`
     |   :math:`z^1_w \longleftarrow z^1_w + \eta \pa{ x_i - y_w}`
     |   :math:`c^1_w \longleftarrow c^1_w + 1`
     |
@@ -617,7 +617,7 @@ Il s'appuie sur la méthode des multiplicateurs de Lagrange.
     :math:`y_k`, retour à l'étape précédente. Sinon, tous les couples de classes :math:`\pa{i,j}`
     vérifiant :math:`\norme{y_i - y_j} > \alpha` sont fusionnés :
     :math:`\alpha \longleftarrow \alpha + \alpha_t`.
-    Si :math:`\alpha \infegal \alpha2`, retour à l'étape de préparation.
+    Si :math:`\alpha \leqslant \alpha2`, retour à l'étape de préparation.
 
     *terminaison*
 
@@ -652,7 +652,7 @@ L'algorithme qui suit a pour objectif de minimiser la quantité pour un échanti
 
 .. math::
 
-    I = \sum_{i=1}^{N}\sum_{k=1}^{K} \indicatrice{ i = \underset{1 \infegal j \infegal N}{\arg \max}
+    I = \sum_{i=1}^{N}\sum_{k=1}^{K} \indicatrice{ i = \underset{1 \leqslant j \leqslant N}{\arg \max}
     G\pa{X_k, \mu_j,\Sigma_j} } \; \ln \cro{ p_i G\pa{ X_k, \mu_i, \Sigma_i } }
 
 .. mathdef::
@@ -666,7 +666,7 @@ L'algorithme qui suit a pour objectif de minimiser la quantité pour un échanti
     *initialisation*
 
     :math:`t \longleftarrow 0`.
-    Les paramètres :math:`\acc{p_i^0, \mu_i^0, \Sigma_i^0 \sac 1 \infegal i \infegal N}` sont initialisés
+    Les paramètres :math:`\acc{p_i^0, \mu_i^0, \Sigma_i^0 \sac 1 \leqslant i \leqslant N}` sont initialisés
     grâce à un algorithme des :ref:`k-means <kmeans_def_algo>` ou :ref:`FSCL <label_kmeans_fscl>`.
     :math:`\forall i, \; p_i^0 = \frac{1}{N}` et :math:`\beta_i^0 = 0`.
 
@@ -676,7 +676,7 @@ L'algorithme qui suit a pour objectif de minimiser la quantité pour un échanti
 
     .. math::
 
-        i = \underset{1 \infegal i \infegal N}{\arg \min} \; G\pa{X_k, \mu_i^t, \Sigma_i^t}
+        i = \underset{1 \leqslant i \leqslant N}{\arg \min} \; G\pa{X_k, \mu_i^t, \Sigma_i^t}
 
     | for i in :math:`1..N`
     |   :math:`\mu_i^{t+1} = \mu_i^t + \eta \, \pa{\Sigma_i^t}^{-1} \, \pa{ X_k - \mu_i^t}`
@@ -690,7 +690,7 @@ L'algorithme qui suit a pour objectif de minimiser la quantité pour un échanti
 
     *terminaison*
 
-    Tant que :math:`\underset{1 \infegal i \infegal N}{\arg \min} \; G\pa{X_k, \mu_i^t, \Sigma_i^t}`
+    Tant que :math:`\underset{1 \leqslant i \leqslant N}{\arg \min} \; G\pa{X_k, \mu_i^t, \Sigma_i^t}`
     change pour au moins un des points :math:`X_k`.
 
 Lors de la mise à jour de :math:`\Sigma^{-1}`,

diff --git a/_doc/c_clus/kohonen.rst b/_doc/c_clus/kohonen.rst
@@ -58,7 +58,7 @@ linéaire, rectangulaire, triangulaire.
     On choisi aléatoirement un points du nuage
     :math:`X_i` puis on définit le neurone
     :math:`\mu_{k^*}^t` de telle sorte que :
-    :math:`\norme{ \mu_{k^*}^t - X_i} = \underset{1 \infegal j \infegal N}{\min } \; \norme{ \mu_j^t - X_i }`.
+    :math:`\norme{ \mu_{k^*}^t - X_i} = \underset{1 \leqslant j \leqslant N}{\min } \; \norme{ \mu_j^t - X_i }`.
 
     *mise à jour*
 
@@ -153,7 +153,7 @@ L'article définit ensuite la densité interne pour :math:`C` classes :
 
     \begin{eqnarray*}
     D_{int} (C) &=& \frac{1}{C} \;  \sum_{k=1}^{C} \; \sum_{i=1}^{N} \; \sum_{j=1}^{N} \;
-    a_{ik} a_{jk} \indicatrice{ \norme{ X_i - X_j} \infegal \sigma }
+    a_{ik} a_{jk} \indicatrice{ \norme{ X_i - X_j} \leqslant \sigma }
     \end{eqnarray*}
 
 On définit la distance :math:`d^*_{kl}` pour :math:`\pa{k,l} \in \ensemble{1}{C}^2`,
@@ -175,7 +175,7 @@ La densité externe est alors définie en fonction du nombre de classes :math:`C
     \begin{eqnarray*}
     D_{ext} (C) =  \sum_{k=1}^{C} \; \sum_{l=1}^{C} \; \cro{  \frac{ d_{kl} } { \sigma\pa{k} \sigma\pa{l} } \;
     \sum_{i=1}^{N} \; \indicatrice{ a_{ik} + a_{il} > 0 } \indicatrice{ \norme{ X_i - \frac{X_{i^*}^{kl} + X_{j^*}^{kl}}{2} }
-    \infegal  \frac{\sigma\pa{k} +\sigma\pa{l}}{2} } }
+    \leqslant  \frac{\sigma\pa{k} +\sigma\pa{l}}{2} } }
     \end{eqnarray*}
 
 L'article définit ensuite la séparabilité en fonction du nombre de classes :math:`C` :

diff --git a/_doc/c_garden/file_dattente.rst b/_doc/c_garden/file_dattente.rst
@@ -83,7 +83,7 @@ pas du temps.
         :nowrap:
 
         \begin{eqnarray}
-        f(t) &=& \mu  \; e^{- \mu t} \text{ et } \pr {X \infegal t} =
+        f(t) &=& \mu  \; e^{- \mu t} \text{ et } \pr {X \leqslant t} =
                     \int_0^t \mu  \; e^{- \mu x} dx = 1 - e^{-\mu t}
         \end{eqnarray}
 
@@ -117,7 +117,7 @@ suivant une loi exponentielle, alors :
     :nowrap:
 
     \begin{eqnarray*}
-    \pr{B(x,t,dt)} &=& \pr{ D \infegal t+dt-x \sac D > t-x } \\
+    \pr{B(x,t,dt)} &=& \pr{ D \leqslant t+dt-x \sac D > t-x } \\
                                 &=& \frac{ \pr{  t+dt-x \supegal D > t-x } } { \pr{ D > t-x }} \\
                                 &=& \frac{ \int_{t-x}^{t+dt-x} \mu e^{-\mu u} du } { \int_{t-x}^{\infty} \mu e^{-\mu u} du }
                                 = \frac{ e^{- \mu (t-x) } - e^{- \mu (t-x+dt) } } { e^{-\mu (t-x) }} \\
@@ -250,16 +250,16 @@ la probabilité qu'une personne parmi :math:`k` quitte un guichet est :
     :nowrap:
 
     \begin{eqnarray*}
-    \pr{ \min \ensemble{D_1}{D_k} \infegal dt } &=& 1 - \pr {\min \ensemble{D_1}{D_k} > dt} \\
+    \pr{ \min \ensemble{D_1}{D_k} \leqslant dt } &=& 1 - \pr {\min \ensemble{D_1}{D_k} > dt} \\
     &=& 1 - \cro{\prod_{n=1}^{k} \pr {D_n > dt}} \\
-    &=& 1 - \cro{\prod_{n=1}^{k} 1 - \pr {D_n \infegal dt}} \\
+    &=& 1 - \cro{\prod_{n=1}^{k} 1 - \pr {D_n \leqslant dt}} \\
     &=& 1 - \cro{\prod_{n=1}^{k}  e^{-\mu dt}} \\
     &=& 1 - e^{- k\mu dt} \sim k \mu dt + o(dt)
     \end{eqnarray*}
 
 Pour déterminer les probabilités :math:`\pa{p_n}_n`, on applique le
 même raisonnement que pour un système :math:`M/M/1` en distinguant
-les cas :math:`n \infegal S` et :math:`n > S`. On adapte la récurrence
+les cas :math:`n \leqslant S` et :math:`n > S`. On adapte la récurrence
 donnée par le système d'équations :eq:`systeme_mm1` au cas :math:`M/M/S` :
 
 .. math::
@@ -269,7 +269,7 @@ donnée par le système d'équations :eq:`systeme_mm1` au cas :math:`M/M/S` :
     \begin{eqnarray*}
     &&     \left \{ \begin{array}{lll}
             \mu p_1  -   \lambda    p_0 &=& 0  \\
-            \lambda  p_{n-1} + \pa{n+1} \mu p_{n+1}   - \pa {n \mu  + \lambda  }  p_n &=& 0 \text{ si } 1 \infegal n < S \\
+            \lambda  p_{n-1} + \pa{n+1} \mu p_{n+1}   - \pa {n \mu  + \lambda  }  p_n &=& 0 \text{ si } 1 \leqslant n < S \\
             \lambda  p_{n-1} + S \mu p_{n+1}   - \pa { S \mu  + \lambda  }  p_n &=& 0 \text{ si } n \supegal S
             \end{array}\right.
     \end{eqnarray*}
@@ -453,7 +453,7 @@ Cette fonction vérifie :math:`F_{\mu}^{-1}\pa{F_{\mu}(x)} = 1`.
 Or si :math:`U` est une variable aléatoire uniforme sur
 :math:`\cro{0,1}`, alors la variable :math:`V = F_{\mu}^{-1}(U)`
 suit la loi exponentielle avec :math:`\mu` pour paramètre.
-Effectivement, :math:`\pr{ V \infegal t} = \pr{ F_{\mu}^{-1}(U) \infegal t} = \pr{U \infegal F_{\mu}(t)} = F_{\mu}(x)`.
+Effectivement, :math:`\pr{ V \leqslant t} = \pr{ F_{\mu}^{-1}(U) \leqslant t} = \pr{U \leqslant F_{\mu}(t)} = F_{\mu}(x)`.
 La fonction de répartition de la variable :math:`V` est :math:`F_{\mu}`,
 :math:`V` est donc une loi exponentielle de paramètre :math:`\mu`.
 La première fonction simule une variable exponentielle de paramètre :math:`\mu` :

diff --git a/_doc/c_garden/strategie_avec_alea.rst b/_doc/c_garden/strategie_avec_alea.rst
@@ -166,17 +166,17 @@ Pour cela, on utilise deux propriétés sur les lois exponentielles.
 
 La démonstration est courte.
 Soit :math:`X` une variable aléatoire de densité :math:`f`,
-par définition, :math:`\pr{X \infegal x} = F(x)`. Soit :math:`U` une
+par définition, :math:`\pr{X \leqslant x} = F(x)`. Soit :math:`U` une
 variable aléatoire uniformément distribué sur :math:`\cro{0,1}`, alors :
 
 .. math::
     :nowrap:
 
     \begin{eqnarray*}
-    \forall u \in \cro{0,1}, \; \pr{U \infegal u} &=& u \\
-    \Longleftrightarrow \pr{F^{-1}(U)\infegal F^{-1}(u)} &=& u \\
-    \Longleftrightarrow \pr{F^{-1}(U)\infegal F^{-1}(F(t))} &=& F(t) \\
-    \Longleftrightarrow \pr{F^{-1}(U)\infegal t} &=& F(t)
+    \forall u \in \cro{0,1}, \; \pr{U \leqslant u} &=& u \\
+    \Longleftrightarrow \pr{F^{-1}(U)\leqslant F^{-1}(u)} &=& u \\
+    \Longleftrightarrow \pr{F^{-1}(U)\leqslant F^{-1}(F(t))} &=& F(t) \\
+    \Longleftrightarrow \pr{F^{-1}(U)\leqslant t} &=& F(t)
     \end{eqnarray*}
 
 Si la fonction :math:`F` n'est pas strictement croissante,
@@ -246,12 +246,12 @@ de la somme est celle d'une loi Gamma. On suppose que
 Ces lignes démontrent le théorème.
 On démontre maintenant :ref:`simulation d'une loi de Poisson <theoreme_simulation_poisson>`.
 La démonstration repose sur le fait que
-:math:`\pr{N(t) \supegal n} \Longleftrightarrow \pr{S_n \infegal t}`.
+:math:`\pr{N(t) \supegal n} \Longleftrightarrow \pr{S_n \leqslant t}`.
 On en déduit que :
 
 .. math::
 
-    \pr{N(t) = n} = \pr{N(t) \supegal n} - \pr{N(t) \supegal n+1} = \pr{S_n \infegal t} - \pr{S_{n+1} \infegal t}
+    \pr{N(t) = n} = \pr{N(t) \supegal n} - \pr{N(t) \supegal n+1} = \pr{S_n \leqslant t} - \pr{S_{n+1} \leqslant t}
 
 Or d'après le théorème :ref:`somme de loi exponentielle iid <theoreme_convolution_poisson>`,
 :math:`S_n` suit une loi :math:`Gamma(n,\lambda)`.

diff --git a/_doc/c_metric/pvalues.rst b/_doc/c_metric/pvalues.rst
@@ -26,7 +26,7 @@ Howerver p-Values and confidence interval are similar: they tell you whether
 or not a metric difference is significant.
 
 Usually, it starts from a set of identically distributed random variables
-:math:`(X_i)_{1 \infegal i \infegal N}`. We then estimate the average
+:math:`(X_i)_{1 \leqslant i \leqslant N}`. We then estimate the average
 :math:`\widehat{\theta}_N = \frac{1}{N} \sum_{i=1}^{N} X_i` and we ask
 the question is :math:`\widehat{\theta}_N` null? In others terms, we
 want to know if the average is significantly different from zero. If
@@ -48,7 +48,7 @@ Not all of them have a standard deviation. For example, if :math:`X` follows a
 This remark also concerns every distribution known as heavy tail distribution.
 
 If :math:`Y \sim \loinormale{0}{\sigma}`, then we have
-:math:`\pr{\abs{Y} \infegal 1.96} = 0.95`. That is why we can say:
+:math:`\pr{\abs{Y} \leqslant 1.96} = 0.95`. That is why we can say:
 
 .. math::
     :nowrap:
@@ -270,7 +270,7 @@ density function of :math:`X`. We also consider an interval
     :nowrap:
 
     \begin{eqnarray*}
-    \pr{X \in I} = \pr{ \abs{X} \infegal a } = \pr{ f(X) \supegal f(a)}
+    \pr{X \in I} = \pr{ \abs{X} \leqslant a } = \pr{ f(X) \supegal f(a)}
     \end{eqnarray*}
 
 This is true because :math:`f` is decreasing for :math:`x>0`.