Economía
Escrito por Redacción Matematicalia   
martes, 21 de junio de 2005
En busca del número uno



En busca del número uno (*)

 

 

Jon Walthoe

Editor en Matemáticas

Cambridge University Press

página web: http://www.cup.cam.ac.uk

 

Robert Hunt

 

Mike Pearson

 

Introducción

Nos encontramos ante un reto. Busquemos una serie de números. Valdrá cualquier colección de números que aparezcan de forma natural. Probemos con la longitud de algunos de los ríos del mundo, el coste de las facturas de gas de Moldavia, los tamaños poblacionales de las provincias peruanas o, incluso, las cifras de la declaración de la renta de Bill Clinton. A continuación, cuando tengamos una muestra de números, observemos los primeros dígitos (ignorando cualquier cero inicial). Contemos los números que comiencen por 1, por 2, por 3, etc. ¿Qué obtenemos?

Probablemente esperemos que haya más o menos la misma cantidad de números que empiecen por cada dígito distinto: que la proporción de números que empiecen por un dígito determinado sea alrededor de 1/9. Sin embargo, en muchos casos, nos habremos equivocado.

Sorprendentemente, en muchos tipos de datos, la distribución de los primeros dígitos es bastante asimétrica, siendo el número 1 el más común, y el 9 el menos común. De hecho, parece tratarse de una relación matemática clara: la proporción esperada de números cuyo primer dígito es n es igual a log10((n+1)/n).

Esta relación, que se muestra en el gráfico de la Figura 1, es conocida como Ley de Benford, y resulta cada vez más útil cuanto mejor la entendemos. Pero ¿cómo fue descubierta y por qué debería ser cierta?

El descubrimiento de Newcomb

 

Quien primero se dio cuenta de este fenómeno fue el matemático y astrónomo Simon Newcomb. Un día, Newcomb estaba usando un libro de logaritmos para unos cálculos y se dio cuenta de que las páginas del libro estaban más viejas y usadas cuanto más cercanas estaban del principio. ¿A qué se debía? Por lo visto, para realizar sus cálculos, la gente utilizaba más los números que empezaban por dígitos bajos que por dígitos altos. Newcomb encontró una fórmula que se ajustaba bastante bien a sus observaciones. Argumentaba que el porcentaje de los números que empezaban por el dígito D debía ser log10((D+1)/D).

Figura 1. La frecuencia proporcional de cada

primer dígito predicha por la Ley de Benford.

Newcomb no aportó ninguna explicación para su descubrimiento. Lo anotó como una curiosidad, y frente a una falta de interés general, fue rápidamente olvidado hasta 1938, cuando Frank Benford, un físico de la compañía General Electric[1], se dio cuenta del mismo patrón. Entusiasmado por el descubrimiento, Benford comenzó a analizar cuán exactamente los números del mundo real se correspondían con la ley. Recopiló un conjunto enorme de datos incluyendo estadísticas de béisbol, áreas fluviales, y las direcciones de las primeras 342 personas inscritas en el libro Hombres de Ciencia Americanos.

Benford observó que incluso usando tal mezcla de datos, los números encajaban bastante bien en la ley que Newcomb había descubierto medio siglo antes. Alrededor del 30% empezaban por 1, el 18% por 2, etc. Su análisis era una prueba de la existencia de la ley, pero Benford tampoco fue capaz de explicar bien por qué era así.

El primer paso para explicar esta curiosa relación lo dio Roger Pinkham en 1961, un matemático de New Jersey. El razonamiento de Pinkham era el siguiente. Supongamos que realmente existe una ley de frecuencias de dígitos. En tal caso dicha ley debería ser universal. Tanto si calculamos los precios en dólares, dinares o dracmas, o si medimos la longitud en cúbitos[2], pulgadas o metros, las proporciones de frecuencias de dígitos deberían ser las mismas. Es decir, Pinkham afirmaba que la distribución de las frecuencias de dígitos debía ser invariante frente a cambios de escala.

Con este razonamiento, Pinkham fue el primero en observar que la ley de Benford era invariante frente a la escala. Luego demostró que si una ley de frecuencias de dígitos era invariante frente a la escala, entonces se trataba de la Ley de Benford (véase la demostración más abajo). La prueba aportada iba confirmando que la Ley de Benford realmente existe.

Nuestro propio experimento

¿Resulta realmente tan sencillo encontrar datos que confirmen la Ley de Benford? En nuestro caso, observamos algunos datos de tres fuentes distintas: constantes físicas fundamentales, presiones del vapor (ambas sacadas del Libro de Bolsillo de Física y Química) y fluctuaciones anuales de la libra esterlina (de las Estadísticas de Negocios Kompass). Elegimos un conjunto de estadísticas al azar de cada una de estas categorías y contamos el número de apariciones de cada primer dígito. Obtuvimos los siguientes resultados (Tabla 1):

Dígitos

Constantes fundamentales

Presiones del vapor

Fluctuaciones anuales

1

22

36

44

2

11

21

25

3

2

16

12

4

5

15

15

5

5

10

9

6

3

11

11

7

2

9

9

8

1

8

10

9

4

6

2

Totales

55

132

137


Tabla 1.

 

 

La Figura 2 muestra los resultados expuestos en la Tabla 1, expresados como frecuencias relativas, junto con las frecuencias esperadas previstas por la Ley de Benford. Como se puede observar, existe una correspondencia razonable (aunque no perfecta) con las predicciones de frecuencia de dígitos según la Ley de Benford.

 

Figura 2.

 

 

Sin embargo, como ocurre con cualquier muestra estadística, esperaríamos obtener mayor correspondencia con los valores predichos si usáramos un mayor número de muestras. De hecho, si calculamos las frecuencias relativas de los primeros dígitos en todos los datos de la Tabla 1, observamos que las frecuencias se acercan mucho más a las predicciones de Benford (Figura 3).

 

Figura 3.

               

¿Cuándo manda Benford?

En este punto podríamos sentirnos tentados a revisar la forma en que elegimos los números de la bonoloto. Adiós a las fechas de los cumpleaños y bienvenido Benford. ¿Notaremos la diferencia?

Lamentablemente, la respuesta es negativa. El resultado de la bonoloto es totalmente aleatorio, de forma que cada número tiene la misma probabilidad de aparecer. A largo plazo, las frecuencias del primer dígito deberían estar, por tanto, en proporción exacta con respecto a la cantidad de números de la bonoloto que empezaran por ese dígito.

Por otro lado, consideremos los tiempos de los 400m olímpicos en segundos. ¡Ninguno comienza por 1! De la misma manera, pensemos en los mandatos, en años, de los políticos mundiales. Igualmente, muy pocos empiezan por 1. Al contrario que la lotería, estos datos no son aleatorios, sino que están muy condicionados. El abanico de posibilidades es muy limitado como para permitir que se cumpla una ley de frecuencias de dígito.

Imagen: Adrienne Hart-Davis

[DHD Photo Gallery]

En otras palabras, la Ley de Benford necesita datos que no sean totalmente aleatorios ni muy condicionados, sino que estén más o menos en medio. Los datos pueden ser de una gran variedad y suelen ser el resultado típico de diversos procesos, con muchas influencias. Por ejemplo, las cifras de población de pueblos y ciudades pueden variar desde decenas o cientos a miles o millones, y les afecta un gran abanico de factores.

A la caza del fraude con Benford

La Ley de Benford es indudablemente un resultado interesante y sorprendente, pero ¿cuál es su relevancia? Va ganando peso la prueba de que los datos financieros también encajan en la Ley de Benford. Este hecho resulta tremendamente importante para detectar (¡o cometer!) un fraude.

El Dr. Mark Nigrini, un profesor de contabilidad de Dallas, lo ha utilizado con bastante éxito. Si alguien trata de falsificar, por ejemplo, su declaración de la renta, irremediablemente tendrá que inventar algún dato. Al intentarlo, la tendencia de la gente es utilizar demasiados números que comienzan por dígitos a mitad de la escala, 5, 6, 7, y pocos que empiezan por 1. Esta violación de la Ley de Benford hace saltar la alarma.

El Dr. Nigrini ha creado un programa informático para detectar en qué medida algunos datos suministrados encajan con la Ley de Benford. El resultado ha sido increíblemente exitoso. Recientemente la oficina del fiscal del distrito de Brooklyn ha tratado siete importantes casos de fraude y el programa del Dr. Nigrini fue capaz de detectar los siete casos. También se utilizó dicho programa para analizar la declaración de la renta de Bill Clinton. Aunque reveló que probablemente había varios redondeos en lugar de cifras exactas, no hubo indicios de fraude.

Esto indica una limitación al método de detección de fraude de Benford. De hecho, a menudo los datos pueden alejarse de la Ley de Benford por motivos perfectamente inocentes. A veces las cifras no pueden darse de forma precisa, y es entonces cuando aparece el redondeo, lo cual puede modificar el primer dígito de un número. Asimismo, sobre todo cuando se trata de precios, los cifras 95 y 99 aparecen demasiado a menudo debido a estrategias de marketing. En estos casos, la Ley de Benford podría indicar un fraude cuando realmente no es ese el caso. El método no es infalible.

Sin embargo, el uso de esta ley notable no se ciñe a la caza de fraudes. Ya existe un sistema en funcionamiento que permite probar sistemas informáticos para el efecto 2000[3]. Con la Ley de Benford es posible detectar un cambio significativo en las cifras de una empresa entre 1999 y 2000. Demasiado cambio indicaría que algo anda mal.

Se podría ahorrar tiempo, dinero y medios si los sistemas informáticos se manejaran de forma más eficaz. Un equipo de Friburgo está trabajando en la idea de distribuir espacio del disco duro según la Ley de Benford.

Unos científicos belgas investigan si la Ley de Benford puede usarse para detectar irregularidades en casos clínicos. Mientras tanto, la buena correlación existente entre las estadísticas poblacionales y la Ley de Benford significa que puede usarse para verificar modelos demográficos.

¿Quién sabe en qué más casos sería útil? El Dr. Nigrini comenta: Preveo muchas aplicaciones, pero para mí es fascinante en sí misma. Considero a Benford un gran héroe. Su ley no es mágica, pero a veces lo parece.

Deducción de la Ley de Benford

Tal y como argumentó Pinkham, el hecho de que encontremos todo tipo de datos en el mundo real que parecen encajar en la Ley de Benford, sugiere que esa ley debe ser invariante frente a la escala. ¿Por qué? Porque podemos medir nuestros datos con una gama de escalas distintas (pies/metros, libras/dólares, galones/mililitros, etc.). Si la ley de frecuencia de dígitos es real, deberá serlo para todas (no hay razón para que sólo una escala de medidas, la que elijamos al azar, sea la correcta).

Así que si hay una ley de distribución de primeros dígitos significativos, debería mantenerse independientemente de las unidades usadas. La distribución de primeros dígitos significativos no debería variar cuando cada número se multiplique por un factor constante. Dicho de otro modo, cualquier ley de este tipo debe ser invariante frente a la escala.

Los dígitos equiprobables no son invariantes frente a la escala

La mayoría de la gente tiene la intuición de que cada uno de los dígitos del 1 al 9 tiene la misma probabilidad de aparecer como primer dígito significativo de cualquier cifra. Supongamos que este es el caso y veamos qué ocurre con un conjunto de cantidades que se convertirán de libras a euros con el valor (ficticio) de 2 euros por libra.

Es bastante fácil averiguar qué ocurrirá observando cada dígito uno por uno. Si el primer dígito significativo es 1, entonces al multiplicar por 2 se obtendrá un nuevo primer dígito 2 ó 3 con la misma probabilidad. Pero si el primer dígito significativo es 5, 6, 7, 8 ó 9 el nuevo primer dígito será 1. Se desprende que en el nuevo conjunto de cuentas, el primer dígito 1 es diez veces más probable que cualquier otro primer dígito.

En el diagrama de la Figura 4, la notación [a,b) indica la gama de números mayores o iguales que a pero estrictamente menores que b.



Figura 4. La distribución de los dígitos equiprobables cambia con la escala.

La intuición nos falló: la distribución uniforme original se orienta con fuerza hacia el dígito 1. Así que si la invarianza frente a la escala es necesaria, la distribución uniforme no es la respuesta acertada.

Concretando la invarianza frente a la escala

¿Qué significa realmente la invarianza frente a la escala de la distribución del primer dígito significativo? Quiere decir que si multiplicamos todos los números por una constante arbitraria (como hacemos cuando cambiamos de libras a yenes, o pies a metros), la distribución de las frecuencias del primer dígito debería permanecer inalterada.

Como estamos interesados en la distribución de los primeros dígitos significativos, tiene sentido expresar los números en notación científica x × 10n, donde 1 ≤ x < 10. Esto es posible con todos los números excepto el cero. El primer dígito significativo d es, sencillamente, el primer dígito de x. Podemos derivar fácilmente una distribución invariante frente a la escala para d cuando hayamos encontrado una distribución invariante frente a la escala para x.

Si una distribución para x es invariante frente a la escala, la distribución de y=log10x debería permanecer inalterada cuando sumáramos un valor constante a y. ¿Por qué? Porque multiplicaríamos x por una constante a, y entonces log10ax = log10a + log10x = log10a + y.

Ahora bien, la única distribución de probabilidad de y en [0,1) que permanecerá invariada después de sumar una constante arbitraria a y, es la distribución uniforme. Para convencernos de esto, pensemos en la forma de la función de densidad de probabilidad para la distribución uniforme.



Figura 5.

En la Figura 5,  y se distribuye uniformemente entre log10(1) = 0 y log10(10) = 1.

Si queremos encontrar la probabilidad de que d sea 1 debemos calcular

Para obtenerla evaluamos la integral

que es aproximadamente 0.301. En general,

$\displaystyle Pr\big(d = n\big)$

 

Y esto se obtiene de

 

$\displaystyle \log_{10}((n+1)/n) \nonumber$

La fórmula log10((n+1)/n) fue precisamente la fórmula aportada por Newcomb y más tarde por Benford para la proporción de números cuyo primer dígito es n. Así que podemos demostrar que la invarianza frente a la escala para la distribución de las frecuencias del primer dígito de x implica que dicha distribución ¡debe ser la Ley de Benford!



[1] The "general electric" company en el original (N. del E.)

[2] Antigua medida de longitud egipcia, que todavía se utiliza en Inglaterra, equivalente a 45,72 centímetros. (N. de la T.)

[3] El artículo original fue publicado en septiembre de 1999, de ahí la importancia que se da al “efecto 2000” que, en aquellos momentos, estaba por venir. (N. de la T.)



Sobre el primer autor

Jon Walthoe es Licenciado en Matemáticas por la Universidad de Exeter (1996) y Doctor en Matemáticas por la Universidad de Sussex (2000). Compaginó sus estudios de doctorado con la colaboración en proyectos de iniciación a la investigación matemática (Pupil Researcher Initiative, EPSRC) y de divulgación de las salidas profesionales en matemáticas (EAZ Brighton-Hove) para el alumnado de niveles no universitarios. Actualmente trabaja como editor de Matemáticas en Cambridge University Press.





(*) Este artículo apareció en el número 9 (septiembre 1999) de Plus Magazine. Matematicalia agradece a los responsables del Millennium Mathematics Project de la Universidad de Cambridge la autorización para publicar su traducción al castellano. [Traductora: Eugenia M. González Betancor].