Economía |
Escrito por Redacción Matematicalia | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
martes, 21 de junio de 2005 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() En busca del número uno (*)Jon Walthoe
Editor en Matemáticas
Cambridge University
Press
página web: http://www.cup.cam.ac.uk
Robert Hunt
Mike Pearson
Introducción
Nos encontramos ante un reto. Busquemos
una serie de números. Valdrá cualquier colección de números que aparezcan de
forma natural. Probemos con la longitud de algunos de los ríos del mundo, el
coste de las facturas de gas de Moldavia, los tamaños poblacionales de las
provincias peruanas o, incluso, las cifras de la declaración de la renta de
Bill Clinton. A continuación, cuando tengamos una muestra de números,
observemos los primeros dígitos (ignorando cualquier cero inicial). Contemos
los números que comiencen por 1, por 2, por 3, etc. ¿Qué obtenemos? Probablemente esperemos que haya más o
menos la misma cantidad de números que empiecen por cada dígito distinto: que
la proporción de números que empiecen por un dígito determinado sea alrededor
de 1/9. Sin embargo, en muchos casos, nos habremos equivocado. Sorprendentemente, en muchos tipos de
datos, la distribución de los primeros dígitos es bastante asimétrica, siendo
el número 1 el más común, y el 9 el menos común. De hecho, parece tratarse de
una relación matemática clara: la proporción esperada de números cuyo primer
dígito es n es igual a log10((n+1)/n).
Esta relación, que se muestra en el
gráfico de la Figura 1, es conocida
como Ley de Benford, y resulta cada
vez más útil cuanto mejor la entendemos. Pero ¿cómo fue descubierta y por qué
debería ser cierta? El
descubrimiento de Newcomb
Newcomb no aportó ninguna explicación
para su descubrimiento. Lo anotó como una curiosidad, y frente a una falta de
interés general, fue rápidamente olvidado hasta 1938, cuando Frank Benford, un
físico de la compañía General Electric[1], se dio cuenta del mismo patrón.
Entusiasmado por el descubrimiento, Benford comenzó a analizar cuán exactamente
los números del mundo real se correspondían con la ley. Recopiló un conjunto
enorme de datos incluyendo estadísticas de béisbol, áreas fluviales, y las
direcciones de las primeras 342 personas inscritas en el libro Hombres de Ciencia Americanos. Benford observó que incluso usando tal
mezcla de datos, los números encajaban bastante bien en la ley que Newcomb
había descubierto medio siglo antes. Alrededor del 30% empezaban por 1, el 18%
por 2, etc. Su análisis era una prueba de la existencia de la ley, pero Benford
tampoco fue capaz de explicar bien por qué era así. El primer paso para explicar esta
curiosa relación lo dio Roger Pinkham en 1961, un matemático de New Jersey. El
razonamiento de Pinkham era el siguiente. Supongamos que realmente existe una
ley de frecuencias de dígitos. En tal caso dicha ley debería ser universal.
Tanto si calculamos los precios en dólares, dinares o dracmas, o si medimos la
longitud en cúbitos[2],
pulgadas o metros, las proporciones de frecuencias de dígitos deberían ser las
mismas. Es decir, Pinkham afirmaba que la distribución de las frecuencias de
dígitos debía ser invariante frente a
cambios de escala. Con este razonamiento, Pinkham fue el
primero en observar que la ley de Benford era invariante frente a la escala.
Luego demostró que si una ley de frecuencias de dígitos era invariante frente a
la escala, entonces se trataba de la Ley de Benford (véase la demostración más abajo).
La prueba aportada iba confirmando que la Ley de Benford realmente existe. Nuestro
propio experimento
¿Resulta realmente tan sencillo
encontrar datos que confirmen la Ley de Benford? En nuestro caso, observamos
algunos datos de tres fuentes distintas: constantes físicas fundamentales,
presiones del vapor (ambas sacadas del Libro
de Bolsillo de Física y Química) y fluctuaciones anuales de la libra
esterlina (de las Estadísticas de
Negocios Kompass). Elegimos un conjunto de estadísticas al azar de cada una
de estas categorías y contamos el número de apariciones de cada primer dígito.
Obtuvimos los siguientes resultados (Tabla 1):
¿Cuándo
manda Benford?
En este punto podríamos sentirnos
tentados a revisar la forma en que elegimos los números de la bonoloto. Adiós a
las fechas de los cumpleaños y bienvenido Benford. ¿Notaremos la diferencia?
En otras palabras, la Ley de Benford
necesita datos que no sean totalmente aleatorios ni muy condicionados, sino que
estén más o menos en medio. Los datos pueden ser de una gran variedad y suelen
ser el resultado típico de diversos procesos, con muchas influencias. Por
ejemplo, las cifras de población de pueblos y ciudades pueden variar desde decenas
o cientos a miles o millones, y les afecta un gran abanico de factores. A la caza del fraude con Benford
La
Ley de Benford es indudablemente un resultado interesante y sorprendente, pero
¿cuál es su relevancia? Va ganando peso la prueba de que los datos financieros
también encajan en la Ley de Benford. Este hecho resulta tremendamente
importante para detectar (¡o cometer!) un fraude. El Dr. Mark Nigrini, un profesor de
contabilidad de Dallas, lo ha utilizado con bastante éxito. Si alguien trata de
falsificar, por ejemplo, su declaración de la renta, irremediablemente tendrá
que inventar algún dato. Al intentarlo, la tendencia de la gente es utilizar
demasiados números que comienzan por dígitos a mitad de la escala, 5, 6, 7, y
pocos que empiezan por 1. Esta violación de la Ley de Benford hace saltar la
alarma. El Dr. Nigrini ha creado un programa
informático para detectar en qué medida algunos datos suministrados encajan con
la Ley de Benford. El resultado ha sido increíblemente exitoso. Recientemente
la oficina del fiscal del distrito de Brooklyn ha tratado siete importantes
casos de fraude y el programa del Dr. Nigrini fue capaz de detectar los siete
casos. También se utilizó dicho programa para analizar la declaración de la
renta de Bill Clinton. Aunque reveló que probablemente había varios redondeos
en lugar de cifras exactas, no hubo indicios de fraude. Esto indica una limitación al método de
detección de fraude de Benford. De hecho, a menudo los datos pueden alejarse de
la Ley de Benford por motivos perfectamente inocentes. A veces las cifras no
pueden darse de forma precisa, y es entonces cuando aparece el redondeo, lo
cual puede modificar el primer dígito de un número. Asimismo, sobre todo cuando
se trata de precios, los cifras 95 y 99 aparecen demasiado a menudo debido a
estrategias de marketing. En estos casos, la Ley de Benford podría indicar un
fraude cuando realmente no es ese el caso. El método no es infalible. Sin embargo, el uso de esta ley notable
no se ciñe a la caza de fraudes. Ya existe un sistema en funcionamiento que
permite probar sistemas informáticos para el efecto 2000[3]. Con la Ley de Benford es posible detectar un cambio significativo en las cifras
de una empresa entre 1999 y 2000. Demasiado cambio indicaría que algo anda mal.
Se podría ahorrar tiempo, dinero y
medios si los sistemas informáticos se manejaran de forma más eficaz. Un equipo
de Friburgo está trabajando en la idea de distribuir espacio del disco duro
según la Ley de Benford. Unos científicos belgas investigan si
la Ley de Benford puede usarse para detectar irregularidades en casos clínicos.
Mientras tanto, la buena correlación existente entre las estadísticas
poblacionales y la Ley de Benford significa que puede usarse para verificar
modelos demográficos. ¿Quién sabe en qué más casos sería
útil? El Dr. Nigrini comenta: Preveo
muchas aplicaciones, pero para mí es fascinante en sí misma. Considero a Benford
un gran héroe. Su ley no es mágica, pero a veces lo parece. Deducción de la Ley de
Benford
Tal y como argumentó Pinkham, el hecho
de que encontremos todo tipo de datos en el mundo real que parecen encajar en
la Ley de Benford, sugiere que esa ley debe ser invariante frente a la escala.
¿Por qué? Porque podemos medir nuestros datos con una gama de escalas distintas
(pies/metros, libras/dólares, galones/mililitros, etc.). Si la ley de
frecuencia de dígitos es real, deberá serlo para todas (no hay razón para que
sólo una escala de medidas, la que elijamos al azar, sea la correcta). Así que si hay una ley de distribución
de primeros dígitos significativos, debería mantenerse independientemente de
las unidades usadas. La distribución de primeros dígitos significativos no
debería variar cuando cada número se multiplique por un factor constante. Dicho
de otro modo, cualquier ley de este tipo debe ser invariante frente a la
escala. Los dígitos equiprobables no
son invariantes frente a la escala
La mayoría de la gente tiene la
intuición de que cada uno de los dígitos del 1 al 9 tiene la misma probabilidad
de aparecer como primer dígito significativo de cualquier cifra. Supongamos que
este es el caso y veamos qué ocurre con un conjunto de cantidades que se
convertirán de libras a euros con el valor (ficticio) de 2 euros por libra. Es bastante fácil averiguar qué ocurrirá
observando cada dígito uno por uno. Si el primer dígito significativo es 1,
entonces al multiplicar por 2 se obtendrá un nuevo primer dígito 2 ó 3 con la
misma probabilidad. Pero si el primer dígito significativo es 5, 6, 7, 8 ó 9 el
nuevo primer dígito será 1. Se desprende que en el nuevo conjunto de cuentas,
el primer dígito 1 es diez veces más probable que cualquier otro primer dígito.
En el diagrama de la Figura 4, la notación [a,b) indica la
gama de números mayores o iguales que a pero estrictamente
menores que b.
Figura 4. La distribución de los dígitos equiprobables
cambia con la escala. La intuición nos falló: la distribución
uniforme original se orienta con fuerza hacia el dígito 1. Así que si la
invarianza frente a la escala es necesaria, la distribución uniforme no es la
respuesta acertada. Concretando la invarianza
frente a la escala
¿Qué significa realmente la invarianza
frente a la escala de la distribución del primer dígito significativo? Quiere
decir que si multiplicamos todos los números por una constante arbitraria (como
hacemos cuando cambiamos de libras a yenes, o pies a metros), la distribución
de las frecuencias del primer dígito debería permanecer inalterada. Como estamos interesados en la
distribución de los primeros dígitos significativos, tiene sentido expresar los
números en notación científica x × 10n,
donde 1 ≤ x < 10. Esto es posible con todos los números
excepto el cero. El primer dígito significativo d es, sencillamente,
el primer dígito de x. Podemos derivar fácilmente una
distribución invariante frente a la escala para d cuando hayamos
encontrado una distribución invariante frente a la escala para x.
Si una distribución para x
es invariante frente a la escala, la distribución de y=log10x
debería permanecer inalterada cuando sumáramos un valor constante a y.
¿Por qué? Porque multiplicaríamos x por una constante a,
y entonces log10ax = log10a + log10x = log10a + y. Ahora bien, la única distribución de
probabilidad de y en [0,1) que permanecerá invariada después
de sumar una constante arbitraria a y, es la distribución uniforme.
Para convencernos de esto, pensemos en la forma de la función de densidad de
probabilidad para la distribución uniforme.
En la Figura 5, y
se distribuye uniformemente entre log10(1)
= 0 y log10(10)
= 1. Si
queremos encontrar la probabilidad de que d sea 1 debemos calcular Para obtenerla evaluamos la integral
que es aproximadamente 0.301. En general,
Y esto se obtiene de
La fórmula log10((n+1)/n) fue precisamente la fórmula aportada por Newcomb y más tarde por Benford para la proporción de números cuyo primer dígito es n. Así que podemos demostrar que la invarianza frente a la escala para la distribución de las frecuencias del primer dígito de x implica que dicha distribución ¡debe ser la Ley de Benford! [1] The "general electric" company en el original (N. del E.) [2] Antigua medida de longitud egipcia, que todavía se utiliza en Inglaterra, equivalente a 45,72 centímetros. (N. de la T.) [3] El artículo original fue publicado en septiembre de 1999, de ahí la importancia que se da al “efecto 2000” que, en aquellos momentos, estaba por venir. (N. de la T.)
![]() (*) Este artículo apareció en el número 9
(septiembre 1999) de Plus Magazine. Matematicalia agradece a los responsables del Millennium
Mathematics Project de la Universidad de Cambridge la autorización para
publicar su traducción al castellano. [Traductora: Eugenia M. González
Betancor]. |