Sociedad
Escrito por Redacción Matematicalia   
lunes, 12 de diciembre de 2005
Mancomunidad de sangre



Mancomunidad de sangre (*)

 

Keith Ball

Department of Mathematics

University College (London, UK)

e-mail: kmb @ math.ucl.ac.uk

página web: http://www.ucl.ac.uk/Mathematics/staff/KMB.html

 

 

 

Hace algún tiempo mi cuñado, que es biólogo, me hizo una pregunta interesante sobre matemáticas. Resulta que él mismo había desarrollado un análisis de sangre para detectar cierta anomalía, poco importante, en niños. La presencia de una sustancia particular en la sangre indicaría la presencia de la condición, y viceversa. Su test era lo suficientemente sensible como para poder detectar la existencia de uno o más niños afectados dentro de un grupo de 100, sin más que analizar una mezcla que contuviese una cantidad pequeña de sangre de cada niño: una muestra mancomunada de sangre.

 



taking a blood sample

 

Figura 1. [DHD Photo Gallery]

Obviamente, si se toman muestras de la sangre de 100 niños, es posible descubrir exactamente qué niños presentan la anomalía realizando 100 análisis por separado. La pregunta es: ¿se puede reducir sensiblemente el número de análisis analizando la mezcla de las muestras? En tal caso, ¿cuál es la mejor manera de hacerlo?

 

Esta pregunta es un ejemplo perfecto de un problema perteneciente a la rama de las matemáticas conocida como teoría de la información. Dado un sistema al azar (100 muestras de bebés aleatoriamente elegidos), deseamos utilizar experimentos para identificar cuál de los estados posibles del sistema ha ocurrido realmente.

 

 

Preguntas Sí/No

 

Partitioning of the states

 

Figura 2. La partición de estados.

 

El punto de partida básico de la teoría de la información es: cualquiera que sea el sistema aleatorio considerado y cualesquiera que sean los experimentos que estemos haciendo, cada experimento no es más que una forma de dividir la colección de estados en partes. Un experimento pregunta qué estados producen el resultado A, cuáles el resultado B, etc. En el diagrama de la Figura 2, las rectas representan la partición de la colección de estados mediante los experimentos.

 

En nuestro caso, los resultados posibles de cada análisis son:


  • Al menos uno de los contribuyentes a la combinación de muestras presenta la anomalía.
  • Todos los contribuyentes carecen de ella.

 

 

Yes/No questions

 

Figura 3. Preguntas Sí/No.

 

Así, cada prueba divide los estados posibles en dos partes: aquellos estados con resultado positivo y aquellos otros con resultado negativo. A medida que realizamos más experimentos, refinamos más nuestra partición. Después de 2 análisis habremos dividido el espacio de estados en 4 partes, después de 3 en 8,  etc.

 

En general, después de m tests habremos dividido el espacio de estados en 2m partes. Nuestra tarea es identificar qué estado ha ocurrido realmente. Queremos diseñar un protocolo de pruebas que divida los estados totalmente: en elementos individuales. Si estamos haciendo preguntas con sólo dos respuestas posibles (sí o no), entonces el número máximo de  posibilidades que podremos distinguir con m preguntas es 2m.

 

Usualmente es preferible expresar el número de experimentos necesario en términos del número de estados que pretendemos distinguir, en lugar de al revés. Si el número de  estados es n = 2m entonces el número de preguntas es el logaritmo en base 2: m = log2 n. Informalmente,

 

(número de preguntas Sí/No) aproximadamente igual a log2 (número de estados).

 

Esto parece prometedor, puesto que nos dice que el número de preguntas que necesitamos (la incertidumbre de nuestro sistema) es mucho menor que el número de estados.

 

Sin embargo, si hay n niños puede ser que tengamos que realizar n análisis para descubrir exactamente cuáles están afectados por la anomalía, puesto que una posibilidad es que todos los n niños estén afectados. En ese caso, vamos ciertamente a tener que analizar la sangre de cada niño por separado para confirmar si está o no afectado. Ahora  bien, si la anomalía es rara entonces es inverosímil que todos los niños la padezcan. Nuestra esperanza es que para una anormalidad rara tenemos una probabilidad alta de eliminar a una gran cantidad de niños con una sola prueba. Esto significa que en vez de preguntar:

 

¿Cuántas pruebas podríamos necesitar para determinar quién está afectado?,

 

deberíamos preguntar:

 

¿Podemos diseñar un protocolo de tests que determine quién está afectado, pero que generalmente requiera menos de n análisis?

 

La entropía

 


A measure of uncertainty


Figura 4. Una medida de la incertidumbre.

El número log2n que encontramos anteriormente es la incertidumbre de una colección de n estados igualmente probables. En el caso de las muestras de sangre, los estados no son todos igualmente probables: la posibilidad que todos los niños estén afectados es muy remota. Necesitamos, por tanto, refinar nuestra medida de la incertidumbre teniendo en cuenta la probabilidad de los diversos estados.

 

Para ello, vamos a reescribir nuestra estimación anterior en términos de probabilidades. El número log2 n es la incertidumbre de una colección de n estados igualmente probables: una colección de estados, cada uno de los cuales tiene probabilidad 1/n de ocurrir. Si llamamos p a esta probabilidad, de modo que n = 1/p, entonces la incertidumbre es log2 1/p. Si nos dan un sistema con estados igualmente probables con probabilidad p entonces identificar el estado requerirá log2 1/p preguntas.

 

Supongamos ahora que tenemos una colección de estados con probabilidades diferentes p1, p2, p3,... La idea es pensar en cada uno de ellos como si pertenecieran a una colección de estados igualmente probables. El estado i-ésimo tiene probabilidad pi, así que necesitamos log2 1/pi preguntas para identificarlo (si ocurre). Para encontrar el número medio de preguntas que necesitaremos, tenemos que sumar esos números log2 pi pero ponderados según la probabilidad que tienen de ocurrir, esto es, tenemos que calcular la media ponderada de los valores log2 pi.

 

Conseguimos así una medida de la incertidumbre,

 

p1log2 (1/p1) + p2log2 (1/p2) + ... + pn log2 (1/pn),

 

llamada entropía del sistema. Es posible probar que el número medio mínimo de preguntas Sí/No requeridas para identificar el estado no puede ser más pequeño que la entropía del conjunto de estados posibles: por tanto, la entropía es en efecto una buena medida de la incertidumbre. La entropía mide un “núcleo duro” de incertidumbre que no podemos esperar  circunvenir por muy hábilmente que diseñemos nuestro protocolo de pruebas.

 

En el caso de n muestras de sangre de una población en la que la enfermedad ocurre con probabilidad p, la entropía puede ser calculada fácilmente y vale:

 

n (  p log2 1/ p + (1- p) log2 1/(1- p) ).

 

Esta cantidad es proporcional a  n, el número de muestras, que es lo que cabría esperar: el doble de personas debería necesitar el doble de pruebas. El número de pruebas por muestra es la proporción:

 

 p log2 1/ p + (1- p) log2 1/(1- p).

 

Quisiéramos que esta proporción fuera menor que 1, para necesitar menos tests que muestras. En la Figura 5 vemos la gráfica de esta cantidad frente a p.

 


Entropy per sample

Figura 5. Entropía por muestra.

Casi con toda seguridad, esta cantidad se mantiene por debajo de 1 y si p es muy pequeño, si la enfermedad es rara, la entropía está próxima a cero: hay menos incertidumbre. Esto nos reafirma en nuestra argumentación.

 

La entropía mide el número mínimo de pruebas necesarias en promedio para determinar qué niños están afectados. Pero no nos dice cómo realizar las pruebas: no nos dice si existe  algún protocolo que funcione con tan pocas pruebas, ni mucho menos cuál es ese protocolo. Esta situación es más o menos inevitable. La cuestión de si hay una manera eficiente de analizar un sistema aleatorio, depende de una forma muy delicada, de cuál es ese sistema y de qué preguntas podemos hacer. Para conseguir una cota superior, tenemos que diseñar un protocolo explícito que funcione bien.

 

 

Un protocolo binario para los análisis de sangre

 



The binary protocol

 

Figura 6. El protocolo binario.

Una posible forma de analizar las muestras es utilizar un protocolo de división “binario”: dividir repetidamente las posibilidades en dos. Sea n  el número de muestras recogidas y, por simplicidad, supongamos que n es una potencia de 2, n = 2m. Puede ser que ninguna de las muestras exhiba la anomalía, así que tiene sentido comenzar analizando una mezcla de todas las n muestras. Si este análisis es negativo entonces habremos eliminado la totalidad de las muestras con un solo test. Si, por el contrario, es positivo entonces procederemos a dividir las muestras en 2 tandas de n/2 = m-1. Puesto que podría haber más de una muestra afectada, tenemos que testear cada tanda. Si ambas resultan negativas entonces podemos eliminar todas las muestras de esa tanda. Continuamos de esta manera, eliminando cualquier tanda que resulte negativa y subdividiendo cualquier tanda que resulte positiva.

 

Como puede verse en el diagrama de la Figura 6, el proceso de dividir las muestras repetidamente en dos puede ser representado por lo que  parece un árbol genealógico. El diagrama muestra ese árbol para n = 8. Cada tanda se divide en dos tandas “hijas” en el nivel inferior. El diagrama también muestra qué sucede si una de las 8 muestras presenta la anomalía (marcada con una cruz). Las tandas sombreadas son las que en realidad tenemos que analizar. Cada vez que analizamos una tanda que no está marcada con una cruz, obtenemos un resultado negativo y no tenemos que volver a analizar ninguna muestra en esta tanda. Cada vez que analizamos una tanda que sí está marcada con una cruz, tenemos que continuar y analizar sus tandas hijas.

 

Podemos calcular el número esperado de tests que necesita este protocolo. Si comenzamos con n = 2m muestras y la probabilidad de que cada muestra esté afectada es p, entonces el número esperado de tests que usa el protocolo binario resulta ser

 

\begin{displaymath}E(n) = 1+2 \sum_{k=0}^{m-1} 2^k \left( 1-(1-p)^{2^{m-k}}
\right). \end{displaymath}

 

 



Tests per sample for <i>p</i>=0.01

 

Figura 7. Tests por muestra para p = 0,01.

 

El gráfico de la Figura 7 muestra este número esperado, dividido por n (el número de pruebas por muestra) en relación a n para el valor p = 0,01. Los puntos representan el número de pruebas por muestra que esperamos utilizar con el protocolo binario, mientras que la línea horizontal representa la cota de entropía: el número mínimo de  pruebas que podríamos esperar necesitar. El protocolo binario solamente requiere, aproximadamente, el doble de tests que el óptimo, de modo que funciona razonablemente bien.

  

 

 

 

El patrón de puntos parece un poco extraño: disminuye inicialmente y después aumenta, con un mínimo en el punto correspondiente a 64 muestras. La razón es que para un número pequeño de muestras ningún protocolo es muy eficiente; con sólo una muestra estamos limitados a 1 test, no es posible realizar una fracción de test. Para un número grande de muestras el protocolo también tiene una pequeña ineficacia; es altamente improbable que todas las muestras estén limpias. Esto significa que si nuestra colección de muestras de sangre es muy grande, no hay razón para analizarlas todas de una vez: el test sería positivo casi con toda seguridad, y tendríamos que continuar dividiéndolas. No tiene sentido realizar un análisis si prácticamente se tiene la certeza de cuál va a ser el resultado, porque el análisis probablemente no aporte ninguna información útil.

 

Si usamos un protocolo de pruebas refinado en el cual dividimos las muestras en tandas de tamaño 64 antes de realizar ningún test y después utilizamos el protocolo de división binario en cada una de ellas, entonces para p = 0.01 el protocolo no usará en promedio más de 13 tests por 100 niños, aproximadamente. (En general, para una condición con prevalencia p el tamaño óptimo de la tanda inicial está en torno a 1/p). Esto supone una mejora considerable sobre los 100 tests que serían necesarios si no se mezclan las muestras.

 

 

Sobre el autor

Keith Ball se licenció en Matemáticas en la Universidad de Cambridge (UK), donde también obtuvo el doctorado en 1987. Después de trabajar algunos años en universidades norteamericanas, retornó al Reino Unido y es actualmente profesor del Departamento de Matemáticas del University College de Londres. Sus intereses matemáticos incluyen geometría en espacios de dimensión alta, probabilidad y teoría de la información, y aproximación diofántica. Es autor del libro de matemática recreativa Strange curves, counting rabbits and other mathematical explorations, publicado por Princeton University Press en 2003.

 



(*) Este artículo apareció en el número 28 (enero 2004) de Plus Magazine. Matematicalia agradece a los responsables del Millennium Mathematics Project de la Universidad de Cambridge la autorización para publicar su traducción al castellano. (Traductora: Isabel Marrero).