Mancomunidad de sangre
Keith Ball
Department of Mathematics
University College (London, UK)
Hace algún tiempo mi cuñado, que es
biólogo, me hizo una pregunta interesante sobre matemáticas. Resulta que él
mismo había desarrollado un análisis de sangre para detectar cierta anomalía,
poco importante, en niños. La presencia de una sustancia particular en la
sangre indicaría la presencia de la condición, y viceversa. Su test era lo
suficientemente sensible como para poder detectar la existencia de uno o más
niños afectados dentro de un grupo de 100, sin más que analizar una mezcla que
contuviese una cantidad pequeña de sangre de cada niño: una muestra mancomunada
de sangre.
Obviamente, si se toman muestras de
la sangre de 100 niños, es posible descubrir exactamente qué niños presentan la
anomalía realizando 100 análisis por separado. La pregunta es: ¿se puede
reducir sensiblemente el número de análisis analizando la mezcla de las
muestras? En tal caso, ¿cuál es la mejor manera de hacerlo?
Esta pregunta es un ejemplo perfecto
de un problema perteneciente a la rama de las matemáticas conocida como teoría
de la información. Dado un sistema al azar (100 muestras de bebés
aleatoriamente elegidos), deseamos utilizar experimentos para identificar cuál
de los estados posibles del sistema ha ocurrido realmente.
Preguntas Sí/No
El punto de partida básico de la
teoría de la información es: cualquiera que sea el sistema aleatorio
considerado y cualesquiera que sean los experimentos que estemos haciendo, cada
experimento no es más que una forma de dividir la colección de estados en
partes. Un experimento pregunta qué estados producen el resultado A, cuáles el resultado B, etc. En el diagrama de la Figura 2, las rectas representan la
partición de la colección de estados mediante los experimentos.
En nuestro caso, los resultados
posibles de cada análisis son:
- Al
menos uno de los contribuyentes a la combinación de muestras presenta la
anomalía.
- Todos
los contribuyentes carecen de ella.

|
Figura 3. Preguntas Sí/No.
|
Así, cada prueba divide los estados
posibles en dos partes: aquellos estados con resultado positivo y aquellos
otros con resultado negativo. A medida que realizamos más experimentos,
refinamos más nuestra partición. Después de 2 análisis habremos dividido el espacio
de estados en 4 partes, después de 3 en 8, etc.
En general, después de m tests habremos dividido el
espacio de estados en 2m partes. Nuestra tarea es
identificar qué estado ha ocurrido realmente. Queremos diseñar un protocolo de
pruebas que divida los estados totalmente: en elementos individuales. Si
estamos haciendo preguntas con sólo dos respuestas posibles (sí o no), entonces
el número máximo de posibilidades que
podremos distinguir con m preguntas es 2m.
Usualmente es preferible expresar el
número de experimentos necesario en términos del número de estados que
pretendemos distinguir, en lugar de al revés. Si el número de estados es n = 2m entonces el número de preguntas es
el logaritmo en base 2: m = log2 n. Informalmente,
(número de preguntas Sí/No)
aproximadamente igual a log2 (número de estados).
Esto parece prometedor, puesto que
nos dice que el número de preguntas que necesitamos (la incertidumbre de nuestro sistema) es mucho menor que el número de
estados.
Sin embargo, si hay n niños puede ser que tengamos que realizar n análisis
para descubrir exactamente cuáles están afectados por la anomalía, puesto que
una posibilidad es que todos los
n niños estén afectados. En ese caso, vamos ciertamente
a tener que analizar la sangre de cada niño por separado para confirmar si está
o no afectado. Ahora bien, si la anomalía
es rara entonces es inverosímil que todos los niños la padezcan. Nuestra
esperanza es que para una anormalidad rara tenemos una probabilidad alta de
eliminar a una gran cantidad de niños con una sola prueba. Esto significa que en
vez de preguntar:
¿Cuántas pruebas podríamos
necesitar para determinar quién está afectado?,
deberíamos preguntar:
¿Podemos diseñar un protocolo de tests
que determine quién está afectado, pero que generalmente requiera menos de n análisis?
La entropía

|
Figura 4. Una medida de la
incertidumbre.
|
El número log2n que encontramos anteriormente es la incertidumbre de
una colección de n estados igualmente probables. En el caso de las
muestras de sangre, los estados no son todos igualmente probables: la
posibilidad que todos los niños estén afectados es muy remota. Necesitamos,
por tanto, refinar nuestra medida de la incertidumbre teniendo en cuenta la
probabilidad de los diversos estados.
Para ello, vamos a reescribir
nuestra estimación anterior en términos de probabilidades. El número log2 n es la incertidumbre de una colección de n estados igualmente probables: una colección de estados, cada uno de
los cuales tiene probabilidad 1/n de ocurrir. Si llamamos p a esta probabilidad, de modo que n = 1/p, entonces la incertidumbre es log2 1/p. Si nos dan un sistema con estados
igualmente probables con probabilidad p entonces identificar el estado requerirá log2 1/p
preguntas.
Supongamos ahora que tenemos una
colección de estados con probabilidades diferentes p1, p2, p3,... La idea es pensar en cada uno de
ellos como si pertenecieran a una colección de estados igualmente probables. El
estado i-ésimo
tiene probabilidad pi, así que necesitamos log2 1/pi preguntas para identificarlo (si
ocurre). Para encontrar el número medio de preguntas que necesitaremos, tenemos
que sumar esos números log2 pi pero ponderados según la
probabilidad que tienen de ocurrir, esto es, tenemos que calcular la media
ponderada de los valores log2 pi.
Conseguimos así una medida de la incertidumbre,
p1log2
(1/p1)
+ p2log2
(1/p2)
+ ... + pn log2 (1/pn),
llamada entropía del sistema.
Es posible probar que el número medio mínimo de preguntas Sí/No
requeridas para identificar el estado no puede ser más pequeño que la entropía
del conjunto de estados posibles: por tanto, la entropía es en efecto una buena
medida de la incertidumbre. La entropía mide un “núcleo duro” de incertidumbre
que no podemos esperar circunvenir por muy
hábilmente que diseñemos nuestro protocolo de pruebas.
En el caso de n muestras de sangre de una población en la que
la enfermedad ocurre con probabilidad p, la
entropía puede ser calculada fácilmente y vale:
n ( p log2 1/ p + (1- p) log2 1/(1- p) ).
Esta cantidad es proporcional a n, el número de
muestras, que es lo que cabría esperar: el doble de personas debería necesitar
el doble de pruebas. El número de pruebas por muestra es la proporción:
p log2 1/
p + (1- p) log2 1/(1- p).
Quisiéramos que esta proporción
fuera menor que 1, para necesitar menos tests que muestras. En la Figura 5 vemos la gráfica de esta
cantidad frente a p.
Casi con toda seguridad, esta
cantidad se mantiene por debajo de 1 y si p es muy pequeño, si la enfermedad es
rara, la entropía está próxima a cero: hay menos incertidumbre. Esto nos
reafirma en nuestra argumentación.
La entropía mide el número mínimo de
pruebas necesarias en promedio para determinar qué niños están afectados. Pero
no nos dice cómo realizar las pruebas: no nos dice si existe algún protocolo que funcione con tan
pocas pruebas, ni mucho menos cuál es ese protocolo. Esta situación es más o
menos inevitable. La cuestión de si hay una manera eficiente de analizar un
sistema aleatorio, depende de una forma muy delicada, de cuál es ese sistema y de
qué preguntas podemos hacer. Para conseguir una cota superior, tenemos que
diseñar un protocolo explícito que funcione bien.
Un protocolo binario
para los análisis de sangre
Una posible forma de analizar las
muestras es utilizar un protocolo de división “binario”: dividir repetidamente
las posibilidades en dos. Sea n el número de muestras recogidas y, por simplicidad,
supongamos que n es una potencia de 2, n = 2m. Puede ser que ninguna de las
muestras exhiba la anomalía, así que tiene sentido comenzar analizando una
mezcla de todas las n muestras. Si este análisis es
negativo entonces habremos eliminado la totalidad de las muestras con un solo
test. Si, por el contrario, es positivo entonces procederemos a dividir las
muestras en 2 tandas de n/2 = m-1. Puesto que podría haber más de una muestra afectada, tenemos que testear
cada tanda. Si ambas resultan negativas entonces podemos eliminar todas las
muestras de esa tanda. Continuamos de esta manera, eliminando cualquier tanda
que resulte negativa y subdividiendo cualquier tanda que resulte positiva.
Como puede verse en el diagrama de
la Figura 6, el proceso de dividir
las muestras repetidamente en dos puede ser representado por lo que parece un árbol genealógico. El diagrama
muestra ese árbol para n = 8. Cada tanda se divide en dos tandas “hijas” en el nivel inferior. El
diagrama también muestra qué sucede si una de las 8 muestras presenta la
anomalía (marcada con una cruz). Las tandas sombreadas son las que en realidad tenemos
que analizar. Cada vez que analizamos una tanda que no está marcada con una
cruz, obtenemos un resultado negativo y no tenemos que volver a analizar
ninguna muestra en esta tanda. Cada vez que analizamos una tanda que sí está
marcada con una cruz, tenemos que continuar y analizar sus tandas hijas.
Podemos calcular el número esperado de
tests que necesita este protocolo. Si comenzamos con n = 2m muestras y la probabilidad de que cada muestra esté afectada es p, entonces el número esperado de tests que usa el protocolo
binario resulta ser

|
Figura 7. Tests
por muestra para p = 0,01.
|
El gráfico de la Figura 7 muestra este número esperado, dividido por n (el
número de pruebas por muestra) en relación a n para el valor p = 0,01. Los puntos representan el número de
pruebas por muestra que esperamos utilizar con el protocolo binario, mientras
que la línea horizontal representa la cota de entropía: el número mínimo
de pruebas que podríamos esperar
necesitar. El protocolo binario solamente requiere, aproximadamente, el doble
de tests que el óptimo, de modo que funciona razonablemente bien.
El patrón de puntos parece un poco
extraño: disminuye inicialmente y después aumenta, con un mínimo en el punto
correspondiente a 64 muestras. La razón es que para un número pequeño de
muestras ningún protocolo es muy eficiente; con sólo una muestra estamos limitados
a 1 test, no es posible realizar una fracción de test. Para un número grande de
muestras el protocolo también tiene una pequeña ineficacia; es altamente
improbable que todas las muestras estén limpias. Esto significa que si nuestra
colección de muestras de sangre es muy grande, no hay razón para analizarlas
todas de una vez: el test sería positivo casi con toda seguridad, y tendríamos
que continuar dividiéndolas. No tiene sentido realizar un análisis si prácticamente
se tiene la certeza de cuál va a ser el resultado, porque el análisis
probablemente no aporte ninguna información útil.
Si usamos un protocolo de pruebas
refinado en el cual dividimos las muestras en tandas de tamaño 64 antes de
realizar ningún test y después utilizamos el protocolo de división binario
en cada una de ellas, entonces para p = 0.01 el protocolo no usará en promedio más de 13 tests por 100
niños, aproximadamente. (En general, para una condición con prevalencia p el tamaño óptimo de la tanda inicial está en torno a 1/p). Esto supone una mejora
considerable sobre los 100 tests que serían necesarios si no se mezclan las
muestras.

|
Sobre el autor
|
Keith Ball
se licenció en Matemáticas en la Universidad de Cambridge (UK), donde también obtuvo el doctorado en 1987.
Después de trabajar algunos años en universidades norteamericanas, retornó al
Reino Unido y es actualmente profesor del Departamento de Matemáticas del University College
de Londres. Sus intereses matemáticos incluyen geometría en espacios de dimensión
alta, probabilidad y teoría de la información, y aproximación diofántica. Es autor del libro de matemática recreativa Strange curves, counting rabbits and other mathematical explorations, publicado por Princeton University Press en 2003.
|