Page 34 - 79_04
P. 34

Perspectiva	
  general	
  sobre	
  el	
  proceso	
  de	
  desarrollo	
  de	
  fármacos…	
  

	
  
en	
   un	
   pequeño	
   vector	
   ??,	
   de	
   tamaño	
   n	
   siendo	
   n	
   potencia	
   de	
   2	
   (esto	
   es,	
   si	
   ??  	
   tiene	
  
tamaño	
  ?? = 2!	
  entonces	
  el	
  tamaño	
  de	
  ??  ????  ?? = ??).	
  El	
  vector	
  ??	
  se	
  obtiene	
  aplicando	
  

el	
   operador	
   XOR	
   (eXclusive	
   OR,	
   del	
   inglés)	
   al	
   vector	
   ??.	
   Esta	
   información	
   adicional	
  

puede	
   ser	
   vista	
   como	
   una	
   guía	
   que	
   precede	
   al	
   vector	
   ??,	
   la	
   cual	
   puede	
   ser	
   usada	
  
para	
  derivar	
  los	
  límites	
  útiles	
  en	
  las	
  medidas	
  de	
  similitud	
  lo	
  cual	
  permite	
  explorar	
  
menos	
  del	
  50%	
  de	
  la	
  base	
  de	
  datos	
  y	
  acelera	
  la	
  búsqueda	
  significativamente	
  (113).	
  
Más	
   recientemente,	
   Cao	
   et	
   al.	
   (2010)	
   han	
   reportado	
   un	
   algoritmo	
   de	
   búsqueda	
   y	
  
agrupamiento	
   acelerado	
   basado	
   en	
   técnicas	
   de	
   empotramiento	
   e	
   indexado	
  
multidimensional	
   que	
   mejora	
   en	
   20-­-400	
   veces	
   a	
   los	
   métodos	
   secuenciales	
   en	
  
cuanto	
   al	
   tiempo	
   de	
   búsqueda	
   de	
   los	
   100	
   primeros	
   vecinos	
   más	
   cercanos	
   (el	
  
algoritmo	
  de	
  Baldi	
  et	
  al.	
  (2008)	
  los	
  mejora	
  en	
  5.5	
  veces)	
  en	
  conjuntos	
  de	
  datos	
  de	
  
260	
   000-­-19	
   millones	
   de	
   compuestos,	
   mientras	
   que	
   mantiene	
   exactitudes	
  
comparables.	
  Además,	
  este	
  algoritmo	
  es	
  aplicable	
  a	
  un	
  amplio	
  espectro	
  de	
  medidas	
  
de	
   similitud	
   y	
   puede	
   ser	
   escalable	
   a	
   conjuntos	
   de	
   datos	
   de	
   hasta	
   cientos	
   de	
  
millones	
  de	
  objetos	
  químicos	
  (114).	
  

3.4.	
  Fusión	
  de	
  datos	
  

        La	
   fusión	
   de	
   datos	
   se	
   utilizó	
   por	
   primera	
   vez	
   en	
   la	
   búsqueda	
   de	
   similitud	
   a	
  
finales	
  de	
  los	
  años	
  noventa	
  (115,116).	
  Básicamente,	
  existen	
  tres	
  técnicas	
  de	
  fusión	
  
de	
   datos	
   y	
   una	
   de	
   estas	
   es	
   la	
   fusión	
   de	
   similitud,	
   que	
   implica	
   la	
   búsqueda	
   con	
   una	
  
estructura	
  de	
  referencia	
  y	
  varias	
  medidas	
  de	
  similitud.	
  Otra	
  variante	
  es	
  la	
  fusión	
  de	
  
grupo,	
   que	
   consiste	
   en	
   buscar	
   múltiples	
   estructuras	
   de	
   referencia	
   con	
   una	
   sola	
  
medida	
  de	
  similitud	
  y	
  se	
  ha	
  mostrado	
  que	
  es	
  más	
  eficaz	
  que	
  la	
  fusión	
  de	
  similitud.	
  
El	
   tercer	
   enfoque	
   es	
   la	
   turbo	
   similitud,	
   en	
   analogía	
   a	
   los	
   motores	
   turbos	
   que	
  
reutilizan	
   los	
   gases	
   de	
   escape	
   y	
   le	
   imprimen	
   una	
   potencia	
   mayor	
   al	
   vehículo;	
   esta	
  
técnica	
  utiliza	
  una	
  estructura	
  de	
  referencia	
  y	
  una	
  medida	
  de	
  similitud,	
  sin	
  embargo,	
  
es	
   más	
   efectiva	
   que	
   la	
   búsqueda	
   simple	
   porque	
   utiliza	
   los	
   primeros	
   vecinos	
   más	
  
cercanos	
   recuperados	
   como	
   estructuras	
   de	
   referencias,	
   ya	
   que	
   estos	
   es	
   probable	
  
que	
   también	
   sean	
   bioactivos	
   y	
   al	
   mismo	
   tiempo	
   introducen	
   otros	
   rasgos	
  
estructurales	
  que	
  aumentan	
  el	
  éxito	
  de	
  la	
  búsqueda	
  al	
  encontrar	
  otros	
  quimiotipos	
  
en	
   el	
   espacio	
   químico	
   (48).	
   Actualmente,	
   las	
   nuevas	
   técnicas	
   de	
   búsqueda	
   de	
  
similitud	
   son	
   validadas	
   usando	
   la	
   técnica	
   fusión	
   de	
   datos	
   embebida	
   en	
   algún	
  
mecanismo	
   de	
   validación	
   cruzada.	
   Para	
   ello,	
   una	
   vez	
   obtenidas	
   las	
   listas	
   de	
  
recuperación	
   como	
   producto	
   de	
   aplicar	
   las	
   multi	
   consultas,	
   es	
   necesario	
   combinar	
  
dicha	
  información	
  para	
  derivar	
  un	
  puntaje	
  fusionado	
  y	
  útil	
  para	
  cada	
  molécula	
  del	
  
repositorio	
   que	
   permita	
   el	
   ordenamiento	
   final	
   del	
   conjunto	
   de	
   datos.	
   En	
   este	
  
sentido	
   Hert	
   et	
   al.	
   (2004)	
   introdujeron	
   la	
   regla	
   de	
   fusión	
   MAX-­-SIM	
   (máxima	
  
similitud)	
   	
   que	
   por	
   su	
   probada	
   alta	
   efectividad	
   se	
   ha	
   usado	
   durante	
   varios	
   años	
  
como	
   el	
   multi	
   clasificador	
   de	
   facto	
   para	
   los	
   estudios	
   quimioinformáticos	
   por	
   su	
  
eficacia	
   y	
   simplicidad	
   matemática	
   y	
   computacional	
   en	
   el	
   cribado	
   de	
   conjunto	
   de	
  
datos	
  farmacológicos	
  (117,	
  118).	
  Básicamente,	
  el	
  algoritmo	
  MAX-­-SIM	
  es	
  uno	
  de	
  los	
  

                                                                                                                            	
  551	
  

	
  
   29   30   31   32   33   34   35   36   37   38   39