Page 35 - 79_04
P. 35

Óscar	
  Miguel	
  Rivera	
  Borroto	
  &	
  col.	
  

	
  
métodos	
  más	
  simples	
  para	
  el	
  cribado	
  virtual	
  por	
  el	
  cual	
  una	
  molécula	
  es	
  punteada	
  
con	
  su	
  similitud	
  más	
  alta	
  a	
  una	
  molécula	
  activa	
  de	
  la	
  multi	
  consulta.	
  Formalmente,	
  

si	
   una	
   consulta	
   múltiple	
   de	
   activos	
   es	
   denotada	
   por	
   ??!, ??!, … , ??! ,	
   el	
   puntaje	
  
asignado	
  a	
  una	
  molécula	
  del	
  conjunto	
  de	
  datos	
  ??!	
  viene	
  dado	
  por:	
  

        ??! ??! = ??????|!! ?? ??!, ??! 	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  
(7)	
  

        Donde,	
  ?? ??!, ??! 	
  es	
  la	
  similitud	
  de	
  la	
  molécula	
  del	
  conjunto	
  de	
  datos	
  ??!	
  a	
  la	
  
referencia	
  ??!	
  de	
  la	
  multi	
  consulta,	
  S	
  es	
  la	
  función	
  de	
  similitud	
  y	
  algunas	
  de	
  ellos	
  han	
  
demostrado	
   ser	
   eficaces	
   en	
   la	
   operación.	
   Sin	
   embargo,	
   en	
   un	
   estudio	
   abarcador	
  

Chen	
   et	
   al.	
   (2010)	
   mostraron	
   recientemente	
   que	
   la	
   regla	
   “suma	
   de	
   rangos	
  

inversos”	
  se	
  comporta	
  superiormente	
  a	
  la	
  regla	
  MAX-­-SIM	
  en	
  los	
  dominios	
  de	
  datos	
  

examinados,	
  esto	
  es:	
  

         ??! ??! =  !    1  ??  ??  ??!, ??!           	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  
                    !!!

(8)	
  

        Donde,	
  r	
  es	
  el	
  “ranking”	
  asignado	
  al	
  puntaje	
  de	
  similitud	
  ?? ??!, ??! ,	
  relativo	
  a	
  
los	
  puntajes	
  de	
  las	
  moléculas	
  del	
  conjunto	
  con	
  respecto	
  a	
  una	
  consulta	
  especifica.	
  	
  

        Esta	
  regla	
  de	
  fusión	
  procede	
  del	
  área	
  de	
  Recuperación	
  de	
  Información	
  y	
  su	
  
efectividad	
   se	
   debe	
   a	
   la	
   cercana	
   relación	
   que	
   existe	
   entre	
   el	
   rango	
   reciproco	
   de	
   la	
  
estructura	
  de	
  la	
  base	
  de	
  datos	
  con	
  respecto	
  a	
  una	
  búsqueda	
  de	
  similitud	
  simple	
  y	
  la	
  
probabilidad	
  de	
  que	
  esta	
  estructura	
  comparta	
  la	
  misma	
  actividad	
  que	
  la	
  estructura	
  
de	
  referencia	
  (119).	
  

        Como	
   alternativa	
   a	
   las	
   técnicas	
   de	
   fusión	
   de	
   datos	
   anteriores,	
   algunos	
  
investigadores	
   han	
   trabajado	
   la	
   ponderación	
   de	
   rasgos	
   binarios	
   orientados	
   por	
  
clases	
  de	
  actividad	
  sobre	
  la	
  base	
  de	
  compuestos	
  de	
  referencia	
  múltiples	
  y	
  aplicados	
  
para	
   enfatizar	
   algunas	
   posiciones	
   de	
   bits	
   específicas	
   durante	
   la	
   búsqueda	
   de	
  
similitud.	
   Algunas	
   técnicas	
   de	
   ponderación	
   de	
   rasgos	
   se	
   basan	
   en	
   el	
   análisis	
   de	
  
frecuencia	
   de	
   bits	
   en	
   huellas	
   dactilares	
   o	
   “fingerprints”	
   de	
   molecular	
   activas	
   y/o	
  
inactivas,	
   perfilando,	
   escalando	
   y	
   promediando	
   los	
   fingerprints	
   para	
   derivar	
   en	
   el	
  
cálculo	
  de	
  los	
  fingerprints	
  de	
  consenso.	
  Un	
  grupo	
  de	
  técnicas	
  más	
  reciente	
  se	
  basan	
  
en	
   el	
   acallado	
   de	
   bits	
   “bit	
   silencing”	
   y	
   difiere	
   de	
   los	
   enfoques	
   estadísticos	
   en	
   que	
  
monitorean	
   directamente	
   el	
   cambio	
   en	
   la	
   calidad	
   de	
   la	
   recuperación	
   cuando	
   se	
  
omiten	
  bits	
  individuales	
  en	
  moléculas	
  de	
  referencia	
  activas	
  (120).	
  En	
  esencia,	
  estas	
  
técnicas	
   también	
   pudieran	
   considerarse	
   como	
   una	
   cuarta	
   estrategia	
   de	
   fusión	
   de	
  
datos,	
  más	
  específicamente	
  fusión	
  de	
  representación,	
  y,	
  actualmente	
  constituyen	
  un	
  
área	
   de	
   investigación	
   activa	
   por	
   la	
   facilidad	
   con	
   que	
   pueden	
   calcularse,	
  
manipularse	
  y	
  almacenarse	
  los	
  descriptores	
  binarios.	
  Por	
  otra	
  parte,	
  estas	
  técnicas	
  
también	
  pueden	
  ser	
  extendidas	
  al	
  caso	
  no	
  binario.	
  

	
  

552	
  

	
  
   30   31   32   33   34   35   36   37   38   39   40