Page 32 - 79_04
P. 32

Perspectiva	
  general	
  sobre	
  el	
  proceso	
  de	
  desarrollo	
  de	
  fármacos…	
  

	
  
bioactivas	
   de	
   tamaño	
   relativamente	
   grande,	
   el	
   coeficiente	
   de	
   Tanimoto	
   por	
  
moléculas	
  bioactivas	
  de	
  tamaño	
  mediano	
  y	
  el	
  coeficiente	
  de	
  Forbes	
  por	
  moléculas	
  
bioactivas	
  de	
  tamaño	
  pequeño	
  (102).	
  

        Aún	
   cuando	
   el	
   coeficiente	
   de	
   Tanimoto	
   continua	
   siendo	
   la	
   medida	
   de	
  
similitud	
   estándar	
   en	
   la	
   industria	
   y	
   se	
   ha	
   usado	
   en	
   innumerables	
   trabajos	
   de	
  
investigación,	
   la	
   evidencia	
   indica	
   que	
   ningún	
   modelo	
   de	
   proximidad	
   es	
  
universalmente	
   superior	
   a	
   los	
   demás,	
   sino	
   que	
   su	
   utilidad	
   práctica	
   depende	
   del	
  
problema	
   o	
   grupo	
   de	
   problemas	
   a	
   tratado	
   (92).	
   Esta	
   conclusión	
   parece	
   estar	
   de	
  
acorde	
   a	
   la	
   dialéctica	
   resultante	
   de	
   la	
   complementación	
   de	
   los	
   teoremas	
   Ningún	
  
Almuerzo	
   es	
   Gratis	
   (NFL,	
   del	
   inglés	
   No	
   Free	
   Lunch)	
   (103,	
   104),	
   y	
   la	
   Longitud	
  
Mínima	
   de	
   la	
   Descripción	
   [MDL	
   del	
   inglés	
   Minimun	
   Description	
   Length]	
   (105),	
  
correspondientemente.	
  

3.3.	
  Algoritmos	
  de	
  emparejamiento	
  o	
  “matching”	
  

        El	
  concepto	
  de	
  emparejamiento	
  “match”	
  exacto	
  y	
  parcial,	
  y	
  los	
  algoritmos	
  de	
  
búsqueda	
   de	
   emparejamiento	
   son	
   ampliamente	
   utilizados	
   en	
   sistemas	
   de	
  
información	
   química	
   basados	
   en	
   ordenadores	
   con	
   el	
   fin	
   de	
   buscar	
   una	
  
subestructura	
   idéntica.	
   Una	
   facilidad	
   menos	
   común	
   es	
   la	
   provisión	
   para	
   la	
  
búsqueda	
   del	
   mejor	
   par,	
   o	
   vecino	
   más	
   cercano,	
   en	
   la	
   cual	
   se	
   recupera	
   la	
  
estructura(s)	
  más	
  similar	
  a	
  una	
  estructura	
  de	
  consulta,	
  donde	
  la	
  similitud	
  se	
  define	
  
sobre	
   la	
   base	
   de	
   alguna	
   función	
   de	
   coeficiente	
   de	
   similitud	
   o	
   de	
   distancia	
   que	
  
refleja	
   el	
   número	
   de	
   fragmentos	
   comunes	
   de	
   la	
   consulta	
   y	
   de	
   una	
   molécula	
   en	
   el	
  
fichero.	
   La	
   búsqueda	
   del	
   mejor	
   par	
   es	
   la	
   base	
   para	
   la	
   clasificación	
   del	
   k-­-(ésimo)	
  
vecino	
   más	
   cercano	
   (kNN,	
   del	
   inglés	
   k-­-Nearest	
   Neighbor)	
   y	
   juega	
   un	
   papel	
  
importante	
  en	
  el	
  uso	
  de	
  árboles	
  de	
  expansión	
  y	
  técnicas	
  de	
  clasificación	
  automática	
  
(106).	
  

        El	
  problema	
  general	
  de	
  encontrar	
  las	
  mejores	
  pares	
  se	
  define	
  por	
  Friedman	
  
et	
   al.	
   (107)	
   como:	
   "...	
   dado	
   un	
   fichero	
   de	
   m	
   instancias	
   (cada	
   uno	
   de	
   los	
   cuales	
   es	
  
descrito	
  por	
  n	
  atributos	
  con	
  valores	
  reales)	
  y	
  una	
  medida	
  de	
  similitud/disimilitud,	
  
encontrar	
   las	
   k	
   instancias	
   más	
   cercanas	
   a	
   la	
   instancia	
   de	
   consulta	
   (es	
   posible	
   que	
  
no	
   esté	
   dentro	
   del	
   fichero)	
   con	
   los	
   atributos	
   especificados".	
   Es	
   obvio	
   que	
   el	
  
algoritmo	
   de	
   fuerza	
   bruta	
   para	
   la	
   búsqueda	
   del	
   mejor	
   par	
   es	
   calcular	
   la	
   distancia	
  
entre	
   la	
   consulta	
   y	
   cada	
   uno	
   de	
   las	
   instancias	
   del	
   fichero	
   y	
   luego	
   elegir	
   las	
   m	
  
distancias	
   más	
   cortas,	
   este	
   algoritmo	
   tiene	
   una	
   complejidad	
   temporal	
   O(mn)	
   para	
  
el	
   caso	
   de	
   una	
   consulta	
   simple,	
   pero	
   en	
   el	
   caso	
   de	
   consulta	
   múltiple	
   sería	
   un	
  
O(mnc),	
   siendo	
   c	
   el	
   número	
   de	
   consultas	
   con	
   igual	
   cantidad	
   de	
   atributos	
   n,	
   el	
   cual	
  
consume	
  demasiado	
  tiempo	
  para	
  ficheros	
  considerablemente	
  grandes.	
  

        Un	
  algoritmo	
  eficiente	
  del	
  vecino	
  más	
  cercano	
  será	
  uno	
  que	
  evite	
  el	
  cálculo	
  
de	
  la	
  mayoría	
  de	
  las	
  distancias,	
  calculando	
  solamente	
  las	
  distancias	
  de	
  las	
  escasas	
  
instancias	
  que	
  rodean	
  la	
  instancia	
  o	
  estructura	
  de	
  consulta.	
  Existen	
  varios	
  tipos	
  de	
  

                                                                                                                            	
  549	
  

	
  
   27   28   29   30   31   32   33   34   35   36   37