Page 31 - 79_04
P. 31

Óscar	
  Miguel	
  Rivera	
  Borroto	
  &	
  col.	
  

	
  
        Cuando	
  los	
  valores	
  de	
  atributo	
  se	
  limitan	
  a	
  0	
  y	
  1,	
  las	
  expresiones	
  utilizadas	
  

por	
   varias	
   similitudes	
   y	
   medidas	
   de	
   distancia	
   pueden	
   a	
   menudo	
   ser	
   simplificadas	
  

considerablemente.	
  Si	
  los	
  objetos	
  A	
  y	
  B	
  que	
  se	
  caracterizan	
  por	
  vectores	
  X	
  e	
  Y	
  que	
  

contienen	
   n	
   valores	
   binarios	
   (tales	
   como	
   huellas	
   digitales)	
   se	
   pueden	
   definir	
   las	
  

cantidades	
  a,	
  b,	
  c,	
  d	
  o	
  elementos	
  de	
  la	
  matriz	
  de	
  confusión	
  como:	
  

         ?? =     !    ??!  ,	
  es	
  el	
  número	
  de	
  bits	
  activos	
  en	
  A	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  
                  !!!

(1)	
  

         ?? =     !    ??!  ,	
  es	
  el	
  número	
  de	
  bits	
  activos	
  en	
  B	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  
                  !!!

(2)	
  

         ?? =     !    ??!  ??!  ,	
  es	
  el	
  número	
  de	
  bits	
  activos	
  en	
  A	
  y	
  B	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  
                  !!!

(3)	
  

         ?? =     !    1 - ??! - ??! + ??!??!          ,	
  es	
  el	
  número	
  de	
  bits	
  inactivos	
  en	
  A	
  y	
  B	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  
                  !!!

(4)	
  

        Por	
  tanto,	
  ?? = ?? + ?? - ?? + ??	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  
(5)	
  

        Estas	
   cantidades	
   anteriores	
   también	
   se	
   pueden	
   expresar	
   en	
   notación	
   de	
  
teoría	
   de	
   conjuntos	
   dando	
   lugar	
   a	
   otras	
   formulaciones	
   basadas	
   en	
   este	
   tipo	
   de	
  
representación	
  (101).	
  

        Como	
   ejemplo	
   ilustrativo	
   tenemos	
   el	
   coeficiente	
   de	
   Tanimoto	
   para	
   el	
   caso	
  
binario	
  dado	
  por:	
  	
  

        ??!" = ?? [?? + ?? - ??]	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  
(6)	
  

        Este	
  coeficiente	
  aplicado	
  a	
  las	
  huellas	
  dactilares	
  2D	
  constituye	
  actualmente	
  
la	
  medida	
  de	
  elección	
  de	
  los	
  sistemas	
  de	
  software	
  comerciales	
  para	
  la	
  gestión	
  de	
  la	
  
información	
   química.	
   También	
   forma	
   parte	
   de	
   sistemas	
   de	
   acceso	
   público	
  
importantes	
  como	
  el	
  PubChem	
  (50).	
  

        En	
   un	
   artículo	
   revisión	
   reciente	
   Willet	
   (2006)	
   resume	
   los	
   resultados	
   de	
   los	
  
estudios	
   de	
   comparación	
   y	
   combinación	
   de	
   coeficientes	
   de	
   similitud	
   usando	
  
huellas	
   dactilares	
   en	
   conjuntos	
   de	
   datos	
   apropiados.	
   Estos	
   resultados	
   muestran	
  
que	
   algunos	
   coeficientes	
   se	
   comportan	
   monotónicamente	
   entre	
   sí,	
   lo	
   que	
   significa	
  
que	
   producen	
   clasificaciones	
   u	
   ordenamientos	
   idénticos	
   o	
   muy	
   similares	
   de	
   los	
  
compuestos	
  de	
  la	
  base	
  de	
  datos	
  frente	
  a	
  una	
  estructura	
  de	
  referencia	
  determinada,	
  
a	
   pesar	
   de	
   que	
   los	
   valores	
   del	
   coeficiente	
   real	
   son	
   diferentes.	
   También	
   se	
   ha	
  
mostrado	
   que	
   algunos	
   coeficientes	
   tienen	
   una	
   marcada	
   preferencia	
   a	
   funcionar	
  
bien	
   en	
   la	
   búsqueda	
   de	
   moléculas	
   activas	
   de	
   un	
   tamaño	
   determinado	
   dado	
  
aproximadamente	
   por	
   el	
   número	
   de	
   bits	
   activos	
   en	
   el	
   vector	
   de	
   representación;	
  
por	
   ejemplo,	
   el	
   coeficiente	
   de	
   Russel-­-Rao	
   “muestra	
   preferencia”	
   por	
   moléculas	
  

548	
  

	
  
   26   27   28   29   30   31   32   33   34   35   36