Page 27 - 79_04
P. 27

Óscar	
  Miguel	
  Rivera	
  Borroto	
  &	
  col.	
  

	
  
        Desde	
   el	
   punto	
   de	
   vista	
   estadístico,	
   de	
   acorde	
   a	
   la	
   fortaleza	
   de	
   la	
   medición	
  

de	
   las	
   variables	
   o	
   DMs,	
   estos	
   pueden	
   clasificarse	
   en	
   las	
   escalas	
   de	
   proporción,	
  
intervalo,	
   ordinal	
   y	
   categórica	
   (el	
   caso	
   binario	
   para	
   dos	
   categorías).	
   Una	
   práctica	
  
común	
   en	
   quimioinformática	
   consiste	
   en	
   transformar	
   descriptores	
   continuos	
   y	
  
discretos	
   (proporción/intervalo)	
   en	
   binarios	
   (categórica)	
   a	
   través	
   de	
   un	
   valor	
   de	
  
corte	
   como	
   la	
   mediana,	
   o	
   simplemente	
   trabajar	
   con	
   huellas	
   dactilares,	
   para	
  
aumentar	
   la	
   eficiencia	
   de	
   los	
   algoritmos	
   de	
   clasificación/predicción;	
   sin	
   embargo,	
  
esta	
   práctica	
   también	
   conduce	
   a	
   una	
   pérdida	
   de	
   información	
   estadística	
   que	
   se	
  
traduce	
  en	
  la	
  aparición	
  de	
  ataduras	
  en	
  los	
  valores	
  de	
  similitud	
  y	
  disminución	
  de	
  la	
  
potencia	
   de	
   las	
   técnicas,	
   resultando	
   además	
   en	
   una	
   menor	
   versatilidad	
   de	
   las	
  
mismas	
  (70).	
  

        La	
   presentación	
   que	
   se	
   muestra	
   en	
   la	
   Tabla	
   1	
   está	
   lejos	
   de	
   ser	
  
representativa,	
  por	
  lo	
  que	
  para	
  una	
  presentación	
  detallada	
  los	
  lectores	
  interesados	
  
pueden	
   referirse	
   a	
   la	
   última	
   versión	
   del	
   manual	
   de	
   descriptores	
   moleculares	
   de	
  
Todeschini	
   y	
   Consonni	
   (2009)	
   donde	
   se	
   trata	
   este	
   tema	
   con	
   profundidad	
   (71).	
   El	
  
número	
  de	
  descriptores	
  moleculares	
  propuestos	
  en	
  la	
  literatura	
  hasta	
  el	
  momento	
  
es	
  realmente	
  amplio,	
  para	
  ello	
  recientemente	
  se	
  han	
  desarrollado	
  sistemas	
  para	
  el	
  
cálculo	
   de	
   grandes	
   conjuntos	
   de	
   descriptores	
   algunos	
   de	
   ellos	
   son	
   el	
   software	
  
DRAGON,	
   comercial	
   (72);	
   PaDEL,	
   disponible	
   gratuitamente	
   (73);	
   y	
   MODEL,	
   en	
  
plataforma	
   web	
   y	
   disponible	
   gratuitamente	
   (74).	
   Una	
   lista	
   más	
   ampliada	
   de	
  
programas	
  para	
  este	
  fin	
  puede	
  encontrarse	
  en	
  el	
  sitio	
  web	
  de	
  la	
  ref.	
  (75).	
  

3.2.3.	
  Selección	
  de	
  rasgos	
  

        Actualmente,	
   existe	
   un	
   número	
   realmente	
   grande	
   de	
   descriptores	
  
desarrollados	
   que	
   pueden	
   ser	
   usados	
   en	
   los	
   cálculos	
   de	
   similitud	
   (76).	
   Sin	
  
embargo,	
  a	
  medida	
  que	
  la	
  dimensionalidad	
  de	
  los	
  datos	
  incrementa,	
  muchos	
  tipos	
  
de	
   análisis	
   de	
   datos	
   y	
   problemas	
   de	
   clasificación	
   se	
   vuelven	
   computacionalmente	
  
difíciles.	
  En	
  ocasiones,	
  también	
  los	
  datos	
  se	
  vuelven	
  crecientemente	
  dispersos	
  en	
  el	
  
espacio	
  que	
  ocupan.	
  Esto	
  puede	
  conducir	
  a	
  grandes	
  problemas	
  para	
  ambos,	
  para	
  el	
  
aprendizaje	
   supervisado	
   y	
   no	
   supervisado.	
   En	
   la	
   literatura	
   este	
   fenómeno	
   se	
  
refiere	
  como	
  la	
  maldición	
  de	
  la	
  dimensionalidad	
  (77).	
  Para	
  propósitos	
  de	
  búsqueda	
  
de	
   similitud,	
   el	
   aspecto	
   más	
   relevante	
   de	
   la	
   maldición	
   de	
   la	
   dimensionalidad	
  
concierne	
  a	
  la	
  medida	
  de	
  distancia	
  o	
  similitud.	
  	
  

        Para	
   ciertas	
   distribuciones	
   de	
   datos,	
   la	
   diferencia	
   relativa	
   entre	
   las	
  
distancias	
   de	
   los	
   puntos	
   más	
   cercanos	
   y	
   lejanos	
   a	
   un	
   punto,	
   independientemente	
  
seleccionado,	
   tiende	
   a	
   cero	
   a	
   medida	
   que	
   la	
   dimensionalidad	
   aumenta	
   (78).	
   Por	
  
otra	
   parte,	
   un	
   número	
   grande	
   de	
   descriptores	
   en	
   la	
   representación	
   pueden	
  
contener	
   rasgos	
   irrelevantes	
   o	
   débilmente	
   relevantes,	
   que	
   se	
   conoce	
   afectan	
  
negativamente	
   la	
   exactitud	
   de	
   los	
   algoritmos	
   de	
   predicción	
   (79),	
   el	
   caso	
   extremo	
  
de	
  este	
  fenómeno	
  se	
  ilustra	
  en	
  el	
  teorema	
  del	
  patito	
  feo	
  de	
  Watanabe;	
  basicamente,	
  
si	
   uno	
   considera	
   el	
   universo	
   de	
   rasgos	
   de	
   los	
   objetos	
   y	
   no	
   tiene	
   algún	
   sesgo	
  

544	
  

	
  
   22   23   24   25   26   27   28   29   30   31   32