Page 27 - 79_04
P. 27
Óscar
Miguel
Rivera
Borroto
&
col.
Desde
el
punto
de
vista
estadístico,
de
acorde
a
la
fortaleza
de
la
medición
de
las
variables
o
DMs,
estos
pueden
clasificarse
en
las
escalas
de
proporción,
intervalo,
ordinal
y
categórica
(el
caso
binario
para
dos
categorías).
Una
práctica
común
en
quimioinformática
consiste
en
transformar
descriptores
continuos
y
discretos
(proporción/intervalo)
en
binarios
(categórica)
a
través
de
un
valor
de
corte
como
la
mediana,
o
simplemente
trabajar
con
huellas
dactilares,
para
aumentar
la
eficiencia
de
los
algoritmos
de
clasificación/predicción;
sin
embargo,
esta
práctica
también
conduce
a
una
pérdida
de
información
estadística
que
se
traduce
en
la
aparición
de
ataduras
en
los
valores
de
similitud
y
disminución
de
la
potencia
de
las
técnicas,
resultando
además
en
una
menor
versatilidad
de
las
mismas
(70).
La
presentación
que
se
muestra
en
la
Tabla
1
está
lejos
de
ser
representativa,
por
lo
que
para
una
presentación
detallada
los
lectores
interesados
pueden
referirse
a
la
última
versión
del
manual
de
descriptores
moleculares
de
Todeschini
y
Consonni
(2009)
donde
se
trata
este
tema
con
profundidad
(71).
El
número
de
descriptores
moleculares
propuestos
en
la
literatura
hasta
el
momento
es
realmente
amplio,
para
ello
recientemente
se
han
desarrollado
sistemas
para
el
cálculo
de
grandes
conjuntos
de
descriptores
algunos
de
ellos
son
el
software
DRAGON,
comercial
(72);
PaDEL,
disponible
gratuitamente
(73);
y
MODEL,
en
plataforma
web
y
disponible
gratuitamente
(74).
Una
lista
más
ampliada
de
programas
para
este
fin
puede
encontrarse
en
el
sitio
web
de
la
ref.
(75).
3.2.3.
Selección
de
rasgos
Actualmente,
existe
un
número
realmente
grande
de
descriptores
desarrollados
que
pueden
ser
usados
en
los
cálculos
de
similitud
(76).
Sin
embargo,
a
medida
que
la
dimensionalidad
de
los
datos
incrementa,
muchos
tipos
de
análisis
de
datos
y
problemas
de
clasificación
se
vuelven
computacionalmente
difíciles.
En
ocasiones,
también
los
datos
se
vuelven
crecientemente
dispersos
en
el
espacio
que
ocupan.
Esto
puede
conducir
a
grandes
problemas
para
ambos,
para
el
aprendizaje
supervisado
y
no
supervisado.
En
la
literatura
este
fenómeno
se
refiere
como
la
maldición
de
la
dimensionalidad
(77).
Para
propósitos
de
búsqueda
de
similitud,
el
aspecto
más
relevante
de
la
maldición
de
la
dimensionalidad
concierne
a
la
medida
de
distancia
o
similitud.
Para
ciertas
distribuciones
de
datos,
la
diferencia
relativa
entre
las
distancias
de
los
puntos
más
cercanos
y
lejanos
a
un
punto,
independientemente
seleccionado,
tiende
a
cero
a
medida
que
la
dimensionalidad
aumenta
(78).
Por
otra
parte,
un
número
grande
de
descriptores
en
la
representación
pueden
contener
rasgos
irrelevantes
o
débilmente
relevantes,
que
se
conoce
afectan
negativamente
la
exactitud
de
los
algoritmos
de
predicción
(79),
el
caso
extremo
de
este
fenómeno
se
ilustra
en
el
teorema
del
patito
feo
de
Watanabe;
basicamente,
si
uno
considera
el
universo
de
rasgos
de
los
objetos
y
no
tiene
algún
sesgo
544