Page 32 - 79_04
P. 32
Perspectiva
general
sobre
el
proceso
de
desarrollo
de
fármacos…
bioactivas
de
tamaño
relativamente
grande,
el
coeficiente
de
Tanimoto
por
moléculas
bioactivas
de
tamaño
mediano
y
el
coeficiente
de
Forbes
por
moléculas
bioactivas
de
tamaño
pequeño
(102).
Aún
cuando
el
coeficiente
de
Tanimoto
continua
siendo
la
medida
de
similitud
estándar
en
la
industria
y
se
ha
usado
en
innumerables
trabajos
de
investigación,
la
evidencia
indica
que
ningún
modelo
de
proximidad
es
universalmente
superior
a
los
demás,
sino
que
su
utilidad
práctica
depende
del
problema
o
grupo
de
problemas
a
tratado
(92).
Esta
conclusión
parece
estar
de
acorde
a
la
dialéctica
resultante
de
la
complementación
de
los
teoremas
Ningún
Almuerzo
es
Gratis
(NFL,
del
inglés
No
Free
Lunch)
(103,
104),
y
la
Longitud
Mínima
de
la
Descripción
[MDL
del
inglés
Minimun
Description
Length]
(105),
correspondientemente.
3.3.
Algoritmos
de
emparejamiento
o
“matching”
El
concepto
de
emparejamiento
“match”
exacto
y
parcial,
y
los
algoritmos
de
búsqueda
de
emparejamiento
son
ampliamente
utilizados
en
sistemas
de
información
química
basados
en
ordenadores
con
el
fin
de
buscar
una
subestructura
idéntica.
Una
facilidad
menos
común
es
la
provisión
para
la
búsqueda
del
mejor
par,
o
vecino
más
cercano,
en
la
cual
se
recupera
la
estructura(s)
más
similar
a
una
estructura
de
consulta,
donde
la
similitud
se
define
sobre
la
base
de
alguna
función
de
coeficiente
de
similitud
o
de
distancia
que
refleja
el
número
de
fragmentos
comunes
de
la
consulta
y
de
una
molécula
en
el
fichero.
La
búsqueda
del
mejor
par
es
la
base
para
la
clasificación
del
k--(ésimo)
vecino
más
cercano
(kNN,
del
inglés
k--Nearest
Neighbor)
y
juega
un
papel
importante
en
el
uso
de
árboles
de
expansión
y
técnicas
de
clasificación
automática
(106).
El
problema
general
de
encontrar
las
mejores
pares
se
define
por
Friedman
et
al.
(107)
como:
"...
dado
un
fichero
de
m
instancias
(cada
uno
de
los
cuales
es
descrito
por
n
atributos
con
valores
reales)
y
una
medida
de
similitud/disimilitud,
encontrar
las
k
instancias
más
cercanas
a
la
instancia
de
consulta
(es
posible
que
no
esté
dentro
del
fichero)
con
los
atributos
especificados".
Es
obvio
que
el
algoritmo
de
fuerza
bruta
para
la
búsqueda
del
mejor
par
es
calcular
la
distancia
entre
la
consulta
y
cada
uno
de
las
instancias
del
fichero
y
luego
elegir
las
m
distancias
más
cortas,
este
algoritmo
tiene
una
complejidad
temporal
O(mn)
para
el
caso
de
una
consulta
simple,
pero
en
el
caso
de
consulta
múltiple
sería
un
O(mnc),
siendo
c
el
número
de
consultas
con
igual
cantidad
de
atributos
n,
el
cual
consume
demasiado
tiempo
para
ficheros
considerablemente
grandes.
Un
algoritmo
eficiente
del
vecino
más
cercano
será
uno
que
evite
el
cálculo
de
la
mayoría
de
las
distancias,
calculando
solamente
las
distancias
de
las
escasas
instancias
que
rodean
la
instancia
o
estructura
de
consulta.
Existen
varios
tipos
de
549