Page 32 - 79

Page 32 - 79_04

P. 32

Perspectiva
general
sobre
el
proceso
de
desarrollo
de
fármacos…

bioactivas
de
tamaño
relativamente
grande,
el
coeficiente
de
Tanimoto
por

moléculas
bioactivas
de
tamaño
mediano
y
el
coeficiente
de
Forbes
por
moléculas

bioactivas
de
tamaño
pequeño
(102).

Aún
cuando
el
coeficiente
de
Tanimoto
continua
siendo
la
medida
de

similitud
estándar
en
la
industria
y
se
ha
usado
en
innumerables
trabajos
de

investigación,
la
evidencia
indica
que
ningún
modelo
de
proximidad
es

universalmente
superior
a
los
demás,
sino
que
su
utilidad
práctica
depende
del

problema
o
grupo
de
problemas
a
tratado
(92).
Esta
conclusión
parece
estar
de

acorde
a
la
dialéctica
resultante
de
la
complementación
de
los
teoremas
Ningún

Almuerzo
es
Gratis
(NFL,
del
inglés
No
Free
Lunch)
(103,
104),
y
la
Longitud

Mínima
de
la
Descripción
[MDL
del
inglés
Minimun
Description
Length]
(105),

correspondientemente.

3.3.
Algoritmos
de
emparejamiento
o
“matching”

El
concepto
de
emparejamiento
“match”
exacto
y
parcial,
y
los
algoritmos
de

búsqueda
de
emparejamiento
son
ampliamente
utilizados
en
sistemas
de

información
química
basados
en
ordenadores
con
el
fin
de
buscar
una

subestructura
idéntica.
Una
facilidad
menos
común
es
la
provisión
para
la

búsqueda
del
mejor
par,
o
vecino
más
cercano,
en
la
cual
se
recupera
la

estructura(s)
más
similar
a
una
estructura
de
consulta,
donde
la
similitud
se
define

sobre
la
base
de
alguna
función
de
coeficiente
de
similitud
o
de
distancia
que

refleja
el
número
de
fragmentos
comunes
de
la
consulta
y
de
una
molécula
en
el

fichero.
La
búsqueda
del
mejor
par
es
la
base
para
la
clasificación
del
k--(ésimo)

vecino
más
cercano
(kNN,
del
inglés
k--Nearest
Neighbor)
y
juega
un
papel

importante
en
el
uso
de
árboles
de
expansión
y
técnicas
de
clasificación
automática

(106).

El
problema
general
de
encontrar
las
mejores
pares
se
define
por
Friedman

et
al.
(107)
como:
"...
dado
un
fichero
de
m
instancias
(cada
uno
de
los
cuales
es

descrito
por
n
atributos
con
valores
reales)
y
una
medida
de
similitud/disimilitud,

encontrar
las
k
instancias
más
cercanas
a
la
instancia
de
consulta
(es
posible
que

no
esté
dentro
del
fichero)
con
los
atributos
especificados".
Es
obvio
que
el

algoritmo
de
fuerza
bruta
para
la
búsqueda
del
mejor
par
es
calcular
la
distancia

entre
la
consulta
y
cada
uno
de
las
instancias
del
fichero
y
luego
elegir
las
m

distancias
más
cortas,
este
algoritmo
tiene
una
complejidad
temporal
O(mn)
para

el
caso
de
una
consulta
simple,
pero
en
el
caso
de
consulta
múltiple
sería
un

O(mnc),
siendo
c
el
número
de
consultas
con
igual
cantidad
de
atributos
n,
el
cual

consume
demasiado
tiempo
para
ficheros
considerablemente
grandes.

Un
algoritmo
eficiente
del
vecino
más
cercano
será
uno
que
evite
el
cálculo

de
la
mayoría
de
las
distancias,
calculando
solamente
las
distancias
de
las
escasas

instancias
que
rodean
la
instancia
o
estructura
de
consulta.
Existen
varios
tipos
de

549

27 28 29 30 31 32 33 34 35 36 37