Introducción
El desarrollo de fármacos es un proceso complejo que consta de varias etapas y donde participan diversas áreas del conocimiento. Actualmente, un estudio de este tipo puede tomar entre 10 y 15 años, tener un costo promedio de $1,350 millones de dólares (DiMasi, Grabowski & Hansen, 2016) y, aun así, tener una probabilidad de fallar del 90% al 96% (Hingorani et al., 2019); sin embargo, las investigaciones continúan para mejorar los métodos que generen resultados positivos. El desarrollo de fármacos se divide en dos grandes fases: la primera es la investigación que comprende la identificación, caracterización y validación del blanco o blancos moleculares. No obstante, en los últimos 15 años el interés por desarrollar fármacos no se ha limitado a compuestos altamente selectivos (un solo blanco), en contraste, un enfoque de búsqueda de compuestos dirigidos a múltiples dianas terapéuticas ha adquirido fuerza (Ramsay, Popovic-Nikolic, Nikolic, Uliassi & Bolognesi, 2018). El siguiente paso es la identificación y la optimización de las moléculas con actividad biológica que hasta hace 10 años era realizado principalmente por el ensayo masivo de moléculas sobre modelos celulares o animales (cribado fenotípico); sin embargo, este proceso se agilizó con los avances en los métodos computacionales, principalmente en el campo de la inteligencia artificial (IA). Lo anterior se traduce en un ahorro de recursos y tiempo, además de producir mejores resultados como fármacos con menores efectos secundarios (Paul et al., 2021); La segunda etapa se centra en los ensayos clínicos, la formulación, el proceso comercial y el registro del medicamento novedoso (Parvathaneni, Kulkarni, Muth & Gupta, 2019) (Figura 1).
Con el objetivo de reducir el tiempo de investigación y desarrollo (I+D), surgió una estrategia conocida como reposicionamiento de fármacos (REFA), que consiste en encontrarles distintas aplicaciones terapéuticas, diferentes a las descritas originalmente. El mejor ejemplo del REFA es el Sildenafil (Viagra), que originalmente fue desarrollado para tratar la angina de pecho, pero posteriormente resultó ser efectivo para tratar la disfunción eréctil (Pushpakom et al., 2019). En la Tabla I se muestran algunos ejemplos de fármacos exitosamente reposicionados.
Tabla I
Fármaco | Estructura | Indicación original | Nueva indicación | Referencia |
---|---|---|---|---|
Ácido acetilsalicílico | Dolor e inflamación | Cáncer de próstata | (Joshi, Murphy, Olaniyi & Bryant, 2021) | |
Bromocriptina | Enfermedad de Parkinson | Diabetes Mellitus | (Ooi & Lye, 2018) | |
Atomoxetina | Trastorno de déficit de atención con hiperactividad | Alzheimer | (Levey et al., 2021) | |
Crizotinib | Linfoma | Cáncer de pulmón de células no pequeñas | (Chuang & Neal, 2015) | |
Colchicina | Gota | Pericarditis | (Thompson, 2019) | |
Gabapentina | Epilepsia | Dolor neuropático | (Wiffen et al., 2017) | |
Isoniazida | Tuberculosis | Cáncer de próstata | (Lv et al., 2018) | |
Milnacipran | Depresión | Fibromialgia | (Cording, Derry, Phillips, Moore & Wiffen, 2015) |
Las principales ventajas del REFA son la reducción del tiempo de investigación e inversión económica, así como el descubrimiento de tratamientos menos costosos. Por ejemplo, la combinación de Sirolimus y Vorinostat con un costo de $7,696 dólares, tienen una efectividad para tratar el linfoma de Hodking (un tipo de cáncer del sistema linfático) similar al Brentuximab, recientemente aprobado por la Administración de Alimentos y Medicamentos de los Estados Unidos (FDA) cuyo costo es de $13,683 dólares (Kato et al., 2015). Sin embargo, el REFA también tiene ciertas desventajas y retos que superar, concernientes principalmente a la dosificación y a la seguridad como, por ejemplo: a) con el nuevo uso se debe de tener una dosis terapéutica cercana a la prescripción original con probados beneficios y riesgos mínimos, b) también implica tener la capacidad de dirigirlo a otros órganos diana y por ende desarrollar nuevas fórmulas o mecanismos de liberación, incluso se tiene una pobre integración con las ciencias toxicológicas y farmacéuticas, c) existen dificultades legales y de financiamiento; el REFA disminuye el margen de ganancias de las empresas farmacéuticas debido a que los fármacos económicos pueden ser reutilizados en lugar de los fármacos novedosos y costosos, desalentando la inversión para su investigación y d) la protección de los derechos intelectuales e industriales representa grandes retos (Oprea et al., 2011).
El REFA emplea aproximaciones experimentales como el ensayo de afinidad utilizando, por ejemplo, técnicas de proteómica como la cromatografía de afinidad y la espectrometría de masas que permiten validar blancos farmacológicos, mecanismos de acción y sitios de unión específicos (Pushpakom et al., 2019). Otra metodología es el cribado fenotípico in vitro donde se usan cultivos celulares o in vivo empleando modelos animales sobre los que se prueban moléculas y se seleccionan aquellas capaces de alterar el fenotipo del sistema en estudio. La ventaja de este método es que puede ser automatizado y ensayar miles de moléculas de manera simultánea, incluso, a diferentes rangos de concentraciones. Sin embargo, es muy costoso, aunque el más empleado, ya que más del 50% de las moléculas pequeñas aprobadas por la FDA han sido identificadas mediante esta técnica (Moffat, Vincent, Lee, Eder & Prunotto, 2017; Rudrapal, Khairnar & Jadhav, 2020).
De manera importante, el REFA también se auxilia de las ventajas de los métodos por computación para acelerar y refinar el proceso de descubrimiento de nuevas funciones para los fármacos. Entre las técnicas más empleadas se encuentra la búsqueda por similitud química o molecular de compuestos, que se basa en consideraciones topológicas, farmacofóricas o fragmentos estructurales de las representaciones moleculares 2D y 3D (Willett, Barnard & Downs, 1998). Otra estrategia, es el acoplamiento molecular que emplea la estructura de una diana farmacológica para encontrar la posición energéticamente más favorable de interacción en la que se encuentra un complejo ligando-receptor (Meng, Zhang, Mezei & Cui, 2011). La dinámica molecular es otro método ampliamente empleado que sigue un principio parecido al acoplamiento molecular, sin embargo, esta técnica considera flexibles tanto al ligando como al receptor, además de tomar en cuenta factores como iones y moléculas de agua presentes en el ambiente celular y el tiempo que duran éstos unidos al complejo asociado (Liu et al., 2018). Más información relacionada con los métodos clásicos en el descubrimiento de fármacos se puede encontrar en el trabajo de Saldívar-González, Prieto-Martínez & Medina-Franco (2017).
Otra forma de abordar la investigación en el REFA cuando no se tiene un blanco definido es a través de las firmas transcriptómicas en plataformas como Cmap o LINCS L1000 que usan perfiles de expresión generados por microarreglos o secuenciación de RNAm. De éstos, los perfiles de perturbación transcriptómica son los más comunes y consisten en determinar los cambios en la expresión de diversos genes cuando son sometidos a estímulos externos como el silenciamiento por RNA de interferencia (siRNA) o por fármacos (Lamb et al., 2006; Subramanian et al., 2017). El análisis de las redes biológicas del tipo interacción proteína-proteína, co-expresión, regulación genética, o también el análisis de redes farmacológicas, permite visualizar e inferir relaciones e interacciones fármaco -blanco, fármaco-fármaco y fármaco-enfermedad (Morrow, Tian & Zhang, 2010; Emig et al., 2013). Por último, es importante mencionar la minería de datos y el aprendizaje automático (AA) (March-Vila et al., 2017) que pertenecen a un área de las ciencias de la computación de la mencionada IA, que ha ganado popularidad en los últimos años debido a su capacidad de análisis masivo de información, gracias al desarrollo de un equipo de cómputo de alto rendimiento y diversos algoritmos entrenados con una enorme cantidad de datos biomédicos, químicos y biológicos actualizados (Sidey-Gibbons & Sidey-Gibbons, 2019).
El uso de la IA en el REFA se ha discutido ampliamente en la literatura en inglés (Tanoli, Vähä-Koskela & Aittokallio, 2021; Urbina, Puhl & Ekins, 2021; Koromina, Pandi & Patrinos, 2019; Mohapatra et al., 2020), sin embargo, existen pocos trabajos en español sobre este tema (Saldívar-González & Medina-Franco, 2021).
En esta revisión también nos enfocamos en describir el uso y las aplicaciones actuales de los algoritmos del AA mostrando que por sí solos y en combinación con las metodologías computacionales clásicas han mejorado y acelerado el proceso del REFA al descubrir una nueva utilidad en el tratamiento de otras enfermedades. Presentamos algunos ejemplos de éxito en enfermedades infecciosas y crónico-degenerativas.
Aprendizaje automático
La IA es un campo de la computación cuyo objetivo es lograr que las máquinas tomen decisiones a través de la experiencia y la adaptación por medio de la simulación de los procesos de razonamiento humano. Los orígenes de la IA se remontan a 1943 con el trabajo de McCulloch y Pitts, donde describían un modelo matemático de aprendizaje basado en el comportamiento de las neuronas humanas (Muthukrishnan et al., 2020), sin embargo, el término IA fue introducido por primera vez en 1956 por John McCarthy (Kaul, Enslin & Gross, 2020). La IA ha sido empleada en diversas áreas como la ingeniería, economía, industria, etc. Pero fue hasta el año 2000 que comenzó a usarse de manera intensiva en las ciencias médicas y químico biológicas gracias al desarrollo de equipo de cómputo de altas prestaciones, así como la disposición masiva de datos clínicos, químicos y biológicos depositados en bases de datos públicas, que ayudaron a mejorar y acelerar el desarrollo y el descubrimiento de nuevos fármacos, métodos de síntesis, vías de señalización y blancos farmacológicos (Kononenko, 2001; Gasteiger, 2020). La IA procesa datos mediante algoritmos que emplean herramientas matemáticas tan diversas como el álgebra lineal, la estadística, la teoría de la probabilidad, y el análisis numérico para razonar y resolver problemas, hacer inferencias basadas en eventos pasados, aprender nuevas tareas, clasificar e identificar patrones complejos, y extraer conocimientos de grandes volúmenes de datos (Baştanlar & Ozuysal, 2014).
El AA se centra en el desarrollo de sistemas que aprenden mediante la identificación de patrones y en función de los datos disponibles con el objetivo de hacer predicciones. El aprendizaje se realiza mediante la construcción de modelos, que son un conjunto de operaciones y parámetros de entrada y salida de datos, y para entrenarlos se utilizan diversos algoritmos. Un flujo de trabajo clásico del AA consiste en cuatro pasos: (1) El preprocesamiento de datos; en donde se limpia, transforma y reducen los datos con el objetivo de filtrar o eliminar los de baja calidad, reducir el ruido, remover valores anormales o duplicados para mejorar la calidad de los resultados; entre las técnicas comúnmente utilizadas se encuentra la normalización, fusión y reducción de datos, estandarización e imputación de valores perdidos (Malley, Ramazzotti & Wu, 2016). (2) La extracción de características; se selecciona un subconjunto de las características totales de los datos originales mediante la reducción de la dimensionalidad usando técnicas como análisis de componentes principales (PCA) (Jolliffe & Cadima, 2016), incrustación de vecinos estocásticos distribuidos en t (t-SNE) (Linderman & Steinerberger, 2019) y escalamiento multidimensional (MDS) (Mugavin, 2008), etc., con el objetivo de eliminar características altamente correlacionadas, redundantes o irrelevantes, reduciendo el tamaño y la complejidad del modelo para hacer el entrenamiento más fácil y rápido (Saeys, Inza & Larrañaga, 2007). (3) El entrenamiento del modelo; en el que se utilizan dos tipos principales de algoritmos llamados aprendizaje supervisado y no supervisado. En el aprendizaje supervisado, que es el más utilizado, los modelos se entrenan mediante datos previamente etiquetados y su resultado está predefinido. Algunos ejemplos de aprendizaje automático supervisado incluyen algoritmos de regresión, empleados para modelar la relación entre una variable dependiente y una o más variables predictivas. Entre los algoritmos de regresión, están: a) el lineal que determina la tendencia de un conjunto de datos continuos, b) el de logística que se utiliza para datos discretos y c) la logarítmica que es una generalización de la regresión lineal para datos multivariados (Doan & Kalita, 2015). Las máquinas de soporte vectorial o Support Vector Machines (SVM) son un conjunto de algoritmos de aprendizaje supervisado, un método de clasificación y regresión binaria basado en espacios p-dimensionales llamados hiperplanos que son subespacios de una sola dimensión que no pasan por el origen, y se aplican en problemas de clasificación múltiple (Hearst, Dumais, Osuna, Platt & Scholkopf, 1998). Los árboles de decisión son algoritmos predictivos del valor de una variable en función de otras variables de entrada; las predicciones son realizadas mediante métodos probabilísticos como el de bosques aleatorios o Random Forest (RF) que son un conjunto de árboles de decisión en donde cada árbol ve una porción de los datos de entrenamiento, y al final, al combinar los datos de cada árbol aumenta el poder de generalización mientras disminuye el error. Los algoritmos de aprendizaje no supervisado son capaces de identificar procesos y patrones complejos, sin la necesidad de entrenarlos con datos etiquetados o resultados predefinidos. Entre estos algoritmos encontramos k-medias, tSNE, PCA y Linear Discriminant Analysis (LDA). La mayoría de estos algoritmos funcionan a través de la reducción de la dimensionalidad que implica transformaciones lineales (Dash, Nayak & Mishra, 2021). En la Figura 2 se resumen los principales algoritmos del AA. (4) La evaluación del modelo; es necesario evaluar los modelos de aprendizaje para determinar su desempeño y realizar predicciones acertadas con futuros datos. Al llevar a cabo esta validación se separan del modelo los datos de los que ya se conoce una respuesta, y se etiquetan con valores reales como comprobación de la capacidad de generalización. Entre las métricas empleadas para evaluarlos encontramos: exactitud, precisión y exhaustividad que cuantifican la tasa de falsos positivos y negativos, puntuación F1 (media armónica de precisión y exhaustividad), curva de características operativas del receptor (ROC), índice Jaccard y coeficiente de Ginni (Handelman et al., 2019).
Los algoritmos del AA han acelerado el descubrimiento de fármacos, sin embargo, existen algunas limitaciones a la hora de entrenar los modelos, como la falta de información experimental de blancos farmacológicos novedosos que dificulta la capacidad de extrapolación de los datos. También en el área de la quimioinformática se complica el agrupamiento de moléculas (espacio químico) ocasionado por el uso de descriptores moleculares incorrectos, o que otorgan poca información (Baskin, 2021). Otra limitación intrínseca del AA es la generación de modelos con poca capacidad de generalización (sobreajuste), o modelos incapaces de predecir e identificar patrones (infrajuste). Estas limitaciones se originan principalmente por la mala calidad, poca cantidad y variedad de datos, así como a un mal preprocesamiento, ajuste de parámetros y elección del algoritmo para entrenar el modelo (Patel, Shukla, Huang, Ussery & Wang, 2020).
Identificación de blancos terapéuticos
La identificación de blancos adecuados es una tarea crítica y complicada debido a la etiología de las enfermedades. Para abordar este problema, diversos autores han desarrollado estrategias para identificar y priorizar blancos realmente efectivos. Ferrero, Dunham & Sanseau (2017) desarrollaron un modelo de clasificación que predice nuevos blancos terapéuticos a partir de datos de asociación gen-enfermedad. Para construir este modelo, se utilizaron cuatro algoritmos: SVM, RF, máquina de potenciación del gradiente o Gradient Boosting Machine (GBM) y redes neuronales artificiales o Artificial Neural Networks (ANNs) entrenados con datos de asociación gen-enfermedad provenientes de bases de datos públicas. Los datos de entrada que se utilizaron fueron mutaciones, expresión del RNA, vías de señalización, modelos animales y asociaciones genéticas. Los autores encontraron que los cuatro algoritmos tenían una eficacia similar cercana al 70% (Ferrero et al., 2017). Por otra parte, Dezső & Ceccarelli (2020) desarrollaron y entrenaron más de 10 mil modelos utilizando RF para la predicción de blancos terapéuticos oncológicos novedosos. Tomando en cuenta un total de 277 blancos conocidos de fármacos oncológicos aprobados y en fase experimental para la construcción de los modelos, se utilizaron 70 características entre las que destacan la localización subcelular, las modificaciones postraduccionales, la clasificación enzimática, las regiones PEST (regiones ricas en residuos de prolina (P), glutamato/aspartato (E/D), serina (S) y treonina (T) flanqueadas por aminoácidos básicos), la estructura secundaria, la accesibilidad del solvente y la especificidad de tejido, así como la información topológica de redes de interacción proteína-proteína. Después de la validación y selección del mejor modelo, se obtuvo una eficacia del 73%. Mamoshina et al. (2018) desarrollaron diversos modelos predictivos para encontrar blancos asociados con la progresión de la edad y hacer estudios dirigidos al reposicionamiento de fármacos contra estos blancos responsables del envejecimiento. Utilizando datos de expresión provenientes de experimentos con microarreglos depositados en los repositorios de Gene Expression Omnibus (GEO) y en ArrayExpress, se evaluó la eficacia de cinco algoritmos distintos: k vecinos más cercanos (k-nn) - 58%, RF - 66%, ElasticNet - 83%, SVM - 87% y selección de características profundas - 80%. El uso de estos algoritmos les permitió identificar un total de veinte blancos, de los que algunos ya tienen fármacos que interactúan con ellos.
Identificación de fármacos
Modelos basados en medidas de similitud
Como se mencionó anteriormente, el REFA utiliza diversos enfoques computacionales para el proceso de descubrimiento de nuevas funciones de los fármacos ya conocidos. Muchos métodos se han combinado con el uso del AA y su eficacia ha mejorado. Son tres los principales métodos que se han visto beneficiados por el AA basados en: (1) el ligando que a su vez abarca: (a) las relaciones cuantitativas estructura-actividad o Quantitative Structure-Activity Relationship (QSAR) y (b) el de búsqueda por similitud; (2) la estructura como el acoplamiento molecular, y (3) los quimiogenómicos (Kim et al., 2020).
Gottlieb, Stein, Ruppin & Sharan (2011) desarrollaron PREDICT, un modelo capaz de identificar asociaciones fármaco-gen-enfermedad utilizando medidas de similitud y regresión logística, así como datos de entrenamiento de perfiles de expresión génica, redes de interacción proteína-proteína, y análisis de funciones ontológicas. El modelo tiene una eficacia cercana al 90%. Otro modelo de predicción con un concepto similar llamado SPACE también utiliza medidas de similitud y asociación entre diversas fuentes de datos para predecir la clasificación terapéutica de los fármacos aprobados para inferir nuevas funciones (Liu et al., 2015). Utilizando datos de Cmap, Napolitano et al. (2013) combinaron datos de similitud de perturbaciones transcriptómicas inducidas por fármacos, asociaciones gen-enfermedad y estructura química de los fármacos en un modelo multiclase o Semi-Supervised Multiclass (SVM). Kim, Choi & Nam (2019) utilizaron algoritmos de clasificación lineales y no lineales para encontrar asociaciones fármaco-enfermedad de productos naturales; los algoritmos lineales utilizados fueron regresión logística y el SVM con núcleo lineal. Los no lineales utilizados fueron los RF, regresión polinomial y el SVM con núcleo no lineal. Un hallazgo interesante fue que los algoritmos de clasificación no lineal dieron mejores resultados con una precisión cercana al 90%. Al entrenar los distintos modelos se utilizaron doce características llamadas puntuaciones de similitud entre las que se encuentran similitudes de: estructura química, efectos secundarios, blancos farmacológicos, términos ontológicos, ontológica de fenotipo y términos ontológicos de genes relacionados con enfermedades, etc. Los modelos basados en similitud entrenados usando algoritmos de regresión fueron de los primeros en ser implementados y son ampliamente usados (Li & Lu, 2012; Luo et al., 2016).
Modelos basados en redes
Una red es una abstracción matemática de la conexión entre dos objetos. Las redes se representan típicamente como grafos, los cuales están compuestos de nodos y aristas. Cada nodo representa un objeto y está unido a otros nodos mediante una arista que significa algún tipo de relación. En el REFA es común encontrar redes fármaco-enfermedad, fármaco-fármaco, fármaco-proteína, proteína-proteína y proteína-enfermedad, etc. Este tipo de modelos se han utilizado desde hace tiempo, pero recientemente se han combinado con el uso de algoritmos de AA lo cual aumenta de manera significativa la eficacia de las redes. Zhang et al. (2018) desarrollaron un método de inferencia basado en la similitud topológica de red o Network Topological Similarity -Based Inference Method (NTSIM), que es un modelo de inferencia basado en redes bipartitas de asociaciones fármaco-enfermedad capaz de predecir nuevas asociaciones fármaco-blanco con gran exactitud. El modelo fue construido utilizando un perceptrón multicapa o Multilayer Perceptron (MLP) y RF. Le & Nguyen-Ngoc (2018) construyeron una red de tres capas utilizando similitud de enfermedades y fármacos, para inferir nuevas asociaciones fármaco-enfermedad mediante un modelo de aprendizaje conocido como mínimos cuadrados recursivos o Recursive Least Quares (RLS), que es un método de aprendizaje semi- supervisado capaz de predecir nuevas asociaciones con un 97% de eficacia. Himmelstein et al. (2017) desarrollaron Hetionet, un modelo capaz de predecir más de 200 mil nuevas relaciones fármaco-enfermedad. Este sistema multi-redes integra millones de estudios biomédicos utilizando veinticuatro tipos de relaciones diferentes como enfermedades, genes, anatomía, vías de señalización, procesos biológicos, funciones moleculares, componentes celulares, clases farmacológicas, efectos adversos y síntomas, entre otros. El modelo fue entrenado con un algoritmo de regresión logística y mostró una eficacia cercana al 85%.
Modelos basados en aprendizaje profundo
El aprendizaje profundo (AP) es un subconjunto de algoritmos y técnicas de AA que han revolucionado el campo de la IA y el descubrimiento de fármacos. El AP hace un uso intensivo de estructuras abstractas que implican múltiples transformaciones lineales a través de diversas capas de ANNs compuestas por neuronas artificiales interconectadas a través de enlaces, de los que salen valores multiplicados por un valor de peso determinado por la función de activación. Posteriormente, estos valores se propagan a través de las neuronas aprendiendo cómo regular la ganancia y la pérdida de información. Las arquitecturas principales y más populares son la red neuronal profunda o Deep Neural Network (DNN), la red de creencia profunda o Deep Belief Network (DBN), la red neuronal recurrente o Recurrent Neural Network (RNN), la red de memoria a largo plazo o Long Short-Term Memory Network (LSTM) y la red neuronal convolucional o Convolutional Neural Network (CNN). Una de las principales ventajas que puede ofrecer el AP frente al AA en el descubrimiento de fármacos es que éste no necesita el proceso de selección de características, evitando de esta manera el trabajo con conjuntos de datos excesivamente grandes y redundantes. La aplicación del AP en esta área, incluso, permite el descubrimiento de nuevas características en modelos de predicción fármaco-enfermedad (Schmidhuber, 2015). Aliper et al. (2016) utilizaron un modelo basado en una DNN que entrenaron con datos de perturbación transcriptómica de 678 fármacos sobre las líneas celulares A549, MCF-7 y PC-3. El primer logro notable de este modelo fue la capacidad de clasificar cada tipo de fármaco con una exactitud diez veces superior a un modelo basado en un SVM. Además, el modelo pudo reconocer fármacos antineoplásicos, fármacos para el sistema nervioso central y de uso dermatológico. Wei, Zhang, Huang & Fang (2019) desarrollaron un algoritmo de incrustación de redes o Network Embedding (NE) utilizando datos de similitud estructural, interacción fármaco-enfermedad, efectos adversos y datos de enfermedades mendelianas para descubrir nuevas características latentes en los fármacos conocidos, teorizaron que podrían descubrirse nuevos usos, por lo que fueron utilizados posteriormente para entrenar modelos de un SVM con una exactitud superior al 90%. Otro flujo de trabajo diseñado para encontrar nuevas características útiles para estudios sobre reposicionamiento de fármacos fue propuesto por otro grupo de investigación; este método tiene una eficacia del 94%, y consiste de cinco pasos, (1) Representación de cuatro características de los fármacos (estructura, enzimas, proteínas relacionadas y niveles de expresión génica) con las que se entrenó una DNN, (2) Transformación de dos características de enfermedades (fenotipo y genotipo) usando PCA, (3) Construcción de matrices de similitud fármaco-fármaco utilizando las características de los fármacos, (4) Construcción de matrices de similitud enfermedad-enfermedad basadas en las características de las enfermedades, y (5) Construcción de matrices de asociación usando las dos matrices de similitud anteriores (Moridi, Ghadirinia, Sharifi-Zarchi & Zare-Mirakabad, 2019). Donner, Kazmierczak & Fortney (2018) idearon un método de embebido profundo con datos de perturbación transcriptómica; utilizando valores estandarizados de expresión de los genes de referencia, entrenaron una DNN con múltiples capas para efectuar diversas tareas, entre ellas el reposicionamiento basado en similitud de perturbación. Este tipo de red puede reducir el ruido en los perfiles de perturbación y dar una precisión del 90%. DeepAction es un procedimiento para encontrar nuevas interacciones fármaco-blanco con una efectividad del 98%. El modelo consiste en extraer características de las moléculas usando descriptores moleculares además de las características geométricas y topológicas; también extrajeron características de los blancos identificados de cada molécula. Utilizando un modelo de regresión de operador de selección y contracción mínima absoluta (LASSO), seleccionaron las características más importantes para entrenar una CNN (Hasan Mahmud et al., 2020). Otro modelo llamado deepDR combina análisis de redes con el AP; en total, utilizaron 10 tipos de redes, entre ellas: fármaco-enfermedad, fármaco-efectos adversos, fármaco-blanco y siete redes distintas fármaco-fármaco. El modelo fue entrenado con un codificador automático profundo multimodal para aprender características de alto nivel y convertirlas en representaciones de baja dimensión utilizadas en un Autoencoder Variacional (VAE) con el objetivo de reposicionar fármacos contra las enfermedades de Parkinson y de Alzheimer (Zeng et al., 2019). Otra aproximación es el método basado en el AP para predecir indicaciones de enfermedades candidatas relacionadas con fármacos llamado CGARDP. Este modelo, entrena una CNN con datos de similitud de fármacos y una unidad recurrente cerrada (GRU) con datos de similitud de enfermedades; posteriormente estas dos RNN fueron combinadas y se utilizaron para su entrenamiento en cincuenta millones de parámetros. Un hecho interesante es que este modelo es capaz de realizar predicciones de asociaciones fármaco-enfermedades realistas en comparación con otros modelos de redes neuronales (Xuan, Zhao, Zhang, Ye & Zhang, 2019). Un sistema distinto fue propuesto por Liu, Wei & Zhang, 2021, que consiste en utilizar datos longitudinales de observaciones provenientes de pacientes heterogéneos; algunos de estos datos son encuestas de salud, historiales médicos electrónicos, actividades de reclamación y facturación que fueron emulados para cada fármaco candidato a reposicionamiento. Utilizando métodos de inferencia causal y AP, estimaron los efectos para cada fármaco utilizando una RNN de memoria a largo plazo o Long Short-Term Memory (LSTM) entrenada con datos de noventa millones de pacientes alrededor del mundo, lo que les permitió estimar nuevos efectos en diversos fármacos.
Casos de estudio con fines de reposicionamiento guiado por inteligencia artificial en diversas enfermedades
Enfermedades del sistema nervioso central
En la Figura 3, se muestran las estructuras químicas de algunos fármacos que actualmente se encuentran en investigación para ser reposicionados con diferentes usos. Utilizando una librería química de 1,280 fármacos aprobados por la FDA y modelos de inferencia Bayesiana, Ekins y colaboradores encontraron que Nicardipina y Nivaldipina, fármacos originalmente utilizados como vasodilatadores e hipotensivos, son buenos candidatos para tratar el síndrome de Pitt-Hopkins causado por una rara mutación genética en el gen que codifica el factor de transcripción TCF4, lo que ocasiona diversos trastornos parecidos al síndrome de espectro autista. Además, encontraron otros 55 fármacos potenciales para tratar esta afección, todos relacionados con la inhibición de canales de voltaje implicados en ataques epilépticos que son una comorbilidad común en este síndrome (Ekins et al., 2019). La segunda enfermedad más común del sistema nervioso central (SNC) en personas mayores es el Parkinson, que actualmente no tiene cura y los tratamientos son limitados; por esta razón, Sebastián-Pérez y colaboradores utilizaron los RF y una RNN conocida como multiperceptrón en combinación con modelos QSAR para identificar inhibidores putativos de la proteína LRRK2. El gen que codifica a esta proteína se encuentra comúnmente mutado en pacientes con Parkinson y se ha relacionado con una exacerbada respuesta inflamatoria y aumento del estrés oxidante en el cerebro (Sebastián-Pérez et al., 2019). Otro grupo utilizó RF, SVM y K- vecinos más próximos o K-Nearest-Neighbor (KNN) y una RNN para hallar nuevos fármacos contra la ansiedad, la depresión y la esquizofrenia; estos algoritmos fueron empleados para encontrar nuevas vías de señalización que estuvieran relacionadas con estas patologías. Además, utilizaron datos de expresión génica que los llevó a proponer a la Apigenina, que es un antioxidante, y a la Metformina, que es un fármaco para la diabetes, como nuevos candidatos en el tratamiento de la depresión/ansiedad. En cuanto a tratar la esquizofrenia propusieron al ácido acetil salicílico comúnmente utilizado para el dolor, y a la Genisteína que es un fitoestrógeno con propiedades anticancerígenas y antioxidantes (Zhao & So, 2019).
Cáncer
El cáncer es la segunda causa de muerte a nivel mundial y es un problema grave para los sistemas de salud, pues a pesar que existen numerosas terapias, las células cancerosas son capaces de mutar y desarrollar mecanismos de defensa contra los fármacos antineoplásicos (Mattiuzzi & Lippi, 2019). Por esta razón, numerosos grupos de investigación alrededor del mundo realizan esfuerzos constantes para encontrar novedosas terapias contra esta enfermedad, siendo el REFA uno de los enfoques mayormente utilizados. Muchos de los modelos de AA y AP antes expuestos fueron desarrollados originalmente para reposicionar fármacos contra el cáncer. Ese es el caso de la aplicación de un sofisticado algoritmo de AP conocido como autocodificador generativo adversario o Adversarial Auto Encoder (AAE) implementado en un modelo de siete capas que sirve como discriminador para encontrar nuevas características que permitan descubrir fármacos con actividad anticancerígena dentro de una colección de 72 millones de compuestos. En total, se encontraron 632 nuevos compuestos de los cuales algunos fueron sometidos a ensayos de citotoxicidad, descubriendo efectos significativos, contra algunas líneas de células cancerosas, por parte de los fármacos que previamente habían sido reportados con actividad antimicrobiana, agentes quelantes y antivirales (Kadurin et al., 2017). Deshmukh, Chandra, Singh, Siddiqi & Banerjee (2017) se concentraron en hallar inhibidores de FEN1, una proteína expresada en diversos tipos de cáncer; para esto, combinaron cribado virtual consenso con los RF y una SVM seleccionando los cinco primeros hits entre una base de datos de 53,000 compuestos identificando a JFD00950 como inhibidor novedoso de FEN1, proteína que al ser inhibida ocasiona la detención del crecimiento tumoral. La combinación del cribado fenotípico y el AA se utilizó para generar idTRAX, un modelo para identificar nuevos inhibidores de cinasas usados para tratar el cáncer de mama triple negativo, un tipo de cáncer que hasta el momento tiene pocas opciones terapéuticas y bajo índice de supervivencia (Gupta et al., 2020). El modelo identificó seis nuevos inhibidores de cinasas entre los que destacan Afuresertib y Uprosertib previamente utilizados como moduladores del sistema inmunológico; además, descubrieron nuevos blancos asociados a este tipo de cáncer que no habían sido identificados previamente por métodos experimentales (Gautam, Jaiswal, Aittokallio, Al-Ali & Wennerberg, 2019). Li et al. (2020) encontraron el efecto de la Gemcitabina, un agente quimioterapéutico originalmente utilizado para tratar el cáncer de páncreas, y la Pimozida, un fármaco antipsicótico usado en el tratamiento del síndrome de Tourette, como nuevos agentes citotóxicos contra el cáncer de pulmón de células no pequeñas. Este descubrimiento fue posible gracias al uso de datos de expresión, perturbaciones transcriptómicas e información química de las moléculas con los que se entrenó un modelo de DNN; sus resultados fueron validados en las líneas celulares pulmonares transformadas A549 y H157.
Enfermedades infecciosas
Infecciones virales: el caso SARS-Cov-2
Desde la emergencia sanitaria provocada por el brote del virus SARS -CoV-2 en 2019, y la carencia de vacunas y tratamientos efectivos contra este patógeno, surgió el interés en la investigación para reposicionar fármacos contra la enfermedad COVID-19. La investigación ha sido impulsada por técnicas de alto rendimiento combinadas con algoritmos de IA que han permitido encontrar y proponer una gran variedad de tratamientos prometedores contra el virus. Delijewski & Haneczok (2021) utilizaron un conjunto de 229,000 moléculas inactivas y otras 435 eficaces contra diversos SARS-CoV para entrenar un método de aprendizaje de árbol impulsado por gradiente (XGBoost). El modelo fue alimentado con datos de similitud estructural determinada por huellas moleculares. Con esta aproximación, estos autores proponen el fármaco Zafirlukast, que se utiliza para tratar el asma, ahora para actuar contra el SARS -CoV-2. Utilizando el mismo conjunto de datos, pero con un enfoque ligeramente distinto, Kumar, Loharch, Kumar, Ringe & Parkesh (2021) combinaron técnicas quimioinformáticas como el análisis de núcleos base, la exploración del espacio químico y las redes de similitud molecular con diversos algoritmos del AA, con las que identificaron al Fluconazol, un fármaco con acción antifúngica, y al Pranlukast, que se utiliza para tratar la congestión nasal y la rinitis, como potenciales inhibidores del SARS-CoV-2. Feng et al. (2020) desarrollaron un modelo de AA basado en funciones de puntuación tomando en cuenta energías de unión provenientes del cribado virtual, además de similitud y agrupamiento de fármacos. Este modelo llamado MCCS, identificó diversos fármacos potenciales para el tratamiento contra el SARS- CoV-2 como son el: Lopinavir y Tenofovir, que normalmente son utilizados para tratar el VIH, Peramivir y Zanamivir que son usados en el tratamiento contra la influenza, y el Sofosbuvir que es un antiviral contra el virus de la hepatitis C, así como los fármacos antidiabéticos Tolazamida, Gliburida y Acarbosa. Otro trabajo desarrolló una plataforma de predicción de potenciales inhibidores de este coronavirus utilizando bases de datos de compuestos activos contra otros virus como SARS, VIH e influenza; también se incluyeron datos de inhibidores de proteasas de diversos virus. Los investigadores calcularon diversos descriptores moleculares con los que se entrenó una DNN que identificó hasta ochenta moléculas con potencial para combatir el SARS-CoV-2 de las que ocho, Bedaquilina (antituberculoso), Brequinar (inmunosupresor), Celecoxib (antinflamatorio no esteroideo), Clofazimina (antimicrobiano), Conivaptan (tratamiento para niveles bajos de sodio), Gemcitabina (antibiótico), Tolcapona (tratamiento del Parkinson) y Vismodegib (carcinoma de células basales), mostraron actividad in vitro contra el virus de la peridontitis infecciosa felina, un coronavirus felino muy similar al que genera la enfermedad por COVID-19 (Ke et al., 2020) . Otro modelo bastante novedoso fue propuesto por Loucera et al. (2020), que consiste en combinar algoritmos del AA con un modelado mecanicista de los circuitos de transducción de señales relacionados con la infección por SARS-CoV-2. Entre las características seleccionadas para construir el modelo están los datos de expresión de múltiples tejidos, las vías de señalización, los blancos de fármacos, la respuesta inflamatoria, la actividad inmune, la defensa antiviral, la endocitosis, la replicación, la bioenergética y las interacciones virus-hospedero. Los resultados arrojaron la posible actividad antiviral del inmunosupresor Sirolimus, el antibiótico Ciclosporina, el agente antimalárico Hidroxicloroquina, y el fármaco para tratar diversas enfermedades autoinmunes Etanercept, además de otros cinco fármacos contra el coronavirus. Diversos autores han propuesto otros modelos y aproximaciones guiadas por la IA para investigaciones enfocadas al REFA que sirvan para controlar la pandemia o reducir la mortalidad por el virus (Zhou, Wang, Tang, Nussinov & Cheng, 2020; Mohamed, Yazdanpanah, Saghazadeh & Rezaei, 2021; Mohanty, Harun Ai Rashid, Mridul, Mohanty & Swayamsiddha, 2020).
Infecciones bacterianas
El abuso y el mal uso de los antibióticos ha generado la aparición de bacterias multi-resistentes llamadas super bacterias. Este problema emergente se perfila como una causa de alta mortalidad para los siguientes años convirtiéndose en un problema sanitario y pandémico. Para tratar de encontrar soluciones tempranas, varios grupos de investigación han propuesto el enfoque del REFA para identificar agentes que sensibilicen de nuevo a las bacterias ante los fármacos, o para encontrar tratamientos bactericidas novedosos (Crunkhorn, 2020; Udaondo & Matilla, 2020; Fanelli et al., 2020). Stokes et al., (2020) utilizaron información de similitud molecular y espacio químico de más de cien millones de moléculas e identificaron a la Halicina, un fármaco originalmente investigado para tratar la diabetes, como un nuevo antibiótico con actividad bactericida de amplio espectro, convirtiéndose éste en el primer antibiótico descubierto utilizando la IA. Empleando métodos de agrupamiento jerárquico basado en árboles usando análisis lineal discriminante o Linear Discriminant Analysis (LDA) combinados con modelos QSAR, Suay-Garcia et al. (2020) proponen que 168 fármacos previamente aprobados por la FDA podrían tener actividad bactericida contra Escherichia coli.
Infecciones parasitarias
En cuanto a las enfermedades parasitarias se han obtenido resultados prometedores en la investigación para el REFA. Es el caso de DeepMalaria, un modelo de redes neuronales convolucionales gráficas o Graph Convolutional Neural Network (GCNN), identificó nuevos compuestos con capacidad para el tratamiento de la malaria dentro de una colección de 211 moléculas con una exactitud del 74%. Entre los nuevos compuestos propuestos se encontraron: el Omeprazol (úlcera péptica), la Loperamida (gastroenteritis), y el Amlodipino (presión arterial) (Keshavarzi Arshadi, Salem, Collins, Yuan & Chakrabarti, 2020). En otro proyecto utilizaron modelos de inferencia bayesiana para identificar 56 moléculas como fármacos potenciales contra la esquistosomiasis, una enfermedad generada por los parásitos del género Schistosoma que afecta al sistema venoso portal humano; entre los fármacos candidatos a reposicionamiento se encontraron: el Itraconazol (antifúngico), el Eletriptán (migraña aguda), la Rutecarpina (antiinflamatorio) y el Trilostano (síndrome de Cushing) (Zorn et al., 2021). Otros algoritmos del AP y el AA han sido aplicados para identificar fármacos con el fin de reposicionarlos contra la leishmaniasis y la tripanosomiasis (Winkler, 2021).
Fármacos antienvejecimiento
El envejecimiento es un fenómeno biológico complejo, progresivo y universal con una disminución de la capacidad de respuesta de los organismos ante agentes estresores, aumentando de esta manera la acumulación de daño celular que conduce a la fragilidad y finalmente a la muerte. El envejecimiento es el principal factor de riesgo para la aparición y progresión de diversas enfermedades crónico-degenerativas como el Alzheimer, el Parkinson, la diabetes, la artritis y el cáncer, etc. (Rattan, 2006; López-Otín, Blasco, Partridge, Serrano & Kroemer, 2013). En los últimos años, los métodos computacionales para buscar fármacos capaces de retrasar el deterioro asociado al envejecimiento y las enfermedades crónico-degenerativas han ganado popularidad (Mallikarjun & Swift, 2016; Dönertaş, Fuentealba, Partridge & Thornton, 2019), algunos fármacos candidatos a reposicionamiento para evitar y ralentizar el envejecimiento se muestran en la Figura 3. Tomando en cuenta las características de la ontología de genes (GO), Barardo et al., (2017) construyeron un modelo usando RF para identificar fármacos y extender la vida del gusano Caenorhabditis elegans; que previamente han mostrado aumentar la esperanza de vida de especies como Drosophila melanogaster, Mus musculus, Rattus norvegicus y Mytilina brevispina, etc. El modelo determinó que existe un rango del 63% al 68% de probabilidad de que los siguientes fármacos extiendan la vida del gusano: Valspodar (quimiosensibilizador), Ganirelix (control de la ovulación) y Bortezomib (mieloma múltiple). Otra interesante aplicación del algoritmo RF para hallar fármacos capaces de extender la vida fue publicada por Kapsiani & Howlin (2021) que con una exactitud superior al 80% lograron identificar los vasculoprotectores Diosmina y Hesperidina, además de los antibióticos Fidaxomicina, Rifapentina y Clortetraciclina como potenciales candidatos a ser reposicionados, ya que extendieron la vida de Caenorhabditis elegans hasta un 60%.
Conclusiones
Según Drugbank, que es la base de datos más popular para el análisis y el descubrimiento de fármacos in silico (https://go.drugbank.com/), existen 4,108 fármacos aprobados para uso humano, y 8,142 moléculas se encuentran en ensayos clínicos que podrían ser aprobadas en los siguientes años (Wishart et al ., 2018). Cada uno de estos fármacos es candidato para ser reposicionado, y para encontrar nuevos efectos se han desarrollado modelos sofisticados basados en algoritmos de IA, que lejos de reemplazar a los métodos computacionales y quimioinformáticos clásicos, les han dado un nuevo aire complementándolos e incluso muchas veces mejorándolos. Esto ha sido posible gracias a diversos algoritmos del AA y el AP entrenados con una enorme cantidad de datos biomédicos, químicos y experimentales. Lo que debe resaltarse es el aumento en la eficacia de los modelos gracias a las técnicas del AP que son capaces de construir modelos más robustos y menos redundantes que los algoritmos del AA. El uso de estas técnicas ha demostrado buenos resultados para identificar características y asociaciones previamente desconocidas que han servido para encontrar nuevos efectos en diferentes fármacos.
Perspectivas
Los algoritmos del AP han ganado popularidad en los estudios enfocados al REFA, principalmente el uso de ANN. Aunque existen ciertas arquitecturas de red que han sido utilizadas, existen aún más por ser aplicadas en este campo como son las redes generativas y de confrontación, el aprendizaje incremental y las redes bidireccionales (Wang, Zhao & Pourpanah, 2020). Aunque los algoritmos del AA son los que más se utilizan en los estudios dirigidos al reposicionamiento, otras técnicas de la IA podrían ser igualmente aplicadas para mejorar las existentes; como es el caso de los algoritmos genéticos utilizados en programas de acoplamiento molecular (Gardiner et al., 2001), lógica difusa para el descubrimiento de mecanismos de acción de fármacos (Sproule, Naranjo & Türksen, 2002), así como la aplicación de modelos de procesamiento de lenguaje natural (Öztürk, Özgür, Schwaller, Laino & Ozkirmli, 2020).
En esta revisión nos enfocamos en resumir los algoritmos y métodos derivados de la IA empleados en la investigación con la finalidad de encontrar fármacos candidatos a reposicionamiento. Algunos fármacos cuyo reposicionamiento fue señalado por técnicas computacionales, que indirectamente usan la IA, como el cribado virtual basado en el ligando y el receptor se encuentran actualmente en ensayos clínicos. Los casos más interesantes son los tratamientos potenciales contra el COVID -19, ya que fármacos como el Telmisartán (antihipertensivo), el Favipiravir (tratamiento VIH), y el Nafamostat (anticoagulante) han mostrado resultados prometedores al inhibir la entrada del virus o evitar cuadros graves de la enfermedad en humanos (Aronskyy, Masoudi-Sobhanzadeh, Cappuccio & Zaslavsky, 2021), lo que confirma la capacidad del REFA para tratar de mantener la salud humana.