banner
Centro de Noticias
Nuestro objetivo es mejorar continuamente nuestras técnicas y calidad para satisfacer sus necesidades.

Predicción de agentes de guerra química basada en meta de tipo matriz colinérgica

Jun 11, 2023

Scientific Reports volumen 12, Número de artículo: 16709 (2022) Citar este artículo

1466 Accesos

Detalles de métricas

Los conocimientos moleculares sobre la seguridad química son muy importantes para el desarrollo sostenible, así como para la evaluación de riesgos. Este estudio considera cómo manejar futuros agentes dañinos, especialmente agentes de guerra química potencialmente colinérgicos (CWA). Para este propósito, las estructuras de los agentes colinérgicos conocidos fueron codificadas por descriptores moleculares. Y luego se aprendió cada interacción de diana farmacológica (DTI) a partir de las estructuras codificadas y sus actividades colinérgicas para construir modelos de clasificación de DTI para cinco dianas colinérgicas con validación estadística fiable (conjunto-AUC: hasta 0,790, MCC: hasta 0,991, precisión: hasta a 0,995). Los clasificadores recopilados se transformaron en metapredictores de tipo matriz 2D o 3D para tareas múltiples: (1) predicción colinérgica y (2) detección de CWA. La capacidad de detección de los clasificadores de matriz se verificó bajo el conjunto de datos desequilibrado entre CWA y ningún CWA (área bajo la curva de recuperación de precisión: hasta 0,997, MCC: hasta 0,638, puntuación F1 de ninguno CWA: hasta 0,991, F1- puntuación de CWA: hasta 0,585).

Los agentes de guerra química (CWA) y los productos químicos peligrosos amenazan la seguridad química1,2. Antes de la convención de armas químicas, los CWA se inventaron y sintetizaron intencionalmente para operaciones militares. Hoy en día, existen preocupaciones sobre las invenciones no intencionales de CWA junto con sus accidentes inesperados a través de (1) química sintética relacionada con CWA conocidos (p. ej., derivados organofosforados)2,3 o (2) químicas para fármacos terapéuticos (p. ej., código BZ asignado por la OTAN) y drogas ilegales4. Terrores en serie como Sarin en Japón en 1994, VX en Malasia en 2017 y Novichok (agente no declarado) en Siria en 2018, hacen que las preocupaciones sobre las armas químicas sean temores factibles5. Además, algunos productos químicos nocivos (como se muestra en la Fig. 1) no se registraron en la lista de organizaciones para la prohibición de las armas químicas (OPAQ, por sus siglas en inglés) de la CWA, pero han provocado devastadoras víctimas y las tragedias continúan: (1) etoxietilo guanidinio (PGH)/polihexametileno guanidina (PHMG), ingredientes de los esterilizadores Reckitt Benckiser, que provocaron la muerte de bebés y mujeres embarazadas por desinfectantes en Corea del Sur6,7, y (2) TCDD, una traza de impureza del agente naranja (herbicida y defoliante químico ) durante la Guerra de Vietnam, que ha promovido la herencia epigenética transgeneracional de enfermedades8,9.

Las amenazas químicas incluyen agentes de guerra química (CWA) que tienen códigos OTAN asignados, estimulantes CWA, nuevas sustancias psicoactivas (NPS) y peligros químicos como PHMG (esterilizador) y TCDD.

Para la seguridad química, los humanos han construido regulaciones o sistemas para controlar el riesgo resultante de los químicos dañinos10,11,12. Con tales sistemas, la detección de agentes peligrosos o sus tecnologías de desintoxicación se han desarrollado continuamente13,14,15,16. A pesar de la historia, la próxima tasa de agentes nocivos es más rápida que la tasa para hacer una regulación o una tecnología de detección. Por ejemplo, entre 2014 y 201717,18,19. Durante estos períodos, cualquier sistema de seguridad no podría controlar adecuada y oportunamente las NSP: su identificación y detección, evaluación de su toxicidad y establecimiento de una regulación20. Naturalmente, los peligros químicos o las sustancias tóxicas no definidas en un sistema no pueden prevenirse, reconocerse ni controlarse21. Por lo tanto, los productos químicos nocivos y peligrosos "aún no existentes pero futuros (productos químicos NE)" deben definirse previamente para la evaluación de riesgos. Sin embargo, la predicción de 'no existente' es vaga e indefinida. Afortunadamente, cuando una máquina aprende las estructuras y propiedades de sustancias químicas dañinas conocidas y analiza sus relaciones, la relación aprendida puede teóricamente sugerir un patrón de sustancias químicas NE22. En otras palabras, una parte del espacio peligroso y tóxico se puede definir mediante el uso de características moleculares (variables) de sustancias químicas conocidas (Fig. 2). Como 'espacio químico' significa que abarca todas las moléculas pequeñas23 posibles, se nombró un espacio tóxico y peligroso que abarca todos los productos químicos tóxicos y peligrosos posibles. Más deseablemente, si la definición se logra idealmente, puede usarse para la regulación preventiva. Con esta consideración, hemos intentado definir una parte del espacio de peligrosidad y toxicidad utilizando metapredictores colinérgicos. En este estudio, el espacio de los agentes pancolinérgicos se define a priori por sus estructuras moleculares, y luego el patrón colinérgico de los agentes nerviosos como CWA en el espacio se aprende mediante una red neuronal convolucional (CNN). El primero es la generación de metapredictores colinérgicos y el segundo es la detección de CWA basada en los metapredictores.

Presentación conceptual del espacio peligroso y tóxico y caracterización molecular de los productos químicos en el espacio.

Para un modelo predictivo, las variables predictoras y las variables dependientes generalmente se eligen (o seleccionan después de la manipulación) de variables de datos sin procesar. Sin embargo, no había información común entre los CWA y los agentes colinérgicos conocidos, y rara vez se disponía de un índice de toxicidad1,2,16,24. Los datos disponibles sobre los agentes colinérgicos fueron sus estructuras y actividades colinérgicas (Fig. 3 y Tabla S1). Mientras tanto, la única información común conocida sobre los CWA y los agentes nocivos era la estructura molecular. Como era de esperar, la vinculación entre los CWA y los datos colinérgicos no produjo ninguna variable común. Por lo tanto, un problema práctico era cómo crear un descriptor unificado (variable predictora) de las sustancias químicas a partir de los datos limitados. Para definir un descriptor unificado, una propiedad importante de los agentes peligrosos y tóxicos es su perfil de toxicidad, junto con la mecánica molecular, para conducir al rescate de la toxicidad. En particular, el mecanismo profundo de la toxicidad respectiva no está claro para la mayoría de los agentes y es diferente entre sí. En los CWA, mientras que algunos agentes nerviosos muestran una alta congenericidad estructural, la estructura del bencilato de 3-quinuclidinilo (código de la OTAN: BZ) es muy diferente a la de otros CWA y es un valor atípico en las estructuras químicas de los CWA. Afortunadamente, los agentes nerviosos presentan mecanismos relativamente más consistentes basados ​​en la acetilcolinesterasa (AChE) en lugar de otros CWA, como agentes ampollares, asfixiantes, agentes asfixiantes (daño pulmonar), agentes incapacitantes, agentes lacrimógenos y agentes vomitadores1,2,25,26. Es bien sabido que los agentes nerviosos y los organofosforados inhiben la AChE en las sinapsis colinérgicas, inhibiendo así la degradación de la acetilcolina (fig. 3A). La acumulación de la acetilcolina liberada provoca una sobreestimulación de los órganos diana, lo que se reconoce como una crisis colinérgica1.

Descripción del espacio colinérgico en este estudio. (A) La ubicación y las funciones de los objetivos colinérgicos en el sistema nervioso. (B) Recopilación de datos de agentes colinérgicos de la base de datos ChEMBL. Todos los agentes se extrajeron utilizando objetivos colinérgicos respectivos como consultas MySQL. Receptor nicotínico de acetilcolinesterasa nAChR, receptor muscarínico de acetilcolinesterasa mAChR, transportador vesicular de acetilcolina VAChT, acetilcolinesterasa AChE, butirilcolinesterasa BuChE.

Por lo tanto, el conocimiento limitado nos motivó a investigar los espacios peligrosos y tóxicos en términos de sus efectos colinérgicos sobre el sistema nervioso (de la Fig. 3). En particular, el objetivo de este estudio no fue solo la predicción colinérgica DTI de sustancias químicas individuales, sino también la detección de CWA de sustancias químicas NE utilizando patrones colinérgicos de sustancias químicas conocidas. Para ello, diseñamos un metapredictor para describir los patrones utilizando la relación estructura-actividad (SAR) de los agentes colinérgicos (fig. 4). Hasta donde sabemos, antes de este estudio, los estudios de metapredictores o metaaprendizaje de datos de bioinformática/quimioinformática (1) utilizan métodos homogéneos iterativamente27, (2) ajustan explícitamente los pesos de los predictores de elementos28,29 o (3) linealmente combinar elementos predictores29. Más notablemente, mientras que tales estudios conocidos utilizaron el mismo conjunto de datos para entrenar predictores y metapredictores, este estudio utilizó dos conjuntos de datos heterogéneos (datos colinérgicos en ChEMBL para predictores y CWA/NPS fuera de ChEMBL para metapredictores). Diseñamos nuestro meta-predictor como se muestra en las siguientes ecuaciones. Mientras que un predictor, \(f\) (de la ecuación 1) usó datos y parámetros como entrada, un meta-predictor, \(g\) también usó predictores de elementos, \(f_{ij}^{{T^{\ prime}}}\) en \(\left[ {i \times j} \right]\) matriz en forma. Así, los autores los llamaron 'meta-predictores'.

Diseño de meta-predictor para multitarea y flujo de trabajo de datos. Flecha azul cielo pálido: flujo de datos para construir modelos DTI colinérgicos, flecha azul: flujo de datos para construir un clasificador de matriz, flecha amarilla: el flujo de datos próximos para tareas múltiples. Lista de modelos = [M1, M2, …, M20], lista de objetivos = [T1, T2, T3, T4, T5], lista de ML = [ML1, ML2, ML3, ML4], lista de semillas = [S1, S2, … , S10], lista compuesta = [C11, C12, …, C21, …, Cij] y lista de valores de predictores = [1, 2].

Prácticamente, en primer lugar, las actividades bioquímicas de los agentes colinérgicos se integraron junto con los descriptores moleculares de una máquina para aprender el SAR. En segundo lugar, los datos de actividad experimental de ChEMBL (una base de datos pública) disciplinaron las máquinas para juzgar la relación entre los cinco objetivos colinérgicos y las sustancias químicas, lo que se denomina interacción de diana farmacológica (DTI). Los modelos DTI entrenados de la Fig. 4 (200 clasificadores de máquinas de cuatro tipos, diez datos divididos de manera diferente y cinco objetivos) se validaron interna y externamente para dilucidar los patrones colinérgicos binomiales (activo/inactivo) de una sustancia química. En tercer lugar, los 200 clasificadores binarios predijeron los patrones colinérgicos de CWA y NPS conocidos como agentes nocivos, y los valores predichos se transformaron en datos de tipo matriz como se muestra en la Fig. 4. Finalmente, los datos de matriz predichos se usaron como meta- predictores para construir el modelo de detección de CWA. Incluso si se desconocen los patrones colinérgicos reales de estos químicos dañinos, un enfoque quimiocéntrico nos permitió inferir el patrón. El enfoque quimiocéntrico significa que si es probable que dos moléculas similares posean propiedades similares, pueden compartir dianas biológicas o pueden mostrar perfiles farmacológicos similares30,31,32,33,34,35. En particular, este estudio utilizó solo dos tipos de datos reales: estructuras químicas de todos los productos químicos (ChEMBL, CWA y NPS) y actividades colinérgicas de los productos químicos ChEMBL (Fig. 3B).

Para realizar el metapredictor diseñado, dos tipos de huellas dactilares moleculares 2D (FCFP, ECFP) capturaron las estructuras moleculares de todos los agentes colinérgicos36. Estas huellas dactilares de clase funcional y conectividad extendida son representaciones moleculares bien conocidas, que describen con precisión la estructura molecular y los grupos funcionales (grupos de átomos que tienen sus propias propiedades características) en una molécula y muestran su desempeño competente en el diseño de fármacos y la predicción a gran escala36 . Por lo tanto, ECFP y FCFP se utilizaron para describir el SAR colinérgico bajo algoritmos de aprendizaje automático (ML) de bosque aleatorio (RF), máquina de vectores de soporte (SVM), árbol de decisión (DT) y k-vecino más cercano (KNN)37,38 ,39. El modelo DTI se entrenó para cada objetivo colinérgico de acetilcolinesterasa (AChE), butirilcolinesterasa (BuChE), receptor de acetilcolinesterasa nicotínico (nAChR), receptor de acetilcolinesterasa muscarínico (mAChR) y transportador de acetilcolina vesicular (VAChT)40. En primer lugar, se evaluó el rendimiento estadístico del clasificador nAChR (Tabla 1 y Tabla S2). Como era de esperar, las gráficas de características operativas del receptor (ROC) de los clasificadores nAChR demostraron la robusta predictibilidad independientemente de la división de datos en entrenamiento y prueba (Tabla S2 y Fig. S2). Cuando se comparó el área bajo ROC (AUC) de los datos de prueba, los modelos RF, SVM y KNN (AUC: 0,961–0,998) produjeron un AUC superior al DT (AUC: 0,739–0,889). Además, aplicamos otras métricas estadísticas, incluida la precisión, la puntuación F1 y el coeficiente de correlación de Matthews (MCC), cuyas puntuaciones informativas y veraces en la evaluación de las clasificaciones binarias son más que la precisión y la puntuación F1. En particular, los valores de MCC de cada modelo fueron confiables (Prueba: MCC ~ 0.438–0.978, Tren: 0.474–0.956), y los valores de MCC de los conjuntos de prueba estaban a la par con los de los conjuntos de trenes. En segundo lugar, el aprendizaje del conjunto de datos mAChR siguió un patrón similar al de los modelos nAChR, junto con un AUC de 0,807 a 0,998 y un MCC de 0,608 a 0,974 (Tabla 1 y Tabla S3). Los modelos mAChR produjeron un rendimiento predictivo ligeramente superior al de los modelos nAChR. El modelo general DT presentó un desempeño menor que los modelos RF, SVM y KNN. En tercer lugar, los modelos BuChE también mostraron un rendimiento de predicción fiable con AUC de 0,771–1,000 y MCC de 0,420–0,986 y ligeramente inferior a los modelos de clasificación de nAChR y mAChR (Tabla 1 y Tabla S5). En cuarto lugar, analizamos más a fondo las métricas de clasificación de los modelos AChE. A pesar del gran tamaño de los datos (n = 3098), el rendimiento de clasificación reveló un rendimiento a la par para AUC de 0,774–0,999 (Tabla 1 y Tabla S4). Finalmente, los modelos VAChT del conjunto de datos más pequeño superan a los de nAChR, mAChR, AChE y BuChE (Tabla 1 y Tabla S6). Para visualizar el poder predictivo de los modelos de DTI colinérgicos, los modelos de mejor rendimiento se describieron mediante valores de conjunto-AUC (Fig. 5 y Tabla S7).

Rendimiento estadístico de los modelos de clasificación DTI. El área bajo la curva característica operativa (AUC) del receptor se calculó en la validación externa e interna de los respectivos objetivos.

La primera tarea del modelo de matriz construido es predecir las actividades colinérgicas de moléculas 'fuera del conjunto (ni de entrenamiento ni de prueba)' en nAChR, mAChR, VAChT, AChE y BUChE (Fig. 4). Para ello, cada clasificador DTI colinérgico ya fue validado en el apartado anterior. Claramente, los CWA y ninguno de los CWA que consisten en NPS y drogas de diseño19 están fuera de los datos colinérgicos de ChEMBL40, ni de los datos de entrenamiento ni de las pruebas. Se predijo que los patrones colinérgicos de los CWA y ninguno de los CWA desempeñarían el papel de metapredictores para la segunda tarea. La segunda tarea del modelo de matriz es juzgar la semejanza de guerra química de las moléculas 'fuera de conjunto'. Para ello, la discriminación entre CWAs y no CWAs fue aprendida por un algoritmo CNN. CNN es un marco de aprendizaje profundo de uso popular para tareas de reconocimiento de objetos, seguimiento de objetos, estimación de poses, detección y reconocimiento de texto, detección de prominencia visual, reconocimiento de acciones, etiquetado de escenas41. LeNet de LeCun et al.42 y AlexNet de Hinton et al.43 inicializaron la popularidad de CNN en el campo de la visión artificial. GoogleNet44, VGGNEt45, ResNet46, etc. La arquitectura CNN elaborada (p. ej., normalización por lotes, filtro, función residual) mejoró la precisión de la predicción. A pesar de la diferencia en el tamaño de los datos, nuestros metapredictores tienen la misma propiedad que una matriz de píxeles binarios con datos escritos a mano del MNIST (28 × 28 píxeles con dos colores), que es un conjunto de datos representativo de los modelos CNN47. La propiedad común nos hizo comparar el aprendizaje basado en imágenes de los datos del MNIST. En primer lugar, nuestros metapredictores se convirtieron a la matriz 2D de una forma de 5 × 4 para el aprendizaje de CNN. Después de la investigación, se eligió la arquitectura de la Fig. 6A (ver también la Fig. S9) para el mejor alumno. Como esperábamos, la matriz 2D detectó de manera confiable los CWA de grandes datos de NPS. Durante el aprendizaje junto con el aumento de la época, los valores de precisión y pérdida alcanzaron sus valores óptimos y retuvieron los valores (Fig. 6B). Con los resultados alentadores, tratamos de ajustar el desequilibrio de datos entre CWA y no CWA a través del muestreo excesivo y el muestreo insuficiente (la eliminación de datos que muestran valores de matriz duplicados). Como se muestra en la Fig. 7, cuando se compararon los datos nativos desequilibrados (Modelo 01) con los datos sobremuestreados equilibrados (Modelo 03), las métricas estadísticas mostraron la desviación con una ligera disminución, pero el área bajo la curva de recuperación de precisión (AUPR) los valores de la Fig. 7A todavía eran comparables entre datos nativos (desequilibrados) y sobremuestreados (equilibrados) para demostrar que estos valores estadísticos no eran simplemente el resultado de desequilibrios de datos. El coeficiente de correlación de Matthews (MCC), la puntuación F1 y la precisión (Fig. 7B) también respaldaron que SMOTE (sobremuestreo) confirmó la capacidad de encontrar CWA48. Además, los dos tipos de muestreo nos permitieron evaluar clasificadores de matriz 2D o 3D de diferentes formas. Cuando cambiamos la forma de la matriz 2D de [50 × 4] a [40 × 5], la capacidad de detección disminuyó drásticamente para revelar la importancia de cómo organizar los predictores de elementos. Si algunos datos muestran una dependencia en el orden entre sus variables (predictores de elementos), los datos pueden llamarse secuenciales. Mientras tanto, cuando convertimos la matriz 2D en matrices 3D, sorprendentemente, el aprendizaje basado en imágenes de forma [10 × 5 × 4] mejoró la puntuación AUPR, MCC y F1 del peor 'Modelo 04' y disminuyó la brecha de rendimiento entre diferentes datos (Fig. 7). Cuando la matriz 3D se transformó en [5 × 10 × 4], también se mantuvo la mejora de estos valores estadísticos. Además, el modelo de perceptrón multicapa (MLP) se construyó a partir de los datos de entrenamiento del modelo CNN con el mismo número de capas. El modelo MLP como línea base mostró una precisión muy inferior y una puntuación F1 más baja que el mejor modelo CNN. En detalle, aunque dos modelos de CNN fueron superiores al modelo MLP, la forma de la matriz aún era importante para brindar un rendimiento mucho mejor que el MLP (Fig. 7C).

Entrenamiento de los tres clasificadores de matriz de formas diferentes (2D, 3D y 3D reformado). (A) Arquitectura CNN en este estudio. (B) Entrenamiento robusto de los modelos CNN con parada anticipada a través de devolución de llamada. Eje X: el número de épocas (unidad de entrenamiento), eje Y: precisión o valores de pérdida (la brecha entre lo real y la predicción), que fueron calculados por una función de pérdida de acuerdo con el muestreo de datos (Modelo 01: nativo, Modelo 02: eliminación de valores de matriz duplicados de los datos del Modelo 01, Modelo 03: sobremuestreo SMOTE de los datos del Modelo 01, Modelo 04: sobremuestreo SMOTE de los datos del Modelo 02).

Rendimiento de detección de CWD de los tres clasificadores de matriz de diferentes formas según el muestreo de datos (Modelo 01 a 04). (A) Curva de recuperación de precisión de los modelos CNN, (B) Rendimiento de los modelos CNN (MCC, puntuación F1 y precisión) y (C) comparación con el perceptrón de varias capas como modelo de referencia.

Según la validación estadística de la Fig. 7 y la Tabla S8, los clasificadores de matriz están listos para la detección CWA de productos químicos NE. Obviamente, este modelo predictivo de amenazas químicas bajo el supuesto quimiocéntrico es discutible debido a los datos disponibles y la imposibilidad de validación experimental. Sin embargo, tal ensayo no es el único. Por ejemplo, la OCDE también desarrolló la caja de herramientas modelo QSAR y la ha proporcionado para la evaluación de riesgos10. Aunque los modelos QSAR típicos pueden garantizar una alta precisión dentro de su dominio de predicción, los modelos QSAR tienen la limitación de un dominio más allá del conjunto de series congenéricas. Por ejemplo, cuando los seis modelos de toxicidad aguda de la caja de herramientas QSAR de la OCDE predijeron CWA, muchos CWA no pudieron devolver los valores predichos debido a que estaban fuera del dominio de predicción y dieron una tasa de falla de ca. 50% (Tabla 2). Así, los estudios innovadores deben superar la limitación de un dominio. Además, los modelos QSAR generalmente no se pueden construir utilizando un método ab initio. Desafortunadamente, el índice de toxicidad de los datos de CWA es raro, no lo suficiente para construir un modelo predictivo confiable. Obviamente, aunque se puede construir un modelo de clasificación, el dominio de predicción aún está sesgado hacia los organofosforados. Por lo tanto, sugerimos metapredictores colinérgicos para investigar la composición de la limitación de datos actual. La diferencia notable entre este estudio y los modelos QSAR típicos es la definición de variable dependiente y variable independiente. Los modelos QSAR típicos utilizan el "índice de toxicidad/actividad experimental" como variable dependiente y la "estructura química y sus descriptores" como variables independientes. Mientras tanto, el modelo CNN de este estudio no utilizó estructuras químicas ni sus descriptores moleculares. La codificación de estructuras químicas fue reemplazada por meta-predictores colinérgicos. Debido a que la información actual sobre el mecanismo de los CWA está enriquecida con AchE y efectos colinérgicos, este estudio solo describió patrones colinérgicos para detectar amenazas químicas. En el futuro, si se actualizan los datos, esta metodología podría ser aplicable a otros efectos farmacológicos de sustancias químicas nocivas conocidas, como la actividad de la lipasa de monoacilglicerol (MAG) cerebral y la enzima degradadora de endocannabinoides, la amida hidrolasa de ácidos grasos (FAAH), que son mecanismos de toxicidad informados recientemente. de plaguicidas organofosforados2,16. Incluso si se informara la inhibición de MAG y FAAH de los insecticidas, dicho ensayo sería más factible después de actualizar los datos (de los agentes MAG o FAAH) tanto como los de los agentes colinérgicos.

A pesar de los datos extremadamente desequilibrados, el patrón colinérgico de los CWA se aprendió a través de metapredictores de tipo matriz para lograr un rendimiento predictivo aceptable. Además, el aprendizaje permite la multitarea para un químico: predicción DTI para cinco objetivos colinérgicos bajo cuatro algoritmos ML y detección CWA bajo el algoritmo CNN. Mientras que la primera tarea se verificó a través de la validación interna y externa del clasificador DTI respectivo, la última tarea se validó utilizando CWA y no CWA. En particular, este estudio sugiere un nuevo método para describir agentes nocivos que tienen información limitada sobre su relación cuantitativa estructura-toxicidad. Por lo tanto, contribuye a la investigación que controla y predice las amenazas químicas de los productos químicos NE en el futuro reciente.

Cualquier algoritmo de aprendizaje automático se basa inextricablemente en la estructura y los datos de actividad informados. En los últimos años, las bases de datos de ChEMBL se han convertido en una fuente principal para recuperar datos químicos para aplicaciones de aprendizaje automático. En este documento, se seleccionó la versión 2449 de la base de datos ChEMBL para recuperar los datos estructurales y de propiedades de los agentes colinérgicos (nAChR, mAChR, VAChT, AChE y BUChE) con la consulta MySQL que consta de estructuras moleculares (sonrisas canónicas), ID de actividad, valores estándar de actividades inhibitorias con relación estándar y unidad estándar (nanomolar), ID de ensayo e ID de objetivo. Además, las estructuras moleculares de CWA y NPS se recopilaron de la literatura1,2,19 y NPS-datahub50. Cada manipulación de datos (clasificación, fusión, limpieza de datos duplicados y binominalización) fue realizada por la plataforma analítica KNIME51. La sección complementaria describe la composición de los productos químicos en cada objetivo. En resumen, se seleccionaron un número total de 1818, 6944, 3098, 1382, 302, 95 y 3126 productos químicos pertenecientes a nAChR, mAChR, AChE, BuChE, VAChT, CWA y NPS, respectivamente.

Seleccione x.molregno,canonical_smiles, activity_id,y.assay_id, standard_value, standard_relation, standard_units, i.tid, k.target_type, k.pref_name, k.organism From compound_structures x, actividades y, ensayos i, target_dictionary k.

Donde x.molregno = y.molregno and y.assay_id = i.assay_id and i.tid = k.tid and k.tid = 10532 INTO outfile campos "chembl_target_BuChE.csv" terminados en ',' líneas terminadas en '/n' ;

Se generaron ocho huellas digitales moleculares 2D de cada dato químico con (1) dos tipos, huella digital de conectividad extendida (ECFP) y huella digital de clase funcional (FCFP), y (2) 4 diámetros diferentes (0, 2, 4, 6) bajo un tamaño de vector fijo de 1024 bits. En particular, ECFP captura propiedades atómicas precisas (p. ej., número atómico, carga, cantidad de hidrógeno, etc.), mientras que FCFP captura características funcionales (farmacofóricas) (es decir, donante/aceptor de hidrógeno, polaridad, aromaticidad, etc.) de los átomos en una molécula. El kit de herramientas CDK52 se utilizó para ambos cálculos de huellas dactilares. Las huellas dactilares generadas se dividieron y combinaron con los respectivos valores de actividad binomial en una matriz de datos integrada para el aprendizaje.

Cuatro algoritmos de aprendizaje automático (bosque aleatorio, árbol de decisiones, máquina de vectores de soporte y k-vecino más cercano) aplicados en la matriz de datos con 10 números semilla aleatorios diferentes para construir un modelo de clasificación en el paquete de entrenamiento de clasificación y regresión (CARET) de R ambiente. Cada modelo fue validado interna y externamente en la condición de una relación de división de 70:30 entre entrenamiento y prueba y métodos de validación cruzada k-fold (k = 10). En resumen, en la validación cruzada de k veces, los datos de entrada se dividen aleatoriamente en k submuestras de igual tamaño. Una de las k submuestras se conserva como datos de validación para probar el modelo, mientras que las k-1 submuestras restantes se utilizan como datos de entrenamiento. Este procedimiento de validación cruzada de k veces se repite k veces (las veces), y cada una de las k submuestras se usa exactamente una vez como datos de validación.

Los modelos construidos generaron metapredictores (metadatos) de 200 bits binarios (5 objetivos colinérgicos × 4 métodos de aprendizaje automático × 10 números de semillas). Los metadatos se incrustaron a través de varias matrices de formas de ([50 × 4], [5 × 10 × 4], [10 × 5 × 4]). El modelo CNN, que se compone de diferentes capas convolucionales, de agrupación, planas y densas, se construyó con los hiperparámetros de un máximo de 100 épocas, un tamaño de lote de 32 y una tasa de aprendizaje de 0,01 con el optimizador Adam53. Los criterios de EarlyStopping se introdujeron para evitar que los modelos de CNN se sobreajusten y terminar el aprendizaje antes de tiempo. La función de activación 'Softmax' se utilizó para definir la distribución de probabilidad de la semejanza con la guerra química54. El rendimiento del aprendizaje y la solidez se midieron mediante la precisión y los valores de pérdida a medida que aumentaba el número de época. Se utilizó entropía cruzada binaria como función de pérdida para medir la desviación entre los valores de clase predichos y reales.

El rendimiento de cada modelo se evaluó utilizando tres métricas de clasificación, es decir, el coeficiente de correlación de Matthews (MCC), la precisión, el área bajo la curva característica operativa del receptor (AUC) basada en verdadero positivo (TP), verdadero negativo (TN), falso positivo (FP ), falso negativo (FN). Estas métricas evalúan el rendimiento estadístico y la solidez de los modelos construidos.

Cada autor aceptó los estándares éticos de un estudio de investigación genuino.

El código de Python y los datos refinados estarán disponibles en GitHub. https://github.com/college-of-pharmacy-gachon-university/Array_Classifier.

Chauhan, S. et al. Agentes de guerra química. Reinar. Toxicol. Farmacol. 26, 113–122. https://doi.org/10.1016/j.etap.2008.03.003 (2008).

Artículo CAS PubMed Google Académico

Kim, K., Tsay, OG, Atwood, DA & Churchill, DG Destrucción y detección de agentes de guerra química. química Rev. 111, 5345–5403. https://doi.org/10.1021/cr100193y (2011).

Artículo CAS PubMed Google Académico

Lin, TJ et al. Epidemiología de la intoxicación por pesticidas organofosforados en Taiwán. clin. Toxicol. 46, 794–801. https://doi.org/10.1080/15563650801986695 (2008).

Artículo Google Académico

Ganesan, K., Raza, S. y Vijayaraghavan, R. Agentes de guerra química. J. Pharm. Bioall. ciencia 2, 166. https://doi.org/10.4103/0975-7406.68498 (2010).

Artículo CAS Google Académico

Munro, N. Toxicidad de los agentes de guerra química organofosforados GA, GB y VX: implicaciones para la protección pública. Reinar. Perspectiva de Salud. 102, 18–37. https://doi.org/10.1289/ehp.9410218 (1994).

Artículo CAS PubMed PubMed Central Google Scholar

Se estima que 14,000 personas murieron por el escándalo del desinfectante del humidificador: estudio. Agencia de noticias Yonhap (consultado el 28 de marzo de 2022); https://en.yna.co.kr/view/AEN20200727006300315

Paek, D. et al. Estudio nacional de lesión pulmonar por desinfectante de humidificador en Corea del Sur, 1994-2011: relaciones de incidencia y dosis-respuesta. Ana. ATS 12, 1813–1821. https://doi.org/10.1513/AnnalsATS.201504-221OC (2015).

Artículo Google Académico

Herbicidas, I. de M. (US) C. a R. HE en VV de E. a (1994). Historia de la controversia sobre el uso de herbicidas. National Academies Press (EE. UU.) (consultado el 14 de julio de 2021); https://www.ncbi.nlm.nih.gov/books/NBK236351/

Manikkam, M., Tracey, R., Guerrero-Bosagna, C. & Skinner, MK La dioxina (TCDD) induce la herencia transgeneracional epigenética de la enfermedad de inicio en adultos y las epimutaciones de esperma. PLoS ONE 7, e46249. https://doi.org/10.1371/journal.pone.0046249 (2012).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Evaluación de productos químicos - OCDE (consultado el 28 de marzo de 2022); https://www.oecd.org/chemicalsafety/risk-assessment/

Gestión de riesgos de productos químicos - OCDE (consultado el 28 de marzo de 2022); https://www.oecd.org/chemicalsafety/risk-management/

Schmidt, CW TSCA 2.0: Una nueva era en la gestión de riesgos químicos. Reinar. Perspectiva de Salud. 124, A182–A186. https://doi.org/10.1289/ehp.124-A182 (2016).

Artículo PubMed PubMed Central Google Académico

Gharami, S., Aich, K., Das, S., Patra, L. y Mondal, TK Detección fácil de imitadores de agentes nerviosos organofosforados (DCP) a través de un nuevo interruptor radiométrico basado en quinolina. Nueva J. Chem. 43, 8627–8633. https://doi.org/10.1039/C9NJ02218J (2019).

Artículo CAS Google Académico

Agrawal, M., Sava Gallis, DF, Greathouse, JA y Sholl, DS ¿Cuán útiles son los simuladores comunes de agentes de guerra química para predecir el comportamiento de adsorción? J. física. química C 122, 26061–26069. https://doi.org/10.1021/acs.jpcc.8b08856 (2018).

Artículo CAS Google Académico

Mondloch, JE et al. Destrucción de agentes de guerra química utilizando estructuras metal-orgánicas. Nat. Mater 14, 512–516. https://doi.org/10.1038/nmat4238 (2015).

Artículo ADS CAS PubMed Google Scholar

Eddleston, M. Novela toxicología clínica y farmacología de la autointoxicación con insecticidas organofosforados. año Rev. Pharmacol. Toxicol. 59, 341–360. https://doi.org/10.1146/annurev-pharmtox-010818-021842 (2019).

Artículo CAS PubMed Google Académico

Observatorio Europeo de las Drogas y las Toxicomanías. (2015). Nuevas sustancias psicoactivas en Europa: una actualización del Sistema de Alerta Temprana de la UE, marzo de 2015. LU: Oficina de Publicaciones (consultado el 27 de marzo de 2022); https://doi.org/10.2810/372415

Observatorio Europeo de las Drogas y las Toxicomanías. y Oficina Europea de Policía. (2016). Informe sobre los mercados de drogas de la UE de 2016: análisis en profundidad. LU: Oficina de Publicaciones (consultado el 27 de marzo de 2022); https://doi.org/10.2810/219411

Urbas, A. et al. NPS Data Hub: un repositorio de datos analíticos impulsado por la comunidad basado en la web para nuevas sustancias psicoactivas. Para. química 9, 76–81. https://doi.org/10.1016/j.forc.2018.05.003 (2018).

Artículo CAS Google Académico

Shafi, A., Berry, AJ, Sumnall, H., Wood, DM y Tracy, DK Nuevas sustancias psicoactivas: revisión y actualizaciones. El r. Adv. Psicofarmaco. 10, 2045125320967197. https://doi.org/10.1177/2045125320967197 (2020).

Artículo PubMed PubMed Central Google Académico

Chemical Network Algorithms for the Risk Assessment and Management of Chemical Threats - Fuller - 2012 - Angewandte Chemie International Edition - Wiley Online Library (consultado el 28 de marzo de 2022); https://doi.org/10.1002/anie.201202210

Carbó-Dorca, R. Determinación de propiedades moleculares desconocidas en espacios moleculares. J. Matemáticas. química 60, 353–359 (2022).

Artículo MathSciNet Google Académico

Dobson, CM Espacio químico y biología. Naturaleza 432, 824–828. https://doi.org/10.1038/nature03192 (2004).

Artículo ADS CAS PubMed Google Scholar

https://www.opcw.org/convencion-de-armas-quimicas

Casida, JE Toxicología xenobiótica organofosforada. año Rev. Pharmacol. Toxicol. 57, 309–327. https://doi.org/10.1146/annurev-pharmtox-010716-104926 (2017).

Artículo CAS PubMed Google Académico

Picard, B., Chataigner, I., Maddaluno, J. & Legros, J. Introducción a los agentes de guerra química, simulantes relevantes y métodos modernos de neutralización. 10 (2019).

Hansen, JV Combinación de predictores: Comparación de cinco métodos de meta aprendizaje automático. información ciencia 119, 91–105 (1999).

Artículo Google Académico

Wan, J. et al. Metapredicción de sitios de fosforilación con votación ponderada y selección de parámetros de búsqueda de cuadrícula restringida. Ácidos Nucleicos Res. 36, e22–e22 (2008).

Artículo Google Académico

Manavalan, B., Basith, S., Shin, TH, Wei, L. & Lee, G. mAHTPred: un metapredictor basado en secuencias para mejorar la predicción de péptidos antihipertensivos utilizando una representación de características efectiva. Bioinformática 35, 2757–2765 (2019).

Artículo CAS Google Académico

Keiser, MJ et al. Relacionar la farmacología de proteínas por la química de ligandos. Nat. Biotecnología. 25, 197–206. https://doi.org/10.1038/nbt1284 (2007).

Artículo CAS PubMed Google Académico

La caja de herramientas QSAR de la OCDE utilizó el supuesto quimiocéntrico - OCDE (consultado el 28 de marzo de 2022); https://www.oecd.org/chemicalsafety/risk-assessment/oecd-qsar-toolbox.htm

Venkanna, A. et al. Uso farmacológico de un andamio novedoso, N, N-diarilamino tetrahidropirano anomérico: búsqueda de similitud molecular, perfilado de objetivos quimiocéntricos y evidencia experimental. ciencia Rep. 7, 12535. https://doi.org/10.1038/s41598-017-12082-3 (2017).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Kumar, S., Jang, C., Subedi, L., Kim, SY y Kim, M. Reutilización de los sistemas de anillo aprobados por la FDA a través de la detección dual bidireccional del sistema de anillo objetivo. ciencia Rep. 10, 21133. https://doi.org/10.1038/s41598-020-78077-9 (2020).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Lee, S.-H., Ahn, S. y Kim, M. Comparación de un compuesto de consulta con clases de objetivos de fármacos mediante la similitud química 3D. En t. J. Mol. ciencia 21, 4208. https://doi.org/10.3390/ijms21124208 (2020).

Artículo PubMed Central Google Académico

Dhorma, LP y col. Posicionamiento de un andamio de 1,5-oxaza espiroquinona sin precedentes en inhibidores de SMYD2 en el espacio epigenético. EUR. J.Med. química 227, 113880. https://doi.org/10.1016/j.ejmech.2021.113880 (2022).

Artículo CAS PubMed Google Académico

Rogers, D. & Hahn, M. Huellas dactilares de conectividad extendida. J. Chem. información Modelo. 50, 742–754. https://doi.org/10.1021/ci100050t (2010).

Artículo CAS PubMed Google Académico

Kumar, S. & Kim, M. SMPLIP-Score: predicción de la afinidad de unión de ligandos a partir de descriptores de patrones de huellas dactilares de interacción simples e interpretables sobre la marcha. J. Cheminform. 13, 28. https://doi.org/10.1186/s13321-021-00507-1 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Lee, J., Kumar, S., Lee, S.-Y., Park, SJ y Kim, M. Desarrollo de modelos predictivos para identificar posibles inhibidores de S100A9 basados ​​en métodos de aprendizaje automático. Frente. química https://doi.org/10.3389/fchem.2019.00779 (2019).

Artículo PubMed PubMed Central Google Académico

Sadik, O. et al. Detección y clasificación de simuladores de agentes nerviosos organofosforados utilizando máquinas de vectores de soporte con sensores multiarray. J. Chem. información computar ciencia 44, 499–507. https://doi.org/10.1021/ci034220i (2004).

Artículo CAS PubMed Google Académico

Gaulton, A. et al. La base de datos ChEMBL en 2017. Nucleic Acids Res. 45(D1), D945–D954 (2017).

Artículo CAS Google Académico

Aloysius, N. & Geetha, M. Una revisión sobre redes neuronales convolucionales profundas. En t. Conf. común Proceso de señal. (ICCSP) 2017, 0588–0592. https://doi.org/10.1109/ICCSP.2017.8286426 (2017).

Artículo Google Académico

LeCun, Y. et al. Reconocimiento de dígitos escritos a mano con una red de retropropagación. Avances en los sistemas de procesamiento de información neural 2, (1989).

Krizhevsky, A., Sutskever, I. & Hinton, GE Clasificación Imagenet con redes neuronales convolucionales profundas. Avances en los sistemas de procesamiento de información neuronal 25, (2012).

Szegedy, C. et al. Profundizando con las circunvoluciones. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones 1–9 (2015).

Simonyan, K. & Zisserman, A. Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala. Preimpresión arXiv:1409.1556 (2014).

He, K., Zhang, X., Ren, S. y Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones 770–778 (2016).

Deng, L. La base de datos mnist de imágenes de dígitos escritos a mano para la investigación de aprendizaje automático. Proceso de señal IEEE. revista 29(6), 141–142 (2012).

Artículo ANUNCIOS Google Académico

Chawla, NV, Bowyer, KW, Hall, LO & Kegelmeyer, WP SMOTE: Técnica de sobremuestreo minoritario sintético. J. Artif. En t. Res. 16(1), 321–357 (2002).

Matemáticas Google Académico

Base de datos ChEMBL (consultado el 28 de marzo de 2022); https://www.ebi.ac.uk/chembl/

https://www.emcdda.europa.eu, https://nps-datahub.com/

Berthold, MR et al. KNIME, el minero de información de Constanza: versión 2.0 y posteriores. AcM SIGKDD Explorar. Boletín. 11(1), 26–31 (2009).

Artículo Google Académico

Steinbeck, C. et al. El kit de desarrollo de química (CDK): una biblioteca Java de código abierto para quimio y bioinformática. J. Chem. información computar ciencia 43(2), 493–500. https://doi.org/10.1021/ci025584y (2003).

Artículo CAS PubMed PubMed Central Google Scholar

Kingma, DP & Ba, J. Adam: Un método para la optimización estocástica. https://doi.org/10.48550/arxiv.1412.6980. (2014).

Goodfellow, I., Bengio, Y. & Courville, A. 6.2.2.3 Unidades Softmax para distribuciones de salida Multinoulli. Aprendizaje profundo 180–184 (MIT Press, 2016).

Google Académico

Descargar referencias

Los autores desean agradecer los útiles consejos del Prof. Young Mi Yoon.

Este estudio fue apoyado por el Programa de Investigación de Ciencias Básicas de la Fundación Nacional de Investigación de Corea (NRF), que está financiado por el Ministerio de Educación, Ciencia y Tecnología (No.: 2017R1E1A1A01076642, 2020R1I1A1A01074750).

Estos autores contribuyeron por igual: Surendra Kumar y Chandni Kumari.

Departamento de Farmacia, Instituto de Ciencias Farmacéuticas de Gachon, Facultad de Farmacia, Universidad de Gachon, 191 Hambakmoeiro, Yeonsu-gu, Incheon, República de Corea

Surendra Kumar, Chandni Kumari, Sangjin Ahn y Mi-hyun Kim

Departamento de Inteligencia Artificial, Universidad Ajou, Suwon, 16499, República de Corea

Sang Jin Ahn

Departamento de Gestión de Datos, KEIS, 56 Mullae-ro 20-gil, Yeongdeungpo-gu, Seúl, República de Corea

Hyungrae Kim

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

MK concibió y diseñó el estudio. Según el plan de MK, CK y SK llevaron a cabo todo el trabajo de modelado y datos. MK, CK y SK analizaron los datos. SA ayudó a construir la arquitectura de CNN. HK aconsejó la evaluación del modelo CNN y la arquitectura revisada. MK y SK escribieron el manuscrito y lo revisaron. MK proporcionó el laboratorio de modelado molecular y las instalaciones de trabajo de investigación sintética. Todos los autores leyeron y aprobaron el manuscrito final. Todos los autores estuvieron de acuerdo con el envío a la Revista y la autoría.

Correspondencia a Mi-hyun Kim.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Kumar, S., Kumari, C., Ahn, S. et al. Predicción de agentes de guerra química basada en meta-predictores del tipo matriz colinérgica. Informe científico 12, 16709 (2022). https://doi.org/10.1038/s41598-022-21150-2

Descargar cita

Recibido: 15 junio 2022

Aceptado: 23 de septiembre de 2022

Publicado: 06 octubre 2022

DOI: https://doi.org/10.1038/s41598-022-21150-2

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.