Ruta de aprendizaje

Analogía con SPEL y ProteoGPT-like

Este modulo refactoriza el active learning como un bucle modelo-laboratorio-modelo: generar/priorizar, ensayar una tanda limitada y usar el feedback para decidir la siguiente iteracion.

Generar y priorizar Un modelo tipo ProteoGPT propone candidatos; filtros y scores reducen el espacio de busqueda.
Ensayar poco y bien El laboratorio real mediria MIC/MBC, toxicidad y estabilidad. Aqui todo es simulado para entender el proceso.
Aprender la siguiente ronda Los resultados guian nuevas reglas, reentrenamiento o repriorizacion bajo gobierno y trazabilidad.
Shortlist computacional30
Candidatos ensayados10
Prometedores4

Ciclo de aprendizaje

No se ensaya todo: se combina explotacion de los mejores scores con exploracion de diversidad para aprender mas con menos laboratorio.

30candidatos de entrada
10seleccionados
10ensayos simulados
3recomendaciones

Clasificacion wet lab

activo toxico
4
prometedor
4
seguro baja actividad
2

Aprendizaje para la siguiente ronda

  • Optimizar analogos cercanos a los candidatos promising manteniendo carga y reduciendo longitud si es posible.
  • Explorar variantes menos hidrofobicas de candidatos activos pero toxicos.
  • Usar perfiles seguros de baja actividad como region segura, pero aumentar carga o anfipaticidad simulada.

Resultados simulados

Cada fila representa un candidato seleccionado para una primera tanda ficticia de sintesis y ensayo.

Seleccion Secuencia MIC CRAB MIC CRE MIC CRPA Hemolisis Citotoxicidad Estabilidad Clase
explotacion HRARMWVKRRQ 4.0 2.0 2.0 21.6% 7.7% 85.2% activo toxico
explotacion SIQIMERKRIAMKKRLHKFQMPK 1.0 2.0 1.0 9.9% 14.9% 73.3% prometedor
explotacion WKYHIKINQVHSVSIRH 0.5 4.0 8.0 6.7% 4.2% 54.0% prometedor
explotacion CCIHTFIKKNKKAQMRRQSLFA 8.0 8.0 2.0 17.6% 13.0% 57.6% seguro baja actividad
explotacion INMKAWHAWMGCANHHKRMRTQER 2.0 2.0 4.0 10.7% 8.7% 56.2% prometedor
explotacion NNIAIVFGPHKHVLRLHGRKSK 4.0 4.0 2.0 23.5% 29.0% 77.3% activo toxico
exploracion HEMKMRAKMHEVTE 4.0 16.0 4.0 4.5% 27.5% 71.1% activo toxico
exploracion SNCFVFFSEFIQNWKAMKILHKSQDKKYTK 4.0 2.0 16.0 15.1% 33.2% 44.5% activo toxico
exploracion HLNNLISTKWMVFKHNT 1.0 8.0 8.0 17.0% 19.1% 47.3% seguro baja actividad
exploracion HWWRSFQTLH 2.0 2.0 4.0 3.7% 9.3% 59.0% prometedor

README del modulo

07 Active learning simulado

Este modulo simula el siguiente cuello de botella tras el embudo de peptidos:

Ya tenemos 30 candidatos computacionales, pero el laboratorio no puede ensayarlo todo. Hay que escoger bien la primera tanda.

Objetivo

Simular una primera ronda de laboratorio humedo ficticio a partir de la shortlist del modulo 06_problema_cientifico_ia.

Este modulo tambien sirve para explicar el puente con enfoques tipo SPEL: no basta con generar candidatos mediante un Protein LLM o ProteoGPT-like. Hay que seleccionar una tanda experimental, medir actividad/toxicidad/estabilidad y usar ese feedback para decidir la siguiente iteracion.

El flujo didactico es:

Shortlist computacional de 30 peptidos
        |
        v
Seleccion de 10 candidatos
        - 6 por explotacion: mejor score
        - 4 por exploracion: diversidad de longitud, carga e hidrofobicidad
        |
        v
Wet lab simulado
        - MIC frente a CRAB/CRE/CRPA
        - Hemolisis
        - Citotoxicidad
        - Estabilidad serica
        |
        v
Clasificacion
        - promising
        - active_but_toxic
        - safe_low_activity
        - discard
        |
        v
Recomendaciones para segunda ronda

Que aprende el modelo

La simulacion muestra la idea de active learning: no siempre se eligen solo los mejores scores. Tambien interesa ensayar candidatos diversos para aprender que regiones del espacio de secuencias merecen explorarse o descartarse.

En PROTEONEXT, el equivalente real exigiria:

  • criterios definidos por socios cientificos,
  • sintesis real de peptidos,
  • ensayos MIC/MBC,
  • hemolisis, citotoxicidad y estabilidad,
  • registro de resultados con trazabilidad,
  • reentrenamiento o repriorizacion gobernada.

Aqui todo eso se reduce a una simulacion pedagogica para entender el patron de decision.

Ejecutar

Desde Desarrollo:

& 'C:\ProgramData\miniconda3\python.exe' .\07_active_learning_simulado\simular_active_learning.py

Salidas:

  • salida/resultados_wetlab_simulados.csv
  • salida/active_learning_resumen.json

Disclaimer

Los resultados son sinteticos y pedagogicos. No hay actividad antimicrobiana real, no hay ensayos reales y no hay valor clinico o biologico.