Active learning simulado
De 30 candidatos computacionales a una tanda de 10 ensayos simulados para aprender que merece optimizacion.
Analogía con SPEL y ProteoGPT-like
Este modulo refactoriza el active learning como un bucle modelo-laboratorio-modelo: generar/priorizar, ensayar una tanda limitada y usar el feedback para decidir la siguiente iteracion.
Ciclo de aprendizaje
No se ensaya todo: se combina explotacion de los mejores scores con exploracion de diversidad para aprender mas con menos laboratorio.
Clasificacion wet lab
Aprendizaje para la siguiente ronda
- Optimizar analogos cercanos a los candidatos promising manteniendo carga y reduciendo longitud si es posible.
- Explorar variantes menos hidrofobicas de candidatos activos pero toxicos.
- Usar perfiles seguros de baja actividad como region segura, pero aumentar carga o anfipaticidad simulada.
Resultados simulados
Cada fila representa un candidato seleccionado para una primera tanda ficticia de sintesis y ensayo.
| Seleccion | Secuencia | MIC CRAB | MIC CRE | MIC CRPA | Hemolisis | Citotoxicidad | Estabilidad | Clase |
|---|---|---|---|---|---|---|---|---|
| explotacion | HRARMWVKRRQ |
4.0 | 2.0 | 2.0 | 21.6% | 7.7% | 85.2% | activo toxico |
| explotacion | SIQIMERKRIAMKKRLHKFQMPK |
1.0 | 2.0 | 1.0 | 9.9% | 14.9% | 73.3% | prometedor |
| explotacion | WKYHIKINQVHSVSIRH |
0.5 | 4.0 | 8.0 | 6.7% | 4.2% | 54.0% | prometedor |
| explotacion | CCIHTFIKKNKKAQMRRQSLFA |
8.0 | 8.0 | 2.0 | 17.6% | 13.0% | 57.6% | seguro baja actividad |
| explotacion | INMKAWHAWMGCANHHKRMRTQER |
2.0 | 2.0 | 4.0 | 10.7% | 8.7% | 56.2% | prometedor |
| explotacion | NNIAIVFGPHKHVLRLHGRKSK |
4.0 | 4.0 | 2.0 | 23.5% | 29.0% | 77.3% | activo toxico |
| exploracion | HEMKMRAKMHEVTE |
4.0 | 16.0 | 4.0 | 4.5% | 27.5% | 71.1% | activo toxico |
| exploracion | SNCFVFFSEFIQNWKAMKILHKSQDKKYTK |
4.0 | 2.0 | 16.0 | 15.1% | 33.2% | 44.5% | activo toxico |
| exploracion | HLNNLISTKWMVFKHNT |
1.0 | 8.0 | 8.0 | 17.0% | 19.1% | 47.3% | seguro baja actividad |
| exploracion | HWWRSFQTLH |
2.0 | 2.0 | 4.0 | 3.7% | 9.3% | 59.0% | prometedor |
README del modulo
07 Active learning simulado
Este modulo simula el siguiente cuello de botella tras el embudo de peptidos:
Ya tenemos 30 candidatos computacionales, pero el laboratorio no puede ensayarlo todo. Hay que escoger bien la primera tanda.
Objetivo
Simular una primera ronda de laboratorio humedo ficticio a partir de la shortlist del modulo 06_problema_cientifico_ia.
Este modulo tambien sirve para explicar el puente con enfoques tipo SPEL: no basta con generar candidatos mediante un Protein LLM o ProteoGPT-like. Hay que seleccionar una tanda experimental, medir actividad/toxicidad/estabilidad y usar ese feedback para decidir la siguiente iteracion.
El flujo didactico es:
Shortlist computacional de 30 peptidos
|
v
Seleccion de 10 candidatos
- 6 por explotacion: mejor score
- 4 por exploracion: diversidad de longitud, carga e hidrofobicidad
|
v
Wet lab simulado
- MIC frente a CRAB/CRE/CRPA
- Hemolisis
- Citotoxicidad
- Estabilidad serica
|
v
Clasificacion
- promising
- active_but_toxic
- safe_low_activity
- discard
|
v
Recomendaciones para segunda ronda
Que aprende el modelo
La simulacion muestra la idea de active learning: no siempre se eligen solo los mejores scores. Tambien interesa ensayar candidatos diversos para aprender que regiones del espacio de secuencias merecen explorarse o descartarse.
En PROTEONEXT, el equivalente real exigiria:
- criterios definidos por socios cientificos,
- sintesis real de peptidos,
- ensayos MIC/MBC,
- hemolisis, citotoxicidad y estabilidad,
- registro de resultados con trazabilidad,
- reentrenamiento o repriorizacion gobernada.
Aqui todo eso se reduce a una simulacion pedagogica para entender el patron de decision.
Ejecutar
Desde Desarrollo:
& 'C:\ProgramData\miniconda3\python.exe' .\07_active_learning_simulado\simular_active_learning.py
Salidas:
salida/resultados_wetlab_simulados.csvsalida/active_learning_resumen.json
Disclaimer
Los resultados son sinteticos y pedagogicos. No hay actividad antimicrobiana real, no hay ensayos reales y no hay valor clinico o biologico.