Generar es facil; priorizar es dificil
Simulacion de 10.000 peptidos sinteticos para entender por que el problema no es producir secuencias, sino decidir que merece sintesis y ensayo.
Que problema atacamos
AMR crea infecciones con pocas opciones terapeuticas. Los cientificos deben conectar datos dispersos, priorizar aislados y escoger candidatos con margen experimental limitado.
Donde ayuda IA
La IA puede reducir el espacio de busqueda, filtrar secuencias, priorizar candidatos y orientar active learning, pero la validacion sigue siendo experimental.
Donde ayuda GPT-5.5/Codex
GPT-5.5/Codex ayuda a construir la plataforma, documentar, simular, programar, probar y explicar. No sustituye modelos biomoleculares ni laboratorio humedo.
ProteoGPT-like dentro de PROTEONEXT
PROTEONEXT no es ProteoGPT 2.0: es una plataforma soberana que podria encapsular modelos protein LLM especializados y conectarlos con datos AMR federados, gobierno, MLOps y validacion experimental.
Embudo de priorizacion
Cada etapa descarta candidatos. El salto importante es que una shortlist computacional todavia no es evidencia biologica.
Top 30 candidatos didacticos
Estos candidatos son utiles para inspeccionar el scoring, no para tomar decisiones cientificas reales.
| # | Secuencia | Score | Longitud | Carga | Hidrofobicidad | Solubilidad proxy | Toxicidad proxy |
|---|---|---|---|---|---|---|---|
| 1 | HRARMWVKRRQ |
99.8 | 11 | +6 | 0.36 | 0.82 | 0.00 |
| 2 | SIQIMERKRIAMKKRLHKFQMPK |
99.7 | 23 | +8 | 0.39 | 0.82 | 0.00 |
| 3 | WKYHIKINQVHSVSIRH |
99.0 | 17 | +6 | 0.35 | 0.78 | 0.00 |
| 4 | CCIHTFIKKNKKAQMRRQSLFA |
98.8 | 22 | +7 | 0.36 | 0.76 | 0.00 |
| 5 | INMKAWHAWMGCANHHKRMRTQER |
98.7 | 24 | +7 | 0.38 | 0.76 | 0.00 |
| 6 | NNIAIVFGPHKHVLRLHGRKSK |
98.5 | 22 | +8 | 0.36 | 0.75 | 0.00 |
| 7 | KMIAKNRCVHHRGNKVTTIVI |
98.4 | 21 | +7 | 0.38 | 0.74 | 0.00 |
| 8 | HSFDHRTMHFFAK |
98.3 | 13 | +4 | 0.38 | 0.74 | 0.00 |
| 9 | SIALDAWSHHQSHQRWHIMASQKVKNLVC |
98.3 | 29 | +6 | 0.41 | 0.74 | 0.00 |
| 10 | MVCDWKKIWKNGHLNKRSVR |
98.3 | 20 | +6 | 0.35 | 0.74 | 0.00 |
| 11 | IFKDKVMYHLLWKTASTKHHD |
98.1 | 21 | +5 | 0.38 | 0.73 | 0.00 |
| 12 | HKHFITVDNLINSLLTRKSC |
98.0 | 20 | +4 | 0.35 | 0.72 | 0.00 |
| 13 | SNCFVFFSEFIQNWKAMKILHKSQDKKYTK |
98.0 | 30 | +5 | 0.37 | 0.72 | 0.00 |
| 14 | KGHSATRHKTIHVAVHAVPEFVDTGQATRV |
98.0 | 30 | +6 | 0.37 | 0.72 | 0.00 |
| 15 | FLNRFIKNKVHDHPKV |
97.9 | 16 | +5 | 0.38 | 0.72 | 0.00 |
| 16 | GILHWRQKYKAKCPHFERWRAKEAMFWHFN |
97.9 | 30 | +8 | 0.40 | 0.72 | 0.00 |
| 17 | RHSHKWPFWITTVRRIHFAPAWWNPKGN |
97.9 | 28 | +8 | 0.39 | 0.71 | 0.00 |
| 18 | HLNNLISTKWMVFKHNT |
97.8 | 17 | +4 | 0.41 | 0.71 | 0.00 |
| 19 | MNTVAIKTFHLHGNKHE |
97.8 | 17 | +4 | 0.35 | 0.71 | 0.00 |
| 20 | MVRQMEHRWLFCANAQKEPMHKRHM |
97.7 | 25 | +6 | 0.40 | 0.71 | 0.00 |
| 21 | VSAKEFHATLWCKVIHPNNLKQVQKIR |
97.7 | 27 | +6 | 0.41 | 0.71 | 0.00 |
| 22 | TERKYMKDHLQAMPRKANQAWRCRFIW |
97.7 | 27 | +6 | 0.37 | 0.71 | 0.00 |
| 23 | HEMKMRAKMHEVTE |
97.7 | 14 | +2 | 0.36 | 0.71 | 0.00 |
| 24 | FCHQDHVAAEAVKCHTKRAVSH |
97.6 | 22 | +5 | 0.36 | 0.70 | 0.00 |
| 25 | WDHIFHREMHT |
97.6 | 11 | +2 | 0.36 | 0.70 | 0.00 |
| 26 | WFLVKCKKVEIHAYAKLSFRRIPFRECHH |
97.6 | 29 | +8 | 0.41 | 0.70 | 0.00 |
| 27 | MCIKKVQAHQTHSI |
97.5 | 14 | +4 | 0.36 | 0.70 | 0.00 |
| 28 | QQNKTHLHFRLIGV |
97.5 | 14 | +4 | 0.36 | 0.70 | 0.00 |
| 29 | HILIPFNKSKHYKRVLWRMMCWLPRHD |
97.5 | 27 | +8 | 0.41 | 0.69 | 0.00 |
| 30 | HWWRSFQTLH |
97.5 | 10 | +3 | 0.40 | 0.69 | 0.00 |
README del modulo
06 Problema cientifico e IA
Este modulo explica la problematica que PROTEONEXT intenta atacar y simula el cuello de botella central del descubrimiento de peptidos antimicrobianos:
Generar muchas secuencias es facil; decidir cuales merecen sintesis y ensayo es dificil.
Problema real a 1 de mayo de 2026
La resistencia antimicrobiana (AMR) es un problema sanitario, cientifico e industrial. En infecciones por patogenos multirresistentes, especialmente Gram-negativos hospitalarios, los clinicos pueden tener pocas opciones terapeuticas. Los cientificos no solo necesitan nuevas moleculas; necesitan mejores formas de priorizar candidatos, conectar datos de hospitales, aprovechar resultados experimentales y reducir iteraciones inutiles.
En PROTEONEXT el foco inicial se entiende mejor con tres grupos:
CRAB: Acinetobacter baumannii resistente a carbapenemicos.CRE: Enterobacterales resistentes a carbapenemicos.CRPA: Pseudomonas aeruginosa resistente a carbapenemicos.
Por que IA
La IA puede ayudar en tareas distintas:
- Federated analytics: entender que datos y aislados existen sin mover filas sensibles.
- Modelos predictivos: priorizar fenotipos, nodos, mecanismos y candidatos.
- IA generativa proteica: explorar secuencias AMP a escala.
- Filtros y scoring: descartar candidatos poco plausibles antes de sintetizar.
- Active learning: elegir la siguiente tanda experimental para aprender mas con menos ensayos.
La IA no valida actividad antimicrobiana. La validacion real requiere MIC/MBC, hemolisis, citotoxicidad, estabilidad y ensayos adicionales.
Donde ayuda GPT-5.5/Codex
GPT-5.5/Codex ayuda como copiloto tecnico:
- Construir simuladores didacticos.
- Generar y revisar codigo.
- Crear validadores, APIs, dashboards y pruebas.
- Traducir conceptos cientificos a arquitectura Microsoft.
- Ayudar a documentar decisiones y riesgos.
- Preparar prompts, playbooks y revisiones de literatura para humanos.
No debe usarse como validador biomedico ni como sustituto de modelos protein LLM especializados, QSAR, comites cientificos o laboratorio humedo.
ProteoGPT-like dentro de PROTEONEXT
PROTEONEXT no debe explicarse como una "version 2.0" de ProteoGPT. Son naturalezas distintas:
ProteoGPTo un modeloProteoGPT-likerepresenta la capa cientifica especializada: modelos de lenguaje de proteinas capaces de generar, transformar o priorizar secuencias peptidicas.PROTEONEXTrepresenta la plataforma soberana y traslacional: datos AMR federados, gobierno, seguridad, confidential computing, MLOps, Fabric/Purview, trazabilidad, socios cientificos y validacion experimental.GPT-5.5/Codexrepresenta el copiloto tecnico: ayuda a construir, probar, documentar, explicar y operar la plataforma, pero no sustituye modelos biomoleculares ni laboratorio humedo.
La relacion correcta es que PROTEONEXT podria encapsular o integrar modelos tipo ProteoGPT como motor generativo especializado. La aportacion diferencial de PROTEONEXT no es solo generar peptidos, sino conectar esa generacion con datos microbiologicos/genomicos autorizados, privacidad, gobierno, MLOps y un bucle de validacion experimental.
El modulo 07 simula de forma didactica ese bucle modelo-laboratorio-modelo: una shortlist computacional pasa a ensayos ficticios y esos resultados orientan la siguiente iteracion. Es una analogia de active learning tipo SPEL, no una ejecucion biologica real.
Simulacion del embudo
El script simular_funnel_peptidos.py genera 10.000 peptidos sinteticos de 8 a 40 aminoacidos y aplica un embudo:
- Generacion masiva.
- Filtro fisicoquimico basico.
- Filtro de seguridad simulado.
- Ranking por score.
- Shortlist de 30 candidatos.
Los resultados se escriben en:
salida/funnel_resultados.jsonsalida/shortlist_peptidos.csv
Ejecutar
Desde Desarrollo:
& 'C:\ProgramData\miniconda3\python.exe' .\06_problema_cientifico_ia\simular_funnel_peptidos.py
Salida esperada aproximada:
Funnel AMP sintetico PROTEONEXT
Secuencias generadas: 10000
Shortlist: 30
Validacion biologica real: 0
Disclaimer
Esta simulacion es pedagogica. No predice actividad antimicrobiana real, toxicidad real ni sintetizabilidad real. Sirve para entender por que el problema cientifico es un problema de priorizacion, validacion y aprendizaje iterativo.
Fuentes de contexto
- WHO Bacterial Priority Pathogens List 2024: https://www.who.int/publications/i/item/9789240093461
- WHO antibacterial pipeline 2023: https://www.who.int/publications/i/item/9789240094000
- Global burden of bacterial antimicrobial resistance 1990-2021: https://www.healthdata.org/research-analysis/library/global-burden-bacterial-antimicrobial-resistance-1990-2021-systematic
- Generative AI for antimicrobial peptides, Nature Microbiology 2025: https://www.nature.com/articles/s41564-025-02114-4
- OpenAI GPT-5.5: https://openai.com/index/introducing-gpt-5-5/