Ruta de aprendizaje

Que problema atacamos

AMR crea infecciones con pocas opciones terapeuticas. Los cientificos deben conectar datos dispersos, priorizar aislados y escoger candidatos con margen experimental limitado.

Donde ayuda IA

La IA puede reducir el espacio de busqueda, filtrar secuencias, priorizar candidatos y orientar active learning, pero la validacion sigue siendo experimental.

Donde ayuda GPT-5.5/Codex

GPT-5.5/Codex ayuda a construir la plataforma, documentar, simular, programar, probar y explicar. No sustituye modelos biomoleculares ni laboratorio humedo.

ProteoGPT-like dentro de PROTEONEXT

PROTEONEXT no es ProteoGPT 2.0: es una plataforma soberana que podria encapsular modelos protein LLM especializados y conectarlos con datos AMR federados, gobierno, MLOps y validacion experimental.

Protein LLM / ProteoGPT-like Motor cientifico especializado para generar, transformar o priorizar secuencias peptidicas. Requiere filtros, benchmarks y validacion.
PROTEONEXT Ecosistema traslacional: nodos federados, Azure, Fabric, Purview, confidential computing, MLOps, trazabilidad y socios cientificos.
GPT-5.5 / Codex Copiloto tecnico para construir, documentar, probar y explicar la plataforma. No decide actividad biologica real.
Secuencias generadas10000
Shortlist30
Validadas biologicamente0

Embudo de priorizacion

Cada etapa descarta candidatos. El salto importante es que una shortlist computacional todavia no es evidencia biologica.

Generacion masiva 10000
100.00%
Filtro fisicoquimico 1682
16.82%
Filtro seguridad simulado 1680
16.80%
Ranking por score 1680
16.80%
Shortlist sintesis 30
0.30%
Validacion biologica real 0
0.00%

Top 30 candidatos didacticos

Estos candidatos son utiles para inspeccionar el scoring, no para tomar decisiones cientificas reales.

# Secuencia Score Longitud Carga Hidrofobicidad Solubilidad proxy Toxicidad proxy
1 HRARMWVKRRQ 99.8 11 +6 0.36 0.82 0.00
2 SIQIMERKRIAMKKRLHKFQMPK 99.7 23 +8 0.39 0.82 0.00
3 WKYHIKINQVHSVSIRH 99.0 17 +6 0.35 0.78 0.00
4 CCIHTFIKKNKKAQMRRQSLFA 98.8 22 +7 0.36 0.76 0.00
5 INMKAWHAWMGCANHHKRMRTQER 98.7 24 +7 0.38 0.76 0.00
6 NNIAIVFGPHKHVLRLHGRKSK 98.5 22 +8 0.36 0.75 0.00
7 KMIAKNRCVHHRGNKVTTIVI 98.4 21 +7 0.38 0.74 0.00
8 HSFDHRTMHFFAK 98.3 13 +4 0.38 0.74 0.00
9 SIALDAWSHHQSHQRWHIMASQKVKNLVC 98.3 29 +6 0.41 0.74 0.00
10 MVCDWKKIWKNGHLNKRSVR 98.3 20 +6 0.35 0.74 0.00
11 IFKDKVMYHLLWKTASTKHHD 98.1 21 +5 0.38 0.73 0.00
12 HKHFITVDNLINSLLTRKSC 98.0 20 +4 0.35 0.72 0.00
13 SNCFVFFSEFIQNWKAMKILHKSQDKKYTK 98.0 30 +5 0.37 0.72 0.00
14 KGHSATRHKTIHVAVHAVPEFVDTGQATRV 98.0 30 +6 0.37 0.72 0.00
15 FLNRFIKNKVHDHPKV 97.9 16 +5 0.38 0.72 0.00
16 GILHWRQKYKAKCPHFERWRAKEAMFWHFN 97.9 30 +8 0.40 0.72 0.00
17 RHSHKWPFWITTVRRIHFAPAWWNPKGN 97.9 28 +8 0.39 0.71 0.00
18 HLNNLISTKWMVFKHNT 97.8 17 +4 0.41 0.71 0.00
19 MNTVAIKTFHLHGNKHE 97.8 17 +4 0.35 0.71 0.00
20 MVRQMEHRWLFCANAQKEPMHKRHM 97.7 25 +6 0.40 0.71 0.00
21 VSAKEFHATLWCKVIHPNNLKQVQKIR 97.7 27 +6 0.41 0.71 0.00
22 TERKYMKDHLQAMPRKANQAWRCRFIW 97.7 27 +6 0.37 0.71 0.00
23 HEMKMRAKMHEVTE 97.7 14 +2 0.36 0.71 0.00
24 FCHQDHVAAEAVKCHTKRAVSH 97.6 22 +5 0.36 0.70 0.00
25 WDHIFHREMHT 97.6 11 +2 0.36 0.70 0.00
26 WFLVKCKKVEIHAYAKLSFRRIPFRECHH 97.6 29 +8 0.41 0.70 0.00
27 MCIKKVQAHQTHSI 97.5 14 +4 0.36 0.70 0.00
28 QQNKTHLHFRLIGV 97.5 14 +4 0.36 0.70 0.00
29 HILIPFNKSKHYKRVLWRMMCWLPRHD 97.5 27 +8 0.41 0.69 0.00
30 HWWRSFQTLH 97.5 10 +3 0.40 0.69 0.00

README del modulo

06 Problema cientifico e IA

Este modulo explica la problematica que PROTEONEXT intenta atacar y simula el cuello de botella central del descubrimiento de peptidos antimicrobianos:

Generar muchas secuencias es facil; decidir cuales merecen sintesis y ensayo es dificil.

Problema real a 1 de mayo de 2026

La resistencia antimicrobiana (AMR) es un problema sanitario, cientifico e industrial. En infecciones por patogenos multirresistentes, especialmente Gram-negativos hospitalarios, los clinicos pueden tener pocas opciones terapeuticas. Los cientificos no solo necesitan nuevas moleculas; necesitan mejores formas de priorizar candidatos, conectar datos de hospitales, aprovechar resultados experimentales y reducir iteraciones inutiles.

En PROTEONEXT el foco inicial se entiende mejor con tres grupos:

  • CRAB: Acinetobacter baumannii resistente a carbapenemicos.
  • CRE: Enterobacterales resistentes a carbapenemicos.
  • CRPA: Pseudomonas aeruginosa resistente a carbapenemicos.

Por que IA

La IA puede ayudar en tareas distintas:

  • Federated analytics: entender que datos y aislados existen sin mover filas sensibles.
  • Modelos predictivos: priorizar fenotipos, nodos, mecanismos y candidatos.
  • IA generativa proteica: explorar secuencias AMP a escala.
  • Filtros y scoring: descartar candidatos poco plausibles antes de sintetizar.
  • Active learning: elegir la siguiente tanda experimental para aprender mas con menos ensayos.

La IA no valida actividad antimicrobiana. La validacion real requiere MIC/MBC, hemolisis, citotoxicidad, estabilidad y ensayos adicionales.

Donde ayuda GPT-5.5/Codex

GPT-5.5/Codex ayuda como copiloto tecnico:

  • Construir simuladores didacticos.
  • Generar y revisar codigo.
  • Crear validadores, APIs, dashboards y pruebas.
  • Traducir conceptos cientificos a arquitectura Microsoft.
  • Ayudar a documentar decisiones y riesgos.
  • Preparar prompts, playbooks y revisiones de literatura para humanos.

No debe usarse como validador biomedico ni como sustituto de modelos protein LLM especializados, QSAR, comites cientificos o laboratorio humedo.

ProteoGPT-like dentro de PROTEONEXT

PROTEONEXT no debe explicarse como una "version 2.0" de ProteoGPT. Son naturalezas distintas:

  • ProteoGPT o un modelo ProteoGPT-like representa la capa cientifica especializada: modelos de lenguaje de proteinas capaces de generar, transformar o priorizar secuencias peptidicas.
  • PROTEONEXT representa la plataforma soberana y traslacional: datos AMR federados, gobierno, seguridad, confidential computing, MLOps, Fabric/Purview, trazabilidad, socios cientificos y validacion experimental.
  • GPT-5.5/Codex representa el copiloto tecnico: ayuda a construir, probar, documentar, explicar y operar la plataforma, pero no sustituye modelos biomoleculares ni laboratorio humedo.

La relacion correcta es que PROTEONEXT podria encapsular o integrar modelos tipo ProteoGPT como motor generativo especializado. La aportacion diferencial de PROTEONEXT no es solo generar peptidos, sino conectar esa generacion con datos microbiologicos/genomicos autorizados, privacidad, gobierno, MLOps y un bucle de validacion experimental.

El modulo 07 simula de forma didactica ese bucle modelo-laboratorio-modelo: una shortlist computacional pasa a ensayos ficticios y esos resultados orientan la siguiente iteracion. Es una analogia de active learning tipo SPEL, no una ejecucion biologica real.

Simulacion del embudo

El script simular_funnel_peptidos.py genera 10.000 peptidos sinteticos de 8 a 40 aminoacidos y aplica un embudo:

  1. Generacion masiva.
  2. Filtro fisicoquimico basico.
  3. Filtro de seguridad simulado.
  4. Ranking por score.
  5. Shortlist de 30 candidatos.

Los resultados se escriben en:

  • salida/funnel_resultados.json
  • salida/shortlist_peptidos.csv

Ejecutar

Desde Desarrollo:

& 'C:\ProgramData\miniconda3\python.exe' .\06_problema_cientifico_ia\simular_funnel_peptidos.py

Salida esperada aproximada:

Funnel AMP sintetico PROTEONEXT
Secuencias generadas: 10000
Shortlist: 30
Validacion biologica real: 0

Disclaimer

Esta simulacion es pedagogica. No predice actividad antimicrobiana real, toxicidad real ni sintetizabilidad real. Sirve para entender por que el problema cientifico es un problema de priorizacion, validacion y aprendizaje iterativo.

Fuentes de contexto

  • WHO Bacterial Priority Pathogens List 2024: https://www.who.int/publications/i/item/9789240093461
  • WHO antibacterial pipeline 2023: https://www.who.int/publications/i/item/9789240094000
  • Global burden of bacterial antimicrobial resistance 1990-2021: https://www.healthdata.org/research-analysis/library/global-burden-bacterial-antimicrobial-resistance-1990-2021-systematic
  • Generative AI for antimicrobial peptides, Nature Microbiology 2025: https://www.nature.com/articles/s41564-025-02114-4
  • OpenAI GPT-5.5: https://openai.com/index/introducing-gpt-5-5/