Minimum contract tables

The goal is not copying the whole medical record, but building the minimum useful dataset for federated AMR.

patients Pseudonymous demographic minimum: age band, sex, and simulated region.

encounters Hospital encounter context: month, ICU flag, infection focus, and aggregated outcome.

specimens Microbiology samples with sample type, local code, and simulated terminology reference.

isolates Bacterial isolates with AMR group, species, resistance mechanism, and genomics availability.

ast_results Antimicrobial susceptibility results with antibiotic, MIC, breakpoint, and S/I/R interpretation.

genomics Optional bacterial genomics metadata: MLST, AMR genes, and simulated plasmid marker.

Volume by node

Each node keeps its local tables. The central platform only needs contracts and authorized aggregates.

Node	Patients	Encounters	Specimens	Isolates	AST	Genomics
nodo_madrid_norte	327	327	327	353	1412	165
nodo_barcelona_mar	433	433	433	459	1836	286
nodo_valencia_turia	315	315	315	348	1392	121

Synthetic quality

one_patient_per_encounter: OK
one_specimen_per_isolate: OK
four_ast_results_per_isolate: OK
no_direct_identifiers: OK

Privacy

No real patients, no direct identifiers, and no dates below month-level granularity.

Module README

08 More Realistic AMR Data Model

This module evolves the simple CSV from the start into a relational AMR model closer to what a hospital node would need to normalize before participating in PROTEONEXT.

No real data is used. Everything is synthetic and pedagogical.

Problem it solves

In a real hospital, data does not arrive as a clean table. It is usually spread across:

Clinical systems.
LIS / microbiology.
Antibiograms and MIC.
Bacterial sequencing.
Local catalogs and terminologies.

The goal is not to copy the entire medical record. The goal is to build the minimum useful dataset for AMR:

Episode and minimum clinical context.
Sample and sample type.
Bacterial isolate.
AST/MIC results.
Resistance mechanisms.
Genomic metadata if available.

Synthetic tables

Each node generates these tables:

Table	Content
`patients.csv`	Pseudonymous patients with age band, sex, and simulated region
`encounters.csv`	Hospital episodes with ICU/non-ICU flag and aggregated outcome
`specimens.csv`	Microbiological samples
`isolates.csv`	Bacterial isolates and AMR group
`ast_results.csv`	Antibiotic, MIC, S/I/R interpretation, and breakpoint
`genomics.csv`	Simulated genomic metadata, AMR genes, and MLST

Also generated:

salida/data_dictionary.json
salida/quality_report.json
salida/manifest.json

Nodes do not have the same size or profile. Each simulated hospital has different volume, pathogen mix, ICU rate, genomics availability, and resistance pressure to make the data more credible.

Run

From Desarrollo:

& 'C:\ProgramData\miniconda3\python.exe' .\08_modelo_datos_amr\generar_modelo_amr.py

Relationship with EHDS

This module does not implement EHDS, OMOP, or real FHIR. It simulates the type of data contracts we would need to discuss with hospitals and scientific partners before connecting federated nodes.

node_id	patient_pseudo_id	age_band	sex	region_code
`nodo_barcelona_mar`	`nodo_barcelona_mar_PAT_00001`	`45-64`	`M`	`ES-CT`
`nodo_barcelona_mar`	`nodo_barcelona_mar_PAT_00002`	`80+`	`M`	`ES-CT`
`nodo_barcelona_mar`	`nodo_barcelona_mar_PAT_00003`	`45-64`	`F`	`ES-CT`
`nodo_barcelona_mar`	`nodo_barcelona_mar_PAT_00004`	`45-64`	`F`	`ES-CT`
`nodo_barcelona_mar`	`nodo_barcelona_mar_PAT_00005`	`45-64`	`F`	`ES-CT`
`nodo_barcelona_mar`	`nodo_barcelona_mar_PAT_00006`	`80+`	`F`	`ES-CT`
`nodo_barcelona_mar`	`nodo_barcelona_mar_PAT_00007`	`18-44`	`M`	`ES-CT`
`nodo_barcelona_mar`	`nodo_barcelona_mar_PAT_00008`	`18-44`	`M`	`ES-CT`

node_id	encounter_id	patient_pseudo_id	collection_month	icu	infection_focus	outcome
`nodo_barcelona_mar`	`nodo_barcelona_mar_ENC_00001`	`nodo_barcelona_mar_PAT_00001`	`2026-02`	`0`	`pneumonia`	`transferred`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ENC_00002`	`nodo_barcelona_mar_PAT_00002`	`2026-02`	`1`	`uti`	`discharged`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ENC_00003`	`nodo_barcelona_mar_PAT_00003`	`2026-12`	`0`	`bacteremia`	`discharged`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ENC_00004`	`nodo_barcelona_mar_PAT_00004`	`2026-04`	`1`	`bacteremia`	`deceased`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ENC_00005`	`nodo_barcelona_mar_PAT_00005`	`2026-03`	`0`	`wound`	`discharged`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ENC_00006`	`nodo_barcelona_mar_PAT_00006`	`2026-10`	`0`	`pneumonia`	`discharged`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ENC_00007`	`nodo_barcelona_mar_PAT_00007`	`2026-10`	`0`	`pneumonia`	`transferred`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ENC_00008`	`nodo_barcelona_mar_PAT_00008`	`2026-04`	`0`	`bacteremia`	`transferred`

node_id	specimen_id	encounter_id	sample_type_code	sample_type_label	loinc_code	collection_month
`nodo_barcelona_mar`	`nodo_barcelona_mar_SPC_00001`	`nodo_barcelona_mar_ENC_00001`	`BLD`	`blood`	`600-7`	`2026-02`
`nodo_barcelona_mar`	`nodo_barcelona_mar_SPC_00002`	`nodo_barcelona_mar_ENC_00002`	`URN`	`urine`	`630-4`	`2026-02`
`nodo_barcelona_mar`	`nodo_barcelona_mar_SPC_00003`	`nodo_barcelona_mar_ENC_00003`	`RSP`	`respiratory`	`6460-0`	`2026-12`
`nodo_barcelona_mar`	`nodo_barcelona_mar_SPC_00004`	`nodo_barcelona_mar_ENC_00004`	`BLD`	`blood`	`600-7`	`2026-04`
`nodo_barcelona_mar`	`nodo_barcelona_mar_SPC_00005`	`nodo_barcelona_mar_ENC_00005`	`RSP`	`respiratory`	`6460-0`	`2026-03`
`nodo_barcelona_mar`	`nodo_barcelona_mar_SPC_00006`	`nodo_barcelona_mar_ENC_00006`	`RSP`	`respiratory`	`6460-0`	`2026-10`
`nodo_barcelona_mar`	`nodo_barcelona_mar_SPC_00007`	`nodo_barcelona_mar_ENC_00007`	`CAT`	`catheter`	`606-4`	`2026-10`
`nodo_barcelona_mar`	`nodo_barcelona_mar_SPC_00008`	`nodo_barcelona_mar_ENC_00008`	`RSP`	`respiratory`	`6460-0`	`2026-04`

node_id	isolate_id	specimen_id	pathogen_group	species	snomed_code	resistance_mechanism	genomics_available
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00001`	`nodo_barcelona_mar_SPC_00001`	`CRAB`	`Acinetobacter baumannii`	`83559001`	`OXA-24/40`	`0`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00002`	`nodo_barcelona_mar_SPC_00002`	`CRAB`	`Acinetobacter baumannii`	`83559001`	`OXA-58`	`0`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00003`	`nodo_barcelona_mar_SPC_00003`	`CRE`	`Klebsiella pneumoniae`	`56415008`	`VIM`	`1`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00004`	`nodo_barcelona_mar_SPC_00004`	`CRAB`	`Acinetobacter baumannii`	`83559001`	`OXA-23`	`1`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00005`	`nodo_barcelona_mar_SPC_00005`	`CRE`	`Klebsiella pneumoniae`	`56415008`	`KPC`	`0`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00006`	`nodo_barcelona_mar_SPC_00006`	`CRE`	`Klebsiella pneumoniae`	`56415008`	`VIM`	`0`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00007`	`nodo_barcelona_mar_SPC_00007`	`CRPA`	`Pseudomonas aeruginosa`	`112283007`	`IMP`	`0`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00008`	`nodo_barcelona_mar_SPC_00008`	`CRAB`	`Acinetobacter baumannii`	`83559001`	`OXA-24/40`	`1`

node_id	ast_result_id	isolate_id	antibiotic	atc_code	mic_mg_l	breakpoint_r_mg_l	interpretation	standard
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00001_meropenem`	`nodo_barcelona_mar_ISO_00001`	`meropenem`	`J01DH02`	`8.0`	`8`	`R`	`EUCAST-simulated`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00001_colistin`	`nodo_barcelona_mar_ISO_00001`	`colistin`	`J01XB01`	`16.0`	`4`	`R`	`EUCAST-simulated`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00001_amikacin`	`nodo_barcelona_mar_ISO_00001`	`amikacin`	`J01GB06`	`128.0`	`32`	`R`	`EUCAST-simulated`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00001_cefiderocol`	`nodo_barcelona_mar_ISO_00001`	`cefiderocol`	`J01DI04`	`8.0`	`4`	`R`	`EUCAST-simulated`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00002_meropenem`	`nodo_barcelona_mar_ISO_00002`	`meropenem`	`J01DH02`	`8.0`	`8`	`R`	`EUCAST-simulated`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00002_colistin`	`nodo_barcelona_mar_ISO_00002`	`colistin`	`J01XB01`	`0.25`	`4`	`S`	`EUCAST-simulated`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00002_amikacin`	`nodo_barcelona_mar_ISO_00002`	`amikacin`	`J01GB06`	`8.0`	`32`	`S`	`EUCAST-simulated`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00002_cefiderocol`	`nodo_barcelona_mar_ISO_00002`	`cefiderocol`	`J01DI04`	`8.0`	`4`	`R`	`EUCAST-simulated`

node_id	isolate_id	sequence_available	assembly_accession	mlst	amr_genes	plasmid_marker
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00003`	`1`	`SIM-nodo_barcelona_mar_ISO_00003`	`ST258`	`VIM`	`0`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00004`	`1`	`SIM-nodo_barcelona_mar_ISO_00004`	`ST25`	`OXA-23`	`0`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00008`	`1`	`SIM-nodo_barcelona_mar_ISO_00008`	`ST2`	`OXA-24/40`	`0`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00009`	`1`	`SIM-nodo_barcelona_mar_ISO_00009`	`ST2`	`OXA-58`	`0`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00012`	`1`	`SIM-nodo_barcelona_mar_ISO_00012`	`ST235`	`VIM`	`0`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00013`	`1`	`SIM-nodo_barcelona_mar_ISO_00013`	`ST244`	`Porin loss`	`0`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00015`	`1`	`SIM-nodo_barcelona_mar_ISO_00015`	`ST175`	`VIM`	`0`
`nodo_barcelona_mar`	`nodo_barcelona_mar_ISO_00017`	`1`	`SIM-nodo_barcelona_mar_ISO_00017`	`ST258`	`NDM`	`1`

Learning path

More realistic AMR data model