README.md

AutoFill/
├─ src/
│  ├─ dataset/          # gestion des données
│  ├─ model/            # architectures et entraînement
│  └─ scripts/          # pipeline CLI : prétraitement, conversion, entraînement
├─ configs/
│  ├─ vae.yml           # config pour VAE
│  └─ pairvae.yml       # config pour PairVAE
├─ requirements.txt     # dépendances
└─ README.md            # guide d’utilisation
git clone https://github.com/JulienRabault/AutoFill.git
cd AutoFill
curl -LsSf https://astral.sh/uv/install.sh | sh
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
uv sync --no-dev
python3 -m venv env
source env/bin/activate
pip install -r requirements.txt # (Windows : .\env\Scripts\activate)
python scripts/01_csv_pre_process.py \
  data/raw_csv/file1.csv data/raw_csv/file2.csv \
  data/metadata_clean.csv \
  -s ";"
python scripts/02_txtTOhdf5.py \
  --data_csv_path data/metadata_clean.csv \
  --data_dir data/txt/ \
  --final_output_file data/all_data.h5 \
  --json_output data/metadata_dict.json \
  --pad_size 900
final_output.h5
├── data_q          [N, pad_size]
├── data_y          [N, pad_size]
├── len             [N]
├── csv_index       [N]
├── <metadata_1>    [N]
├── <metadata_2>    [N]
└── ...             [N]
python scripts/saminitycheck.py \
  --csv data/metadata_clean.csv \
  --basedir data/txt/
python scripts/03_train.py \
  --mode vae \
  --config config/vae.yaml \
  --name AUTOFILL_SAXS_VAE \
  --hdf5_file data/all_data.h5 \
  --conversion_dict_path data/metadata_dict.json \
  --technique saxs \
  --material ag
python scripts/03_train.py \
  --mode pairvae \
  --config config/pairvae.yml \
  --name AUTOFILL_SAXS_PAIRVAE \
  --hdf5_file data/all_data_pair.h5 \
  --conversion_dict_path data/pair_metadata_dict.json \
  --material ag
final_output.h5
├── data_q_saxs    [N, pad_size]
├── data_y_saxs    [N, pad_size]
├── data_q_les     [N, pad_size]
├── data_y_les     [N, pad_size]
├── len            [N]
├── valid          [N]
├── csv_index      [N]
├── <metadata_1>   [N]
├── <metadata_2>   [N]
└── ...            ...
python scripts/05_infer.py \
  --outputdir <CHEMIN_ENREGISTREMENT> \
  --checkpoint <CHEMIN_CHECKPOINT> \
  --data_path <FICHIER_DONNÉES> \
  [--data_dir <DOSSIER_DONNÉES>] \
  [--mode <MODE_CONVERSION>] \
  [--batch_size <TAILLE_BATCH>]
python scripts/05_infer.py \
  --outputdir dossier_test_vae \
  --checkpoint logs/vae_model.ckpt \
  --data_path data/new_data.h5 \
  --batch_size 64
  --plot
python scripts/05_infer.py \
  --outputdir dossier_test_pairvae \
  --checkpoint logs/pairvae_model.ckpt \
  --data_path data/pair_data.h5 \
  --mode les_to_saxs \
  --batch_size 32
prediction_12345.npy  # Nom généré à partir de l'index CSV ou du nom du fichier
├── [ [y1, q1],
│     [y2, q2],
│     ...            ]
└── shape (pad_size, 2)
param_grid:
  training.beta: [ 0.001, 0.0001 ]                # Teste deux valeurs pour beta
  model.args.latent_dim: [ 64, 128, 256 ]         # Teste trois dimensions latentes différentes
  training.batch_size: [ 16, 32, 64 ]             # Teste trois tailles de batch
python scripts/03_train.py \
  --mode vae \
  --gridsearch \
  --config config/vae.yml \
  --name AUTOFILL_SAXS_VAE \
  --hdf5_file data/all_data.h5 \
  --conversion_dict_path data/all_data.json \
  --technique saxs \
  --material ag