Ces informations sont dispersées entre des pages de documentation, des posts de forum et de l’expérience de production durement acquise. Chaque équipe qui construit un crawler d’emploi redécouvre les mêmes réponses en partant de zéro.
Le répertoire open source de Kitsuno résout ce problème. Un fichier YAML par source. Structuré, validé et enrichi par une vraie expérience de crawl.
Ce que contient le dépôt
Le dépôt agentic-job-search-eu contient un répertoire structuré de sources d’emploi accessibles depuis l’Europe. Chaque source est un fichier YAML unique suivant un schéma cohérent.
Ce que chaque fichier source documente : nom, URL, couverture géographique (pays et régions), méthode d’accès (API publique, flux RSS, scraping requis), exigences d’authentification, limites de débit observées, format de données, catégories d’emploi typiques, fréquence de mise à jour, posture de licence et notes de crawl issues de la production.
Ce que signifient les « notes de crawl du terrain » : elles ne sont pas copiées-collées depuis la documentation. Elles proviennent de l’agent Scanner en production chez Kitsuno — des observations réelles sur le comportement des réponses, l’application des limites de débit, les particularités de qualité des données et les modes de défaillance. Quand un fichier source indique « renvoie 403 après 200 requêtes par heure », c’est une mesure constatée, pas une supposition.
Le répertoire a été lancé avec plus de 30 sources couvrant des agences nationales pour l’emploi (France Travail, NAV.no, Platsbanken, Arbeitsagentur), des plateformes mondiales (LinkedIn, Indeed, Adzuna), des portails axés télétravail (RemoteOK, Remotive, Working Nomads), des organisations humanitaires (Devex, ReliefWeb, 80,000 Hours) et la méta-recherche ATS sur des plateformes comme Greenhouse, Lever, Ashby et Workday.
Le schéma
Chaque source suit un schéma YAML cohérent défini dans sources/_schema.yml. Le schéma impose des champs obligatoires, des valeurs valides et une cohérence structurelle. Un validateur Python (tools/validate.py) s’exécute dans la CI à chaque pull request — les fichiers source malformés ou incomplets ne peuvent pas être fusionnés.
Cela signifie que le répertoire n’est pas qu’une simple liste. Ce sont des données structurées lisibles par machine que d’autres outils peuvent consommer de manière programmatique. Filtrer les sources par pays ? Parser le YAML. Trouver toutes les sources avec des API publiques ? Interroger le champ de type d’accès. Les données sont conçues pour l’automatisation, pas seulement pour la lecture.
Pourquoi l’open source
Kitsuno crawle ces sources en production. Publier le répertoire en open source ne divulgue aucun avantage concurrentiel — la valeur réside dans le moteur d’évaluation, la bibliothèque de carrière et le pipeline à six agents, pas dans le fait de savoir que France Travail a une API publique.
Ce que l’open source apporte en revanche : des contributions communautaires (nouvelles sources, notes de crawl mises à jour, limites de débit corrigées), de la crédibilité (le répertoire est vérifiable) et une ressource utile pour l’écosystème plus large des outils de carrière en cours de construction en Europe.
La licence est intentionnellement divisée. Le code (validateur, exemples, schéma) est sous MIT — utilisable librement pour tout usage. Les données sources (fichiers YAML, statistiques) sont sous CC-BY-SA 4.0 — librement utilisables, mais avec attribution et partage des améliorations. Ainsi, les données s’enrichissent tandis que les outils restent sans restriction.
Comment contribuer
Forker le dépôt. Créer un nouveau fichier YAML dans sources/ en suivant le schéma. Exécuter python tools/validate.py pour vérifier le fichier. Ouvrir une pull request avec une description de la source et les informations de vérification.
Les bonnes contributions incluent : de nouvelles sources absentes du répertoire, des observations de crawl mises à jour à partir de sa propre expérience, des limites de débit ou méthodes d’accès corrigées, et des extensions de couverture (nouveaux pays ou régions pour des sources existantes).
Le dépôt maintient une liste de souhaits de sources connues mais non encore documentées — notamment StepStone, Jobindex, HelloWork, Totaljobs et Karriere.at. Les pull requests pour celles-ci sont particulièrement bienvenues.
Pour celles et ceux qui construisent
Pour quiconque construit un outil de recherche d’emploi agentique, un crawler de carrière ou un projet de recherche sur le marché du travail, ce répertoire offre une longueur d’avance. Au lieu de passer des semaines à rechercher quelles sources existent, comment y accéder et quelles limites s’appliquent, il est possible de partir de profils de sources documentés et testés en production.
Les exemples de chargement dans examples/ montrent comment parser les fichiers YAML en Python et JavaScript. Le schéma est stable — les fichiers source ajoutés dans six mois suivront la même structure que ceux déjà présents.
Ce répertoire est maintenu par Kitsuno et la communauté open source. Pour la méthodologie d’utilisation de ces sources, lire Comment nous mesurons le signal du marché de l’emploi. Pour les principes qui guident le projet, lire Pourquoi Kitsuno existe.