Wer ein Jobsuche-Tool baut — agentenbasiert oder nicht — kennt die Wahrheit: Das Schwierigste ist nicht die KI. Es sind die Quellen. Welche Jobbörsen haben APIs? Welche blockieren Scraper? Welche Ratenlimits gelten? Welche decken die Schweiz ab, aber nicht Österreich? Welche erfordern Authentifizierung?

Diese Informationen sind über Dokumentationsseiten, Forenbeiträge und hart erarbeitete Produktionserfahrung verstreut. Jedes Team, das einen Job-Crawler baut, entdeckt dieselben Antworten von Grund auf neu.

Das Open-Source-Verzeichnis von Kitsuno löst dieses Problem. Eine YAML-Datei pro Quelle. Strukturiert, validiert und informiert durch echte Crawl-Erfahrung.

Was im Repository enthalten ist

Das Repository agentic-job-search-eu enthält ein strukturiertes Verzeichnis von Jobquellen, die aus Europa erreichbar sind. Jede Quelle ist eine einzelne YAML-Datei nach einem einheitlichen Schema.

Was jede Quelldatei dokumentiert: Name, URL, geografische Abdeckung (Länder und Regionen), Zugriffsmethode (öffentliche API, RSS-Feed, Scraping erforderlich), Authentifizierungsanforderungen, beobachtete Ratenlimits, Datenformat, typische Jobkategorien, Aktualisierungsfrequenz, Lizenzlage und Crawl-Notizen aus dem Produktionsbetrieb.

Was „Crawl-Notizen aus der Praxis” bedeutet: Diese sind nicht aus Dokumentationen kopiert. Sie stammen vom Scanner-Agenten, der in Kitsunos Produktion läuft — tatsächliche Beobachtungen über Antwortverhalten, Durchsetzung von Ratenlimits, Datenqualitäts-Eigenheiten und Fehlermodi. Wenn eine Quelldatei sagt „liefert 403 nach 200 Anfragen pro Stunde”, ist das ein gemessener Wert, keine Vermutung.

Das Verzeichnis startete mit über 30 Quellen, darunter nationale Arbeitsagenturen (France Travail, NAV.no, Platsbanken, Arbeitsagentur), globale Plattformen (LinkedIn, Indeed, Adzuna), Remote-First-Portale (RemoteOK, Remotive, Working Nomads), humanitäre Organisationen (Devex, ReliefWeb, 80,000 Hours) und ATS-Metasuche über Plattformen wie Greenhouse, Lever, Ashby und Workday.

Das Schema

Jede Quelle folgt einem einheitlichen YAML-Schema, das in sources/_schema.yml definiert ist. Das Schema erzwingt Pflichtfelder, gültige Werte und strukturelle Konsistenz. Ein Python-Validator (tools/validate.py) läuft in der CI bei jedem Pull Request — fehlerhafte oder unvollständige Quelldateien können nicht gemergt werden.

Das bedeutet: Das Verzeichnis ist nicht nur eine Liste. Es sind maschinenlesbare, strukturierte Daten, die andere Tools programmatisch konsumieren können. Quellen nach Land filtern? YAML parsen. Alle Quellen mit öffentlichen APIs finden? Das Zugriffstypfeld abfragen. Die Daten sind für Automatisierung konzipiert, nicht nur zum Lesen.

Warum Open Source

Kitsuno crawlt diese Quellen in der Produktion. Das Verzeichnis als Open Source zu veröffentlichen gibt keinen Wettbewerbsvorteil preis — der Wert liegt in der Scoring-Engine, der Karrierebibliothek und der Sechs-Agenten-Pipeline, nicht im Wissen, dass France Travail eine öffentliche API hat.

Was Open Source stattdessen bringt: Community-Beiträge (neue Quellen, aktualisierte Crawl-Notizen, korrigierte Ratenlimits), Glaubwürdigkeit (das Verzeichnis ist überprüfbar) und eine nützliche Ressource für das breitere Ökosystem von Karriere-Tools, die in Europa entstehen.

Die Lizenzierung ist bewusst aufgeteilt. Code (Validator, Beispiele, Schema) ist MIT — frei nutzbar für jeden Zweck. Quelldaten (YAML-Dateien, Statistiken) sind CC-BY-SA 4.0 — frei nutzbar, aber mit Namensnennung und Weitergabe von Verbesserungen. So wächst das Datenverzeichnis, während das Tooling unrestriktiert bleibt.

Wie beigetragen werden kann

Das Repository forken. Eine neue YAML-Datei in sources/ nach dem Schema erstellen. python tools/validate.py ausführen, um die Datei zu prüfen. Einen Pull Request mit einer Beschreibung der Quelle und Verifikationsinformationen öffnen.

Gute Beiträge sind: neue Quellen, die noch nicht im Verzeichnis sind, aktualisierte Crawl-Beobachtungen aus eigener Erfahrung, korrigierte Ratenlimits oder Zugriffsmethoden sowie Abdeckungserweiterungen (neue Länder oder Regionen für bestehende Quellen).

Das Repository hat eine Wunschliste mit Quellen, die bekannt aber noch nicht dokumentiert sind — darunter StepStone, Jobindex, HelloWork, Totaljobs und Karriere.at. Pull Requests für diese sind besonders willkommen.

Für alle, die bauen

Wer ein agentenbasiertes Jobsuche-Tool, einen Karriere-Crawler oder ein Arbeitsmarktforschungsprojekt baut, bekommt hier einen Vorsprung. Statt Wochen mit der Recherche zu verbringen, welche Quellen existieren, wie darauf zugegriffen wird und welche Limits gelten, lässt sich von dokumentierten, produktionsgetesteten Quellprofilen starten.

Die Beispiel-Loader in examples/ zeigen, wie die YAML-Dateien in Python und JavaScript geparst werden. Das Schema ist stabil — Quelldateien, die in sechs Monaten hinzukommen, folgen derselben Struktur wie die heutigen.

Das Repository auf GitHub ansehen →

Dieses Verzeichnis wird von Kitsuno und der Open-Source-Community gepflegt. Für die Methodik hinter der Nutzung dieser Quellen: Wie wir Arbeitsmarktsignale messen lesen. Für die Prinzipien hinter dem Projekt: Warum es Kitsuno gibt lesen.