Freelance Agent Evaluation Engineer
Please submit your CV in English and indicate your level of English proficiency.
Mindrift connects specialists with project-based AI opportunities for leading tech companies, focused on testing, evaluating, and improving AI systems. Participation is project-based, not permanent employment.
What this opportunity involves
We're building a dataset to evaluate AI coding agents - how well a model handles real-world developer tasks.
You'll create challenging tasks and evaluation criteria within realistic simulated environments:
- Build realistic developer environments - a virtual company with codebase, infrastructure, and context (tickets, docs, conversations) that forms a believable development history
- Design tasks from intermediate states of these environments - craft the prompt, define what "solved" means, and ensure the task is solvable by an AI agent
- Write tests that verify agent solutions - accept all valid approaches and reject incorrect ones, neither too strict nor too lenient
- Iterate on tasks and tests based on QA feedback - review agent solutions, analyze failures, and refine until the evaluation is fair and robust
What this is NOT
- Not data labeling
- Not prompt engineering
- Not writing code from scratch - the agent writes most of the code; you guide and evaluate
What we look for
- 5+ years in software development
- Core stack: Python (FastAPI), JavaScript/TypeScript (React), Docker, Postgres, Kafka, Redis
- Experience writing tests (functional, integration)
- English proficiency - B2+
Why this is hard
Frontier models are already good at coding. Creating a task that genuinely challenges the best models is non-trivial. You need to deeply understand where models fail and what scenarios reveal the difference between a good and a bad solution. Tasks have many valid solutions - writing tests that accept all correct solutions and reject incorrect ones is harder than it sounds.
How it works
Apply → Pass qualification(s) → Join a project → Complete tasks → Get paid
Effort estimate
Tasks for this project are estimated to take 20 hours to complete, depending on complexity. This is an estimate and not a schedule requirement; you choose when and how to work. Tasks must be submitted by the deadline and meet the listed acceptance criteria to be accepted.
Compensation
Up to $50/hr equivalent , depending on level and pace. Tasks are estimated at ~20 hours each; you set your own schedule.
Empfohlene Jobs
WEG Verwalter (m/w/d)
Wir suchen für unseren PRIME-Partner einen WEG Verwalter (m/w/d) Als renommierte Immobilienverwaltung mit modernem Charakter hat sich unser Partner erfolgreich auf die Wohnungseigentum- und Mietsha…
Servicetechniker Automatentechnik im Bereich Tankstellen (m/w/d)
Als innovatives Handels- und Dienstleistungsunternehmen vermarkten wir Produkte und Gesamtlösungen für die Bereiche Tanktechnik und Tankdatenmanagement, E-Mobilität, Parkraumbewirtschaftung und Zahlu…
Pflegefachkraft Kinderkardiologie (m/w/d)
Klinikum Stuttgart - Entscheiden Sie sich für etwas Großes. Wir sind mit unseren drei Häusern „Katharinenhospital“, „Olgahospital“ und „Krankenhaus Bad Cannstatt“ das größte Klinikum in Baden-Würt…
Leiter*in (m/w/d) der VDI-Geschäftsstelle Württembergischer Ingenieurverein
Als größte Community für Ingenieurinnen und Ingenieure in Deutschland setzen wir Impulse für die Zukunft. Rund 130.000 Mitglieder bilden unser einzigartiges multidisziplinäres Netzwerk, das richtungw…
Java Backend Developer (m/w/d)
Dein Verantwortungsbereich *Anwendungsentwicklung als Teil eines agilen Java Development Teams *Neu- oder Weiterentwicklung von dynamischen Softwarelösungen sowie Client- und Server-Komponenten *Migra…
Werkstudent Einkauf und zentrale Dienste (m/w/d) HPJB1_DE
FICHTNER begleitet seit 1922 als eines der führenden unabhängigen Ingenieur- und Beratungsunternehmen spannende Projekte in den Bereichen Energie, Umwelt, erneuerbare Energien, Wasserwirtschaft sowie …
Ausbildung Kaufleute im Gesundheitswesen (w/m/d)
Azubi-Scout.net berät und vermittelt seit über 10 Jahren kostenfrei Ausbildungssuchende bundesweit an ausgesuchte Partnerunternehmen. Für meinen Partner suche ich Auszubildende, die Interesse ha…
Pflegefachkraft (m/w/d) für Chirurgie HPJB1_DE
Als Pionier der integrativen Medizin geht es uns um das Ganze: wir erweitern die Möglichkeiten modernster Medizin auf dem neuesten technischen Stand mit den Therapieverfahren der anthroposophischen Me…
Kreditoren/Debitorenbuchhalter (m/w/d)
Wir suchen derzeit engagierte Kreditoren- und Debitorenbuchhalter (m/w/d) für unser renommiertes Kundenunternehmen im Gesundheitswesen im Raum Stuttgart, das für seine innovative Arbeit und hohen Qua…
Werkstudent:in Merchandise Planning
Fashion und Lifestyle, 6.500 Mitarbeiter:innen, 13 Department Stores, Online-Shops in Deutschland, Polen, Österreich, Belgien, Luxemburg, Spanien, den Niederlanden und der Schweiz, über 2000 Marken, …