Forscherteam entwickelt Richtlinien zur Vermeidung von KI-“Datenlecks”

Eine Person mit blauem Pullover und grau-blondem Haar blickt in die Kamera. Die Person steht in einem Flur eines Gebäudes. Der Fußboden ist rot, im Hintergrund ist eine Glastür zu erkennen.
Prof. David Blumenthal (Foto: Georg Pöhlein)

Leitfaden für robuste und reproduzierbare Forschung

Der Einsatz von künstlicher Intelligenz und maschinellem Lernen (ML) hat in der biologischen Forschung große Fortschritte ermöglicht, insbesondere bei der Analyse von DNA, RNA und Proteinsequenzen. Ein häufiges Problem sind jedoch „Datenlecks“, bei denen Informationen unerlaubt zwischen Trainings- und Testdaten übertragen werden, was zu überoptimistischen und nicht reproduzierbaren Ergebnissen führt.

Ein Team von Forschenden der Technischen Universität München (TUM), der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU), der Hochschule Weihenstephan-Triesdorf (HSWT), des Helmholtz-Institut für Pharmazeutische Forschung Saarland (HIPS) und der Universität des Saarlandes (UdS) hat untersucht, wie diese Datenlecks vermieden werden können. Die Forschenden entwickelten sieben Fragen, die bei der Konstruktion von ML-Modellen helfen sollen, um diese Lecks zu verhindern. Die Fragen wurden dabei auf konkrete Beispiele angewendet, um ihre Nützlichkeit zu demonstrieren und einen Leitfaden für robuste und reproduzierbare Forschung zu bieten.

In BioRender erstellte Abbildung

„Heutzutage ist es dank populärer Software und Programmierframeworks einfacher geworden, einen validen ML-Workflow zu gewährleisten. In der Praxis erhöht ihre Benutzerfreundlichkeit jedoch das Risiko wissenschaftlich inkorrekter Anwendungen und falscher Ergebnisse“, bemerkt Prof. David Blumenthal vom Department Artificial Intelligence in Biomedical Engineering der FAU, der Teil des Forscherteams ist.

Das Perspective Paper “Guiding questions to avoid data leakage in biomedical machine learning applications” wird am 9. August 2024 in Nature Methods erscheinen.

Weitere Informationen

Prof. Dr. David B. Blumenthal
Juniorprofessur für Biomedical Network Science
david.b.blumenthal@fau.de