Daten mit erhöhtem Schutzbedarf für rechenintensive Algorithmen

Die Abteilung Digitale Sprachwissenschaft lädt ein zu einem Vortrag von
Martin Matthiesen M.A.
vom Finnish IT Centre for Science (CSC):
"Daten mit erhöhtem Schutzbedarf für rechenintensive Algorithmen"
Montag, 3. Juli 2023, 11 Uhr in Raum 1.28 (R5)
Dauer: bis ca. 12 Uhr. Nach dem Vortrag und am Nachmittag gibt es Gelegenheit zum weiteren Austausch mit dem Dozenten.
Abstract: (pdf-Format)
Einrichtungen wie das IDS stellen große Mengen an sprachlichen Daten für Forschungszwecke zur Verfügung. Aus rechtlichen Gründen dürfen viele dieser Daten das IDS nicht verlassen. Gleichzeitig verlangt die ständig wachsende Menge an Daten nach mehr und mehr Rechenleistung, besonders, wenn diese Daten nicht in Textform, sondern als Audio- oder Videodaten vorliegen. Supercomputer in Hochleistungsrechenzentren besitzen diese Rechenleistung, aber sie besitzen bisher nicht genug Schutzmechanismen, um Daten mit hohem Schutzbedarf sicher zu verarbeiten. Momentan hat eine Organisation wie das IDS also nur die Möglichkeit, selbst einen Supercomputer bereitzustellen, wenn es seinen Nutzern nennenswerte Rechenkapazität bieten will. In Finnland besteht das gleiche Problem, die Nationalbibliothek darf viele ihrer Daten, besonders die aktuellsten, auch nicht aus dem Haus geben, ähnliches gilt für das Nationalarchiv.
CSC - IT Center for Science, welches die beiden finnischen Supercomputer Puhti und Mahti, sowie den europäischen Supercomputer LUMI betreibt, hat für dieses Problem eine Teillösung gefunden, die sich schon in Produktion befindet. Bei dieser "SD Desktop" genannten Lösung werden die Daten verschlüsselt bei CSC abgelegt und können mittels virtuellen Maschinen bearbeitet werden, die keinen direkten Zugang zum Internet haben, nur eine graphische Oberfläche kann vom Internet aus bedient werden. Ergebnisse können nicht einfach aus dem System herauskopiert werden, sondern durchlaufen einen Begutachtungsprozess. Es ist möglich, den Zugang zu dieser Lösung so zu begrenzen, dass Zugang nur von bestimmten Terminals möglich ist, die sich innerhalb einer bestimmten Organisation (wie z.B. dem IDS) befinden müssen. SD Desktop wird momentan schon in einem Pilotprojekt eingesetzt, in dem Eigennamenerkennung und automatische Metadatenextraktion auf teilweise als geheim eingestuften Daten des finnischen Wirtschaftsministeriums stattfindet.
SD Desktop bietet relativ mächtige virtuelle Maschinen an, aber keine massiv parallele Verarbeitung, wie sie auf Supercomputern möglich ist. Wird massiv parallele Verarbeitung mit mehreren tausend Prozessoren benötigt, stösst SD Desktop an Grenzen. Bei CSC arbeiten wir an einer Lösung mit dem Arbeitstitel "HPC Enclave", um sichere Datenverarbeitung auch in einer Supercomputerumgebung wie LUMI zu ermöglichen, die mehrere tausend Benutzer hat. Bei der geplanten "HPC Enclave" werden Rechenknoten des Supercomputers für die sichere Verarbeitung vorbereitet und nach der Verarbeitung von Spuren dieser gesäubert und stehen danach auch für nicht-sensible Aufgaben wieder zur Verfügung.
In dem Vortrag werden sowohl SD Desktop als auch die geplante "HPC Enclave"-Lösung vorgestellt. Es soll der Frage nachgegangen werden, wie ausreichende Sicherheit transparent gewährleistet werden kann. Auch die Herausforderungen des Verschlüsselungsmanagements werden diskutiert. Der Vortrag richtet sich an alle, die mit großen Datenmengen mit erhöhten Schutzbedarf arbeiten und die möglicherweise gleichzeitig viel Rechenleistung benötigen.