Geostammtisch Dresden

Wann:
11. April 2023 um 17:00 – 18:00
2023-04-11T17:00:00+02:00
2023-04-11T18:00:00+02:00
Wo:
online

Am Dienstag, dem 11. April 2023, 17 Uhr findet unser nächster virtueller Geostammtisch statt. Wir laden Mitglieder und Nichtmitglieder herzlich ein, den Impulsvorträgen zu lauschen und sich anschließend mit den Anwesenden auszutauschen und zu diskutieren. Sie können an der Veranstaltung über nachfolgenden Link teilnehmen. Eine Anmeldung ist nicht erforderlich:

https://tu-dresden.zoom.us/j/69178119455?pwd=ZHViVFFMcVhmbnNoSVJVUjZGQnFZUT09

Meeting-ID: 691 7811 9455
Kenncode: 3Pd6.rMT

Einsatz KI-basierter Suchalgorithmen in Datenkatalogen

Simeon Wetzel (TU Dresden)

Die Suche in Datenkatalogen wie z.B. CKAN oder GeoNetwork erfolgt üblicherweise anhand lexikalischer Konzepte. Die Relevanz eines Suchergebnisses wird durch das Vorkommen und die Häufigkeit von Schlüsselwörtern aus der Suchanfrage bestimmt. Dabei wird jedoch der Kontext der Suchbegriffe nicht berücksichtigt. Bei einer lexikalischen Suche nach „Temperatur in Berlin“ würden beispielsweise alle Datensätze mit den Begriffen „Temperatur“ und „Berlin“ angezeigt werden, unabhängig davon, ob sie tatsächlich Informationen zur Temperatur in Berlin enthalten. Eine semantische Suche basierend auf KI-Sprachmodellen versteht den Kontext der Suchbegriffe, kennt Synonyme und kann mit fehlerhaften Sucheingaben umgehen, ohne dass dies explizit implementiert werden muss. Ebenso ist dieser Suchansatz weniger abhängig von der Vollständigkeit und Genauigkeit der Metadaten als traditionelle Ansätze.

Im Bereich KI-Sprachmodelle wurden in den vergangenen Jahren erhebliche Fortschritte erzielt und es steht eine Vielzahl an vortrainierten Modellen zur Verfügung. Umsetzungen im Bereich Geodatensuche liegen aber bislang nicht vor. Damit der Einsatz der Modelle genauere bzw. relevantere Suchergebnisse liefert als traditionelle Algorithmen müssen die Modelle mit den fachspezifischen Vokabularen vertraut gemacht werden, denn ein Sprachmodell kann nur den Kontext von Begriffen einordnen, wenn es diese vorher im Training bereits gesehen hat. So kann beispielsweise ein Modell, das vor 2020 trainiert wurde Begriffe wie „Corona“ nicht einordnen und kennt keine Synonyme wie „Covid-19“. Hier sollen Ansätze für die Feinanpassung von Sprachmodellen auf die Geodatensuche gezeigt werden. Des Weiteren soll anhand eines Prototyps demonstriert werden, wie solch ein angepasstes Sprachmodell in einen Open Data Katalog implementiert werden kann.