Praktikum

Information Systems Engineering Projekt

Eine Veranstaltung der Lehrstühle Datenbanksysteme und Software Engineering

 

Im Rahmen der Vertiefungsrichtung Information Systems Engineering findet im Wintersemester 2013/14 das große Information Systems Engineering Projekt statt.

Das Ziel ist in einem Team Software zu entwickeln

  • für einen externen Kunden, der die Software weiterentwickeln will,
  • mit modernen Technologien aus dem Bereich Datenbanken und Middleware,
  • mit einem systematischen Vorgehen und entsprechenden Softwareentwicklungswerkzeugen.

Der Kunde: Die Universitätsbibliothek Heidelberg
Die Universitätsbibliothek Heidelberg belegt dieses Jahr das vierte mal in Folge den Spitzenplatz in dem renommierten Bibliothekindex BIX. Eines der Alleinstellungsmerkmale der Bibliothek ist die umfassende Infrastruktur zur Erstellung von Digitalisaten und deren Aufbereitung für die Internetpräsentation; siehe hierzu beispielsweise die Heidelberger historischen Bestände unter http://hd-historische-bestaende-digital.unihd.de. Zur effizienten und qualitativ hochwertigen Extraktion von Digitalisaten und entsprechenden Metadaten wurde das Programm DWork – Heidelberger  Digitalisierungsworkflow realisiert, das den gesamtem Produktionsprozess der Digitalisierung automatisiert. Dieses beinhaltet auch die Volltexterfassung ausgewählter Bücher und Zeitschriften mithilfe moderner Optical Character Recognition (OCR) Verfahren.

Das Thema
Die Suche und Exploration von verteilten und heterogenen Datenbeständen hat in den letzten Jahren zunehmend an Bedeutung gewonnen. Mit ein Grund hierfür ist, dass durch verschiedenste neuartige Digitalisierungsverfahren von Dokumenten, die vorher meist nur in Archiven verfügbar waren, nun sehr grosse Menge an Daten im Web zur Verfügung gestellt und über entsprechende Web-basierte Schnittstellen individuell angefragt werden können. Hierzu zählen insbesondere Digitalisate historischer Dokumente, wie beispielsweise Schriftstücke, Briefe oder Bilder.

Wie können diese bis dato isolierten und sehr reichhaltigen Datenbestände miteinander verknüpft und angefragt werden, ohne die Daten physisch in einem grossen Repository zu integrieren? Die Linked Open Data Initiative (mit DBPedia als ein prominenter zentraler Punkt dieser Initiativen, siehe http://linkeddata.org/) bietet hierzu geeignete Modelle, Architekturen und Tools. Kernpunkt dieser Ansätze ist es, Informationen zu Objekten im Web mithilfe des Resource Description Framework (RDF) zu beschreiben und zu verknüpfen. Die Informationen werden dabei als Fakten in Form von (Subjekt, Prädikat, Objekt)-Triple spezifiziert. Die Integration von Fakten zu Objekten erfolgt über die Verknüpfung der Fakten auf einer logischen Ebene, da sich ein Fakt auf einen anderen Fakt beziehen kann. Die Fakten selbst können zentral aber auch verteilt in sogenannten Triple-Stores verwaltet werden. Konzeptionell hat man sehr grosse RDF-Graphen von verknüpften Fakten zu verwalten und zu bearbeiten. Diese Graphen können dann über standardisierte
Anfragesprachen wie beispielsweise SPARQL angefragt werden, welche meist als Middleware-Layer zwischen Triple-Store und Webschnittstelle eingesetzt werden.


Die Aufgabenstellung
Das Ziel des Praktikums ist es, eine Plattform zu realisieren, die es erlaubt, Textdaten und Bilddaten mithilfe von Linked Open Data Techniken zu verknüpfen und über geeignete Webbasierte Schnittstellen anzufragen und zu explorieren. Als Datenbasis dienen hierfür von der UB Heidelberg zur Verfügung gestellte Bild- und Textarchive, die sich schwerpunktmäßig mit kunsthistorischen und altertumswissenschaftlichen Dokumenten beschäftigen. Die Texte und Bilder liegen dabei als Digitalisate vor. Zu den Bildern sowie auch den Texten existieren Metadaten, die wesentliche Eigenschaften der Bilder und Texte in einem Standard-Format beschreiben. Im ersten Schritt sind diese Metadaten geeignet in RDF umzuwandeln (RDFication) und zu verknüpfen. Bei der Verknüpfung entstehen dann neue Fakten, die Beziehungen beschreiben. Bei den Metadaten sollen in einer späteren Phase des Projekts u.a. auch Annotationen berücksichtigt bzw. RDFiziert werden, die Benutzer den Bildern hinzugefügt haben.

In der zweiten Phase sollen aus den OCR Vorlagen der Text mithilfe von Informationsextraktionsverfahren (Named Entity Recognition) und entsprechenden Tools weitere Fakten abgeleitet werden. Hierzu gehören insbesondere im Text erwähnte Personen, Orte, Zeiten und Bilder. Diese extrahierten Daten sind ebenso in RDF darzustellen und mit den existierenden Daten, insbesondere denen von Bildern, zu verlinken. Durch diese Verknüpfung von Bild und Textdaten lassen sich somit sehr ausdrucksstarke Anfrage- und Explorationsszenarien konstruieren. So sollte man beispielsweise nach einem Bild von einem gegeben Künstler suchen können und sich dann über die Verlinkung Textstellen in Dokumenten anzeigen lassen können, in dem dieses Bild erwähnt ist. In diesem Text können dann u.U. andere Bilder erwähnt werden, zu denen man dann geeignet über entsprechende Verknüpfungen navigiert. Ähnliche Szenarien lassen sich auch für Annotationen formulieren, die mit Bildern verknüpft sind.

TeilnehmerInnen
Am Praktikum können alle Studierenden teilnehmen, die die Lehrveranstaltung „Einführung in Software Engineering“ (ISW) und „Datenbanken I“ (IDBI) erfolgreich bestanden haben. Das Projekt wird teilweise als kompakter Block vor (2 Wochen) und nach (2-3 Wochen) der Vorlesungszeit durchgeführt. Die Einarbeitung in neue Technologien sollte teilweise in der vorlesungsfreien Zeit erfolgen.

Leitung

Prof. Dr. Michael Gertz
<link people barbara_paech.html>Prof. Dr. Barbara Paech
Dipl.-Ing. Gabriele Zorn-Pauli
Dipl.-Geogr. Christian Sengstock

Zeit und Ort

Vorbesprechung: Donnerstag 18.7.2013 um 13:00 Uhr
Im Neuenheimer Feld 306, SR 21
Weitere Termine nach Vereinbarung

Teilnahme

Bachelor/Master Angewandte Informatik sowie HörerInnen anderer Fachrichtungen

Voraussetzungen

Erfolgreiche Teilnahme an den Vorlesungen 'Einführung in Software Engineering' (ISW) und 'Datenbanken I' (IDBI)

Leistungsnachweis

Leistungsnachweis je nach Studiengang

KONTAKT

Prof. Dr. Barbara Paech, INF326, Raum 208

Contact | Travel Info

News

CrowdRE'23: Keynote 'Reflections on Human Values in Crowd-based Requirements Engineering' held by Barbara Paech

REFSQ 2023: Keynote 'Explicit and Implicit Values in and of Requirements Engineering Practice and Research' held by Barbara Paech

Our paper 'Empirical Research Design for Software Architecture Decision Making: An Analysis' was selected for the JSS Happy Hour. You can watch it on YouTube

2020-2023 Barbara Paech member of DFG review board "software engineering and programing languages"

Anja Kleebaum et al. 'Continuous Design Decision Support'. Chapter published in 'Managed Software Evolution' (2019)