Universitätsbibliothek Regensburg
^  Wir über uns   ^  Projekte
Projekt Meta-Akad

Sammeln von Lerndokumenten



Der Aufbau einer umfangreichen, repräsentativen Sammlung von Lern- und Lehrmaterial wird als besonders kritisch für den Erfolg des Dienstes beurteilt.

Um mit den gesammelten Dokumenten schnell eine kritische Masse zu erreichen wird eine mehrgleisige Strategie gefahren:

  • intellektuelle Webrecherche
  • intellektuelle Webrecherche mit Unterstützung durch ein halbautomatisches Softwaresystem
  • automatisches Sammeln
Während der Projektlaufzeit wird (vorwiegend) für die folgenden fünf Fächer gesammelt (und mit Metadaten erschlossen):

  • Biologie
  • Germanistik
  • Mathematik
  • Physik
  • Psychologie

Intellektuelle Webrecherche

An der UB Kaiserslautern wurde bereits vor dem Projekt Meta-Akad ein datenbankgestützes Webportal für Lerndokumente aus Mathematik und Physik für Lerndokumente aus Mathematik und Physik aufgebaut und betrieben. Diese Sammlung wurde während der bisherigen Projektlaufzeit durch intellektuelle Webrecherche erweitert und weitgehend mit Metadaten erschlossen.

Softwaregestützte Webrecherche

Die intellektuelle Webrecherche ist eine sehr zeitintensive Aufgabe, die vom Rechercheur höchste Konzentration erfordert. An der UB Regensburg erkannte man, dass die herkömmlichen Werkzeuge (Browser, Bookmarkverwaltung, Suchmaschinen) für diesen Zweck unbefriedigend sind:

  1. Die gesuchten Dokumente werden von allgemeinen Web-Suchmaschinen nur teilweise erfasst.
    • Die Dokumente liegen in einer Vielzahl von Dateiformaten vor.
    • Die Dokumente liegen oft tief in den Verzeichnissen der Site vergraben.
  2. Das rekursive Durchsuchen großer Web-Verzeichnisse (Portale, Linksammlungen) erfordert hohe Konzentration und Gedächtnisleistung und ist fehleranfällig.
  3. Mit zunehmender Größe der Dokumentensammlung wird es für den Rechercheur immer schwieriger zu erkennen, ob ein Dokument bereits erfasst ist, oder nicht. Die über mehrere Personen verteilte Recherche verschärft dieses Problem zusätzlich.

Um die Webrecherche möglichst einfach und effizient zu machen, wurde ein halbautomatisches Unterstützungssystem entwickelt. Dieses System verfügt über folgende Komponenten:

  1. Ein Webindizierer (Harvest) erfasst große Dokumentsammlungen und bietet Zugriff über eine komfortable Volltextsuche.
  2. Ein eigens entwickelter CGI-Proxy "begleitet" den Benutzer beim Browsen und bietet ihm nützliche Funktionen:
    • Für das Dokument und jeden enthaltenen Link wird angezeigt, ob dieses/dieser bereits erfasst ist.
    • Im Dokument enthaltene Metadaten (Autor, Titel, URL) werden extrahiert.
    • Ein Formular ermöglicht die schnelle Erfassung des Dokuments. Dabei werden extrahierte Metadaten automatisch in das Formular übertragen.
  3. Erfasste Dokumente werden mit einfachen Metadaten in einer zentralen Datenbank gespeichert.
  4. Der Benutzer kann der Suchmaschine neue Dokumente zum "Ernten" bekannt geben.

Das System wurde unter dem Namen Pony entwickelt und ist seit November 2001 im Einsatz.

Automatisches Sammeln

An der Universitätsbibliothek Kaiserslautern wird ein System entwickelt, dass in der Lage ist, automatisch Lerndokumente zu sammeln. Es besteht aus zwei wesentlichen Komponenten:

  1. Ein Webindizierer sammelt von definierten Startpunkten aus Webdokumente ein
  2. Ein Klassifizierer prüft, ob es sich bei einem Dokument (wahrscheinlich) um ein Lerndokument eines bestimmten Faches handelt.

Für den Indizierer wird die Suchmaschine ASPSeek eingesetzt, die sehr leistungsfähig und leicht anpassbar ist, viele Dateitypen unterstützt und unter einer Open Source Lizenz verfügbar ist.

Der erste Ansatz einer Klassifizierungskomponente basierte zunächst auf intellektuell erzeugten fachspezifischen Wortlisten. Da auf diese Weise keine ausreichende Trefferrate erreicht werden konnte, wurde in einem zweiten Entwurf das Modell der Support Vector Machine (SVM) erprobt. Dabei handelt es ich um ein selbst lernendes Verfahren, welches positive und negative Lernmengen voraussetzt. Nach dem Lernvorgang kann jedes Dokument mit beiden Lernmengen auf Ähnlichkeit verglichen werden. Die positiven Lernmengen können leicht aus dem bereits intellektuell gesammelten Material generiert werden. Für die Erzeugung geeigneter Negativmengen bietet Pony gute Unterstützung. Die Komponente wird mit dem Produkt SVMlight implementiert.