Agenda des zweiten F-AG Workshops

Donnerstag 29.03.2012; Saarbrücken
Uni Campus, Gebäude C7.4, 1. Stock, Raum 1.17 (Konferenzraum)

Der Workshop ist ein Forum zum Austausch zwischen den CLARIN-D Zentren und den Fachdisziplinen. Themen des Workshops sind u.a. (Programm als pdf):

  • die CLARIN-D Infrastruktur
    • Welche Dienste sind geplant/verfügbar/werden bald verfügbar sein?
    • Wie/Wozu können diese Dienste genutzt werden?
    • Was sind bisher bekannte erfolgreiche Anwendungen und Nutzungen?
  • Demosession - Vorstellung von Tools und Ressourcen
  • Umgang mit rechtlichen Fragen

Programm

08:30 Begrüßung
08:40 Kurationsprojekte
09:30 Anregungen der F-AG 7 zur Kuration von NLP Werkzeugen in CLARIN-D:                    Ressourcen Life-Cycle und Domänenadaptation (Prof. Frank; F-AG 7)
10:15 Pause
10:30 CLARIN-D Infrastruktur (Dieter van Uytvanck; AP 3 / TM)
11:10 AP3 / Demosession
12:00 Mittagspause (+Fortsetzung der Demosession)
13:00 Umgang mit rechtlichen Fragen (Erik Ketzan; AP 6; 15min)
14:00 Pause
14:15 Zentrale Dokumentation digitaler Ressourcen im Clarin-Kontext:
           Möglichkeiten, Strategien, technische Umsetzungsweisen
           (Prof. Gloning; F-AG 1)
15:00 Wie können die F-AGs zur Erstellung des Evaluationshandbuchs beitragen?
           (Axel Herold; AP 5)
15:30 Pause
15:45 Sitzung des Fachgruppenausschusses
16:45 Ende der Veranstaltung

Demosession

Kurzbeschreibung aller Demos als pdf

EXMARaLDA

Im Rahmen eines überregionalen Verbundprojektes soll das Spektrum der Alltagssprache in Norddeutschland (Basisdialekte, Zwischensprachlagen, Standardsprache) sowie deren Perzeption untersucht werden. Zu diesem Zweck wird unter Verwendung des EXMARaLDA Systems ein mehrebenenannotiertes Korpus gesprochener Sprache erstellt, das es erlaubt, Informationen, die aus objektsprachliche Daten gewonnen werden, mit Perzeptionsdaten sowie umfassenden sprecherbiographischen Informationen zu korrelieren.
Timm Lehmberg (Uni Hamburg)

ArchiveArchive use

Ein Wissenschaftler(in) hat wertvolle Sprachdaten in unterschiedlicher Form (Text Photos, Audio/Video-Aufnahmen, Augenbewegungen, Brain-Images, Lexika und/oder Annotationen) und möchte dies langfristig archivieren und anderen Wissenschaftern zugänglich machen. Zu diesem Zweck bietet das Sprach-Archiv des MPI eine „offene“ Archivierungs-Möglichkeit die bereits von externe Wissenschaftlern genutzt wird. So hat das Sprach-Archiv z.B. in der letzten Zeit das umfangreiche Human-Ethologische Archiv von I. Eibl-Eibesfeldt komplett digitalisiert und in das Archiv gestellt.

Ein Wissenschaftler(in) möchte in einer typologischen Studie untersuchen, welche funktionale Rolle verschiedene nominale Kasus und Präpositionen in verschiedenen Sprachfamilien spielen. Anstatt nur Grammatiken zu konsultieren, die üblicherweise wenig über den tatsächlichen Gebrauch (Häufigkeit, Präferenz bei alternativen Ausdrucksmöglichkeiten etc.) angeben, soll die Untersuchung korpusbasiert ausgeführt werden. Ausgehend von typischen Verben ausgewählter semantischer Felder (bestimmte transitive und di-transitive Verben, Bewegungs-/Positions-/Platzierungsverben...) sollen die damit auftretenden nominalen Ausdrücke auf ihre Kasus bzw. Präpositionen statistisch betrachtet werden.
Sebastian Drude (MPI)

ELAN + AVAtech

Ein Wissenschaftler(in) will wissen, ob sich die Gestik bei Politikern von der der Allgemeinheit unterscheidet und eventuell antrainier ist. Dazu soll eine größere Menge an Audio/Vid Material so effizient wie möglich annotiert werden. Zu diesem Zweck werden das ELAN Tool und neue Services verwendet.
Przemek Lenkiewicz (MPI)

VLOISOcatArbil

Eine Wissenschaftler(In) sucht nach einem Korpus, einem Lexikon, einem Parser oder einer anderen SprachRessource oder einem Werkzeug. Aufgrund der Zeitknappheit möchte er/sie sich über eine entsprechendes Portal einen schnellen Überblick verschaffen über das, was von den verschiedenen Zentren in Deutschland, aber auch weltweit, angeboten wird. Daher wird CLARINs VLO Portal verwendet.

Ein Wissenschaftler(in) möchte über verschiedene Korpora und Repositorien hinweg Operationen wie z.B. Suchen ausführen. Derartige Suchen können sich sowohl auf Metadaten wie auch auf die Inhalte von Ressourcen beziehen. Es bedarf eines flexiblen Mechanismus, um Tags (semantische Kategorien) in pragmatischer Weise auf einander abzubilden ohne dabei die semantischen Definitionen in den Annotationen, Lexika etc. zu verändern.

Ein Wissenschaftler(in) hat eine Menge an Ressourcen oder auch Tools, möchte vor allem die Ressourcen logisch ordnen und Ressourcen Sets bzw. Tools effizient mit Metadaten versehen, um sie dann in ein online Repository hochzuladen und somit allen sichtbar bzw. auch verfügbar zu machen. In der gegenwärtigen Welt enorm zunehmender Ressourcen und z.T. auch Tools sind hochwertige Metadaten der einzige Weg, um den Zugang zu diesen auch in Zukunft zu finden bzw. diese zu pflegen.
Dieter van Uytvanck (MPI)

WebLicht

Mit WebLicht können Texte jeder Art in momentan 8 verschiedenen Sprachen linguistisch annotiert und anschließend statistisch analysiert und visualisiert werden. Benutzer können eigene Texte in WebLicht hochladen oder auf die integrierten Textkorpora zurückgreifen.
Thomas Zastrow (Uni Tübingen)

DTAQ

Eine Arbeitsgruppe digitalisiert als Grundlage ihrer Forschungsarbeiten historische Texte anhand der zugehörigen Bildvorlagen. Diese Texte sollen über das Deutsche Textarchiv (DTA) und damit auch innerhalb von Clarin-D für eine breitere Nutzergemeinschaft zugänglich und vielfältig nachnutzbar gemacht werden. Zur Qualitätssicherung der Daten dient die verteilte Korrekturumgebung DTAQ.
Susanne Haaf (BBAW)

GuteBelegeFinder

Lexikographie: Ein(e) Lexikograph / Lexikographin sucht für ihre/seine lexikographischen Arbeiten / Artikel gute Belege mit einer gewissen zeitlichen Ausgewogenheit. Hierfür liefert das Werkzeug für das zu bearbeitende
Stichwort eine Menge an Belegen, welche nach bestimmten Kriterien für die dokumentarische Aufgabe am besten geeignet ist.

Computerlinguistik: Der Forscher/die Forscherin sucht für die zu lösende Aufgabe, zum Beispiel Wortartendisambiguierung, gute Beispielsätze, die weder zu lang noch syntaktisch zu komplex sind und möglichst viele „typische Kookkurrenzpartner“ aufweisen.
Alexander Geyken (BBAW)

Interaktives Textanalysewerkzeug

Eine Wissenschaftssoziologin möchte die innerhalb eines Textkorpus enthaltene Information bezüglich der Relation ist-akademischer-Lehrer-von mit Blick auf Forscher des 19. Jahrhunderts untersuchen. Sie ist an der Generierung ihr unbekannter Ergebnisse interessiert, die sie (semi-)automatisch aus der im Textkorpus enthaltenen Information extrahieren möchte.
Jonas Kuhn und Andre Blessing (Uni Stuttgart)

PercyWebMAUSWikiSpeech

Eine Studentin der Phonetik möchte die Intonation, insbesondere den Fokus, im Estnischen untersuchen. Sie möchte nun testen, ob Esten systematisch variierte Fokus-Unterschiede in gesprochenen Äußerungen auch tatsächlich wahrnehmen können.

Eine Wissenschaftlerin möchte von 20 Sprechern und Sprecherinnen jeweils 100 für die Dialektforschung interessante Sätze lesen lassen und benötigt für die Auswertung eine phonetische Transkription und Segmentation dieser Aufnahmen, um z.B. die geographische Verteilung von Vokalvarianten zu zeigen oder die Dauern von dialektalen Varianten zu messen.

Eine Sprachtechnologin möchte ein Spracherkennungssystem für eine Sprache entwickeln, für die es noch keine maschinelle Spracherkennung gibt, z.B. afrikanisches Portugiesisch in Angola und Mosambik. Sie benötigt dafü eine Sprachdatenbank mit einheitlichem, an das Anwendungsgebiet angepasstem Inhalt von mindestens 100 Sprechern.
Christoph Draxler (BAS)