Bad (Inspiring) Data #dhiha6

Die historische Soziolinguistik baut notwendigerweise auf schriftliche Überlieferungen als Forschungsgrundlage sowie die Annahme, dass wir das Sprachhandeln vergangener Epochen aus Texten erschließen und darstellen können. Das Prinzip, welches dabei als Gelingensbedingung vorausgesetzt wird — das Uniformitätsprinzip — ist gleichwohl einer ganz anderen Forschungsumgebung entliehen, nämlich der Geologie (wo es auch unter dem Namen ‚Aktualismus‘ firmiert): Wir gehen davon aus, dass Prozesse, die wir heute beobachten und beschreiben können, bereits vor mehreren hundert Jahren gewirkt haben und wir daher ein Verständnis und Methoden der Erschließung für dieselben entwickeln können. Oder mit etwas deutlicherem Zuschnitt auf die Erforschung des Sprachhandelns: Um eine originale historische Kommunikationsrelation zu rekonstruieren, müssen wir voraussetzen, dass dieselbe aus unserer jetzigen Perspektive grundsätzlich darstellbar und verstehbar sei — ohne Fiktionen oder Anachronismen zu erzeugen. Daran schließt sich die Forderung nach einer guten Datenbasis für solche Vorhaben und die verbreitete Klage über bad data an, „‚[B]ad‘ in the sense that it may be fragmentary, corrupted, or many times removed from the actual productions of native speakers.“ — Begrenzte und lückenhafte Corpora sowie mangelhafte oder nur rekonstruierbare Aussagen über Entstehensbedingungen (vor allem der sozialgeschichtlichen) scheinen den Erfolg historisch-soziolinguistischer Forschung von vornherein und generell ihren Aussagewert in Frage zu stellen.

Diese Rede von bad data, die seit den grundlegenden Arbeiten William Labovs in den frühen 1970er Jahren bis heute kursiert, ist jedoch nur verständlich im Rahmen einer erkenntnistheoretischen Position, welche den Anspruch erhebt, die aus historischem Quellenmaterial gewonnenen Daten sollten spezifischen quantitativen Verfahren und daraus abgeleiteten Gütekriterien (Repräsentativität, Generalisierbarkeit, Validität) Genüge leisten. Wenn eine solche Haltung exklusiven Geltungsanspruch erhebt, bewegt sie sich durchaus nahe an der Grenze zum Chauvinismus (der sich dann meist in Aussagen kundtut, dass unter 1 Million Belegstellen / 1 Petabyte Daten die Mühe nicht lohne, überhaupt mit der Auswertung anzufangen). Bad data im strengen Sinne kann es nur für Modelle geben, die das Erreichen eines Forschungszieles bereits mit einer bestimmten Methodologie identifizieren, deren Passung mit den erhobenen Daten über die Verwertbarkeit der letzteren den Urteilsspruch fällt. Eine Perspektive, aus welcher selbst die vordergründig ermutigende Aufforderung, „[to] make the best use of bad data“ noch spricht, solange die Betonung auf der Unzulänglichkeit der Daten liegt.

Wie sähe eine Alternative aus?

Sicherlich bestünde sie nicht in dem Versuch eines absoluten Gegenentwurfs im Sinne eines Absehens von quantitativen Verfahren — vielversprechender scheint da schon das Ansinnen, ein genaueres Verständnis dafür zu entwickeln, was unter ‚best use of data‘ zu verstehen sein könnte. In jüngeren thematischen Veröffentlichungen werden u.a. „systematicity in data collection, extensive background reading and good philological work“ gefordert, vielleicht könnte man als Schlagwort auch ‚gute Quellenhermeneutik‘ ins Feld führen — aber was bedeutet das konkret?

Eine naheliegenden Rahmung bei der Erfassung linguistischer Daten — und damit kann zunächst einmal der Schritt vom handschriftlichen Original zum transkribierten Text gemeint sein — besteht darin, die Materialität der Überlieferung, also sowohl des Beschreibstoffes wie auch des Schriftzeichens selbst, ernst zu nehmen. ‚Linguistische Daten‘ aus historischen Texten sind, darüber täuschen die Rede von ‚Daten‘ und digitale Verarbeitungsweisen manchmal hinweg, schließlich keine virtuellen Einheiten, die einen idealen Sinngehalt codieren, den man beliebig verlustfrei in andere Zeichensysteme übertragen könnte. Zum schriftlichen Sprachhandeln gehören materiale Substrate, die Gesten des Schreibens sowie auch Zeichen der Bearbeitung, also Faltspuren, Durchstreichungen, Risse und Lochungen. Ein gutes Beispiel dafür bieten Rechnungsbelege und Bittschriften (auf Grund der Überlieferungslage und problematischer Autorenzuschreibungen oft gute bad data-Beispiele). Hier eine Supplik aus dem Jahr 1670, verzeichnet im Luxemburger Stadtarchiv unter der Signatur LU I 21–9,12 (fol. 1r)):

Während paläographische und semantosyntaktische Charakteristika die Zuordnung einzelner Textabschnitte des Bearbeitungsprozesses zu verschiedenen Schreibern gestatten (Supplikentext (I), Ordonnanz (II) zur Bezahlung eines Betrages an die Bittstellerin und Quittung (III) derselben über den Erhalt der Summe), erlaubt die Lochung in der Mitte des linken Blattrandes (1) über den Vergleich mit anderen Dokumenten des Bestandes eine Identifizierung als Spur einer Fadenheftung und gibt über ihre Position einen Hinweis auf die Zuordnung der Supplik zu einem spezifischen Posten des Rechnungsjahres. Bei der Durchstreichung der linksseitigen Texteinheiten (2 & 3) handelt es sich um Kanzellierungen, die zur Entwertung im Rahmen der jährlichen Rechnungslegung dienten und den Kommunikationsprozess damit faktisch erst nach Übertragung der Informationen in ein Rechnungsbuch abschlossen. Das ‚Handzeichen‘ hingegen dient als Unterschrift schreibunkundiger Bittsteller — in diesem Fall ein einfaches Kreuzzeichen von der Hand der Supplikantin (4) — zur Validierung der Quittung. Um eine solche Quelle aus soziolinguistischer Perspektive vollständig zu erfassen, ist somit eine Berücksichtigung und Interpretation sämtlicher der hier bezeichneten Bearbeitungsspuren notwendig — und im Sinne eines handschriftennahen Edierens sind dieselben auch in Editionen aufzunehmen, was Fragen der Darstellung aufwirft. Noch nicht berücksichtigt ist in obigem Beispiel nämlich u.a. das Wasserzeichen. Dass ein solches sich nur schlecht über allgemeine sprachliche Beschreibungen (etwa ‚Ochsenkopf‘, ‚Lilie‘ oder ‚Buchstabe C‘) klassifizieren oder gar befriedigend systematisieren lässt, zeigt ein Blick in die ausführlich bebilderte Wasserzeichensammlung Piccard.

Hier soll es nun aber nicht um solche Fragen der editorischen Darstellung im Speziellen gehen, vielmehr um den Befund, dass

1. Editionen grundsätzlich offen und revidierbar sind (oder es sein sollten, digitale Editionen geben hier mittlerweile bedeutend mehr Möglichkeiten an die Hand als solche in gedruckter Form): Je nachdem, aus welchem Forschungskontext eine historische Überlieferung anvisiert wird (wie in obigem Beispiel mit Interesse an den soziofunktionalen Zusammenhängen der Textproduktion, die sich auch in Bearbeitungsspuren niederschlagen), ändern sich die Parameter der Darstellung — und damit wiederum der Aussagewert des in der Edition Dargestellten als Grundlage für alte wie auch neue Fragestellungen. Dass ein solch veränderter Blick mitunter gravierende Auswirkungen auf den Aussagegehalt einer Edition und die darüber möglichen Rückschlüsse für ein adäquateres Verständnis der Überlieferung haben können, zeigt z.B. die Berücksichtigung von Makrostrukturmarkern in der Regula-Benedicti-Tradition durch Franz Simmler.
Als eine Art ‚aufklärendes Verstehen und Aufweisen‘ ist editorische Arbeit immer auch eine hermeneutische — ein fortgesetztes Experimentieren mit Konfiguration und Refiguration.

2. das Vorhaben, Quellencorpora aus Gründen einer besseren Grundierung der Daten von unterschiedlichen Forschungskontexten her anzuvisieren, zu Versuchen anregt. An die hier nur knapp skizzierte soziofunktionale Perspektive, die es auf die Materialität der Überlieferung abgesehen hat und Texte als Korrelate von Sprachhandlungen interpretiert, können z.B. historische Städtegeographie, prosopographische Studien, solche zur Verwaltungsgeschichte, Wasserzeichen- und Papierkunde angeschlossen werden, um nur einige wenige zu nennen. ‚Gute Quellenhermeneutik‘ könnte also eine solche sein, welche Fragestellungen und Methoden benachbarter oder auch augenscheinlich ferner (vgl. z.B. das Projekt ‚Sprache und Genom‘) Forschungsdisziplinen für sich in Anspruch nimmt, auch wenn das Ergebnis (noch) nicht absehbar ist.

Sogenannte Bad data laden zu hermeneutischen Experimenten ein.

A single golf clap? Or a long standing ovation?

By clapping more or less, you can signal to us which stories really stand out.