Nach längerer Zeit mal wieder ein Veranstaltungsbericht hier im Blog: Am 12/13. Juli fand in München auf Einladung von Christoph Neuberger und Christian Nürnbergk der Workshop „Methodeninnovationen in der Internetforschung – interdisziplinäre Zugänge“ statt. Die Veranstaltung war „intern“ gehalten in dem Sinne, dass es keinen offenen Call gab und auch keine öffentliche Einladung; vielmehr nutzte das Münchner Team die zwei Tage, um Beteiligte aus ihren verschiedenen Forschungsnetzwerken zusammen zu bringen und in kleinerem Kreis ((… der dann doch nicht so klein war; ich schätze mal dass etwa 40 Teilnehmer/innen dabei waren.)) neue methodologische Ansätze zu diskutieren.
Meine Notizen zu den einzelnen Vorträgen:
Axel Bruns (Brisbane) berichtete zum Einstieg über das groß angelegte Projekt zum „Mapping of the Australian Twittersphere“. Das Team am cci erfasst in großem Stil die Twitter-Kommunikation in bzw. aus Australien (derzeit sind knapp unter einer Million Accounts in ihrer Datenbank) und werten u.a. die Strukturen rund um thematische hashtags oder auch die generelle Netzwerktopologie der australischen Twittersphäre aus. In theoretisch-begrifflicher Hinsicht sind sie an Strukturen und Wandel von vernetzten Öffentlichkeiten interessiert. Axel unterschied z.B. „micro publics“ (Konversationen aus @-replies und Retweets), „meso publics“ (hashtag ‚communities‘) und „macro publics“ (größere thematische Netzwerke).
In der Diskussion kam u.a. der interessante und berechtigte Einwand, dass wir noch zu wenig darüber wissen, wofür die Visualisierungen und netzwerkanalytischen Verdichtungen eigentlich stehen – die Analyse von Big Data wie in diesem Fall könne nur der erste Schritt sein, um dahinterliegende soziale Praktiken o.ä. zu identifizieren.
Christian Nuernbergk (München) stellte anschließend Ergebnisse seiner Dissertation vor, in der er Netzwerk- und Inhaltsanalyse kombinierte, um „Anschlusskommunikation in der Netzwerköffentlichkeit“ zu untersuchen. Als Zuspitzung wählte er das Verhältnis von etablierter und alternativer Öffentlichkeit, insbesondere in Hinblick auf Funktionen und Dimensionen „Beobachtung/Transparenz“, „Valdiierung“, „Orientierung“ und „Identität[stiftung]“; als empirischen Gegenstand die Berichterstattung über den G8-Gipfel in Heiligendamm bei Spiegel Online und Indymedia sowie die darin anschließende Kommunikation in der Blogosphäre. Die Ergebnisse – beeindruckend differenziert und facettenreich – kann ich gar nicht in wenigen Punkten zusammenfassen. Aber mir scheint (und Christian Nuernbergk hat das in der Diskussion auch bestätigt), dass hier Operationalisierungen und theoretisches Gerüst erarbeitet wurden, die auch auf andere Kommunikationsräume der Netzwerköffentlichkeiten wie Twitter oder Facebook übertragen werden können.
Linh Dang-Xuan (Münster) stellte einen „methodological framework for social media analytics“ vor, wobei er vor allem auf ökonomische und politische Kommunikation fokussierte. Er systematisierte dazu verschiedene technische Ansätze und Mechanismen, um eine Datenbank mit strukturierten Informationen (z.B. Metadaten wie Datum oder Autorname) und unstrukturierten Daten (z.B. die eigentlich Tweettexte oder Blogeinträge) aufzubauen. Diese Datenbank könnte vier Analyseansätze „bedienen“: Die „aufmerksamkeitsbezogene Perspektive“ würde z.B. die Häufigkeit der Nennung von Markennamen fokussieren, die „strukturelle Perspektive“ mit Hilfe von Netzwerkanalysen Zentralität von Sprechern o.ä. fokussieren, die „Meinungs-/Tonalitäts-Perspektive“ würde sich der Sentimentanalyse bedienen, und die „Trend-Perspektive“ unter Zuhilfenahme von Inhaltsanalysen könnte Themen- und Diskursverläufe oder Frames ermitteln. Als Ordnungsrahmen für einzelne Teilprojekte und Methoden schien mir das durchaus hilfreich zu sein; es ist im Wesentlichen eine Sortierung und systematisierung der Arbeitsschritte und Facetten der social-web-Analyse.
Ein sehr anregender Vortrag kam von Manfred Stede (Potsdam), der aus Perspektive der Computerlinguistik über Verfahren des „opinion mining“ und „argument mining“ berichtete, also der automatischen Extraktion von Meinungen und – darauf aufbauend – von Argumentationen. Den größten Teil des Vortrags machte eine (für mich als linguistisch Ungebildeten) ziemlich interessante Darstellung der semantischen Fallstricke von (englischer) Sprache aus, die eine automatisierte Erkennung der Richtung und Stärke von Meinungsäußerungen erschweren. Die automatisierte Analyse von Argumentationsgängen ist noch einmal schwieriger, weil Schlußfolgerungen auf Begründungen zurückgeführt werden können, aber Gegenargumente und Gegen-Gegenargumente wieder in sich verschachtelt sein können. Diese Argumentationsstrukturen zum Beispiel durch Rückgriff auf Kausalkonnektoren oder generalisierte rhetorische Muster zu identifizieren, ist im Moment wohl „scientific frontier“ – und all das auf die „schriftliche Mündlichkeit“ der sozialen Medien zu übertragen, bedarf noch reichlich Arbeit. Aber sehr spannend, und aus dem Publikum kamen viele Nachfragen von Kolleg/innen aus der KW, die händeringend nach Werkzeugen für automatisierte Textanalysen suchen.. ;-)
Zum Abschluss präsentierte der Informatiker Francois Bry (München) drei Beispiele von „Sozialen Medien in der angewandten Informatik“:
1) Artigo, ein „Kunstgeschichtsspiel“, bei dem man Bilder aus der Kunstgeschichte taggen soll und Punkte für Übereinstimmungen mit den Begriffen anderer Spieler. Es ähnelt dem „ESP Game“, bietet aber für den Einsatz in der Kunstgeschichte oder auch Museumspädagogik sehr interessante Ansatzpunkte.
2) „Backstage“ ist ein Werkzeug zur Etablierung eines „backchannels“ für Massenvorlesungen. Zuhörer sehen die Folien des Dozenten auf ihrem Rechner und können sie – sichtbar für andere Zuhörer, aber nicht den Redner – mit Fragen & Antworten versehen; zudem sind Tools für kleine Quizzes o.ä. implementiert. Bry zufolge steigert dieses Werkzeug Verstehen und Involvement der Studierenden.
3) Schließlich kamen noch Überlegungen zur kollaborativen Schätzung von Kreditrisiken über ein Versicherungsmodell, das Ausfallrisiken analog zu Suchmaschinen-Rankings berechnet. Das klingt vermutlich unverständlich, was aber daran liegt, dass ich dem ganzen ehrlich gesagt nicht mehr folgen konnte… :-/
Der Freitag morgen begann mit Katarina Stanoevska-Slabeva (St. Gallen), die Ergebnisse einer Studie zur journalistischen Vermittlungsleistung in der Netzwerkkommunikation, die die Rolle von Robert Mackey (New York Times) und seiner Twitter-Aktivitäten während der 2009er Iran-Revolution beleuchtete. Ich kannte die Studie schon aus einem Artikel in M&K ((siehe Thomas Plotkowiak / Katarina Stanoevska-Slabeva / Jana Ebermann / Miriam Meckel / Matthes Fleck (2012): Netzwerk-Journalismus. Zur veränderten Vermittlerrolle von Journalisten am Beispiel einer Case Study zu Twitter und den Unruhen in Iran. In: Medien & Kommunikationswissenschaft, 2012, Nr. 1.)) und finde sie als Fallstudie (ein Journalist, ein Thema) sehr aufschlussreich, weil sie die neue „broker“-Rolle von Journalisten zwischen den etablierten Medien und den social-web-Öffentlichkeiten schön aufzeigt. In der Diskussion kam aber noch eine interessante Facette von „akademischer digitaler Spaltung“ zur Sprache: Twitter, aber auch andere social-media-Angebote bieten eine Fülle von Daten, die „klassisch“ ausgebildete Kommunikationswissenschaftler letztlich nur in interdisziplinärer Kooperation mit Informatikern oder zumindest entsprechend programmiererisch gebildeten Experten aufbereiten und verarbeiten können (siehe z.B. auch das Jobangebot von Axel Bruns „we urgently need a Twitter API / social media / big data developer“.). Wenn dieses Know-How fehlt, können viele interessante und erweiterte Fragestellungen nicht bearbeitet werden.
Tom Häussler & Hannah Schmid-Petri (Bern) diskutierten in ihrem Vortrag, warum „Gut gecrawled ist noch nicht gescraped“ gilt. Am Beispiel eines Projekts aus der politischen Kommunikationsforschung gingen sie vor allem auf methodologische Probleme beim automatisierten Sammeln von online-Texten ein: Tools zum Identifizieren von Verlinkungen (Crawling) oder zum Extrahieren von Dokumenten (Scraping) stellen je nach „fine-tuning“ Unmengen von Daten zur Verfügung. Für thematische Analysen von Diskurs- oder Akteurskonstellationen müssen diese Daten wiederum gefiltert werden, was durch automatisierte Verfahren bislang nur so mittel-gut funktioniert. In der Diskussion kam u.a. von Michael Scharkow der Vorschlag, das Problem von „Filterfehlern“ – Texte werden fälschlich ins endgültige Sample aufgenommen oder daraus ausgeschlossen – mit Hilfe von maschinellem Lernen begegnet werden könnte – siehe dazu auch seine Diss an der Uni Hohenheim.
Tanya Nitins (Brisbane) widmete sich dem Thema „Analysing Entertainment in the Age of Twitter“ – Twitter (wie auch andere soziale Medien) ist in dieser Hinsicht recht dankbar, weil Künstler, Marken und Unternehmen aus der Unterhaltungsbranche dort sehr aktiv sind und man die Konvergenz von professioneller Kommunikation und Produktion einerseits und den Konversationen der Fan-Communities andererseits gut beobachten kann. Sie stellte drei einzelne Studien vor, die sich der Twitterkommunikation rund um verschiedene Anlässe annehmen:
(1) dem „Sony Playstation Hacking“-Ereignis im April 2011 (siehe auch ihren Eintrag im „Mapping Online Publics“-Blog)
(2) die australische Kochshow „Masterchef“, die sie in Hinblick auf product placement in der Show und die korrespondierenden (kritischen) Erwähnungen auf Twitter.
(3) den Zusammenhang zwischen den Beurteilungen von Filmen auf Twitter und den Einspielergebnissen; hier steht sie erst am Anfang der Datenerhebung.
Thorsten Quandt, Michael Scharkow und Elisabeth Günther (Hohenheim) stellten einen Werkstattbericht zur automatisierten Textanalyse vor und gingen detailliert auf die verschiedenen Schritte (von der Datenerhebung und -speicherung über die Datenbereinigung und Codierung bis hin zur Darstellung und Visualisierung). Der Kosten- und Zeitersparnis, gerade bei großen Korpi, stehen eine Reihe von Problemen gegenüber, z.B. weil in manchen Fällen menschliche Codierer nach wie vor präziser sind oder auch weil die automatisierte Extraktion von relevanten Texten (z.B. Artikeln) oder die Identifikation spezifischer Elemente (z.B. eingebettete Videos) aus ganzen Webseiten nicht völlig trivial ist.
Sulkhan Metreveli (Zürich) beschloß den Workshop mit einem Vortrag zur „vollautomatisierten Analyse von Internet-Inhalten am Beispiel von Finanznachrichten“ – in gewisser Weise also eine Exemplifizierung der generellen Überlegungen der Hohenheimer vor ihm. Seine Forschungsfrage – welche Auswirkungen haben Finanznachrichten auf Preisentwicklung? – beantwortete er u.a. mit Hilfe einer automatisierten Inhaltsanalyse. Er identifizierte ähnliche Probleme wie die anderen Redner; v.a. die technischen Probleme der computergestützten Textanalyse seien noch nicht wirklich gelöst.
Ein kurzes, stichpunktartiges Fazit
Die Vorträge haben sehr interessante Beispiele für innovative Methoden geschildert; eine Herausforderung wird sein, in der Theorieentwicklung und -prüfung nachzuziehen. Nur wenn ein Verständnis vom sozialen Handeln hinter den Daten vorhanden ist, und wenn inhaltlich begründete Modelle und Hypothesen hinzutreten, lassen sich die Versprechen von „big data“ und automatisierten Methoden wirklich einlösen.
Für einen Folgeworkshop wäre zu überlegen, inwieweit man Methodeninnovationen in der Internetforschung auch in Bereichen & Verfahren jenseits des „Computerisierbaren“ findet. Was tut sich beispielsweise in den eher qualitativ orientierten Ansätzen? Oder wie ist der state of the art (und der Blick darüber hinaus) in der „Cyberethnographie“?
Das Format der Veranstaltung ähnelte den Fachgruppentagungen o.ä., mit dem Vorteil, dass für die einzelnen Themen mehr Zeit als üblich (nämlich 40 Minuten) eingeplant waren. Das war hilfreich – auch wenn einige Vorträge sogar diese Vorgabe überzogen.. ;-). Nach wie vor offen ist für mich aber, wie man einen solchen Workshop organisieren müsste, um tatsächlich auch gemeinsam Dinge zu erarbeiten. Vermutlich wäre eine vorab-Strukturierung notwendig, die zu beantwortende Fragen aufgibt, oder aber von den Teilnehmern offene Fragen einsammelt und dann in Arbeitsgruppen diskutieren lässt. Hat jemand meiner geneigten Leserschaft Hinweise auf „best practice“-Beispiele aus dem akademischen Bereich hierzu?