Want to make creations as awesome as this one?

Von den Forschenden aus dem Projekt PeerInnovation wurde eine digitale Toolbox (PICI) entwickelt, mit der Innovationsaktivitäten in Online Foren gemessen werden können.

Transcript

Erweiterungsmöglichkeit: Die Toolbox PICI kann für die Auswertung der Foren weiterer Peer Communities genutzt werden. Die dazu benötigten Daten können entweder aus einer statischen Datei oder dynamisch per Webscraping, Datenbank, oder sonstiger Schnittstelle (API) geladen werden. Die statische Datei muss der vorgegebenen Datenstruktur entsprechen, die im Online-Handbuch der PICI- Dokumentation auf der Plattform GitHub beschrieben ist. Bei den drei untersuchten Communities wurden die dynamischen Verknüpfungen bereits erstellt. So können in diesen Communities regelmäßig automatisiert neue Daten der Community-Foren aus dem Internet geladen werden. Für jede neue Datenquelle müssen entsprechende Anpassungen vorgenommen werden. Sind die Daten der Foren mehrerer Communities gleich strukturiert, z. B. weil sie die gleiche Foren-Software nutzen (bspw. Discourse), können sie mit einer übergreifenden Abfrage gesammelt werden. Wie neue Datenquellen in die Toolbox eingebunden werden, ist schrittweise im Online-Handbuch dokumentiert.

Erweiterungsmöglichkeit: Darüber hinaus können zusätzliche Metriken in die Toolbox aufgenommen werden, indem die Indikatoren-Bibliothek erweitert wird. Auf der jeweiligen Beobachtungsebene muss eine neue Messmethode definiert werden, die wie die bereits implementierten Metriken aufgerufen werden kann. Beispielsweise könnten zusätzliche textbasierte Indikatoren bestimmte Schlagworte in den Beiträgen filtern oder bestimmte Merkmale im Antwortverhalten der Beitragenden markieren. Das Vorgehen wird im PICI-Online-Handbuch erklärt.

Erweiterungsmöglichkeit: Die Klassifizierung der Forumsinhalte lässt sich jedoch je nach Erkenntnisinteresse und Anwendungskontext auch an gänzlich anderen Kriterien festmachen. Beim Labeln könnten andere inhaltliche Kriterien angewendet werden, die Hinweise auf Innovationsaktivitäten und Innovationspotenziale geben. Zusätzlich zur Ebene des Threads könnten auch weitere Beobachtungsebenen gelabelt werden. So könnte man beispielsweise auch einzelne Forumsbeiträge bewerten. Außerdem könnten auch zusätzliche Daten aus dem Community-Forum, wie Upvotes oder Likes, als Trainingsdaten dienen.

Die Toolbox PICI macht Online-Foren als Datenquelle für die Untersuchung von Peer Communities nutzbar. Die Forumsdaten können als statische Datei bereitgestellt oder dynamisch ausgelesen werden. Jeder Forumsbeitrag bildet einen Datenpunkt, der z. B. durch Zeitstempel, Text-Inhalt, Ersteller*innen-ID und den dazugehörigen Thread gekennzeichnet ist. Grundprinzipien: Für weitere Schritte erfordert die Toolbox PICI eine gewisse Datenstruktur, die für jeden einzelnen Forumsbeitrag den Zeitpunkt der Erstellung, den Textinhalt, eine*n eindeutige*n Ersteller*in und den dazugehörigen Thread in einer Tabelle erfasst. PICI verknüpft die Tabelle der einzelnen Beiträge (Posts) mit einer Tabelle der Ersteller*innen (Authors) und einer Tabelle mit Informationen zu den Diskussionssträngen (Threads). Die drei Datentabellen bilden die Grundlage für die Analyse der Online-Interaktionen in den Peer Communities. Sie liegen als statische Dateien vor oder werden nach Anpassung an die jeweilige Datenquelle aus dem gewünschten öffentlich zugänglichen Internetforum dynamisch ausgelesen.

Ein Teil des Datensatzes muss so aufbereitet werden, dass damit der Klassifizierungsalgorithmus trainiert werden kann. Für diesen Teil der Daten muss die Relevanz der Forumsinhalte definiert werden, denn an dieser sogenannten Grundwahrheit bemisst sich die Leistungsfähigkeit der Indikatoren. Der Trainingsdatensatz kann auf unterschiedliche Art erstellt werden. PICI bietet bereits Möglichkeiten für das Labelling von Threads.

PICI berechnet Interaktionsnetzwerke auf Grundlage der zuvor gesammelten Forumsdaten. Dabei werden gerichtete und ungerichtete Netzwerkbeziehungen zwischen den Beitragenden betrachtet. So werden unterschiedliche Graphen für die Berechnung von Netzwerk-Metriken erstellt. Grundprinzipien: Aus den Forumsdaten werden zwei unterschiedliche Interaktionsnetzwerke berechnet. Die Knoten der Netzwerke bilden die Teilnehmenden am Online-Forum, die Kanten repräsentieren deren Interaktionen. Dabei wird zwischen Mitwirkenden und Kommentatoren unterschieden. Das Mitwirkenden-Netzwerk berücksichtigt, welche Forumsteilnehmenden zu denselben Diskussionen beitragen. Es besteht eine ungerichtete Beziehung zwischen zwei Beitragenden desselben Threads. Die Stärke der Beziehung steigt mit der Anzahl der gemeinsamen Threads. Dagegen bildet das Kommentator*innen-Netzwerk ab, wer zu anderen eröffneten Diskussionen beiträgt. Es besteht eine gerichtete Beziehung der Beitragenden zum*r Begründer*in eines Threads. Die Stärke einer Beziehung zwischen zwei Forumsteilnehmenden steigt mit der Anzahl von Kommentaren der einen Person auf Erstbeiträge der anderen Person. Abbildung: Netzwerkbeziehungen zwischen Mitwirkenden und Kommentator*innen, Quelle: Peer Innovation, 2022 Abbildung: Vergleich der untersuchten Online-Foren OpenEnergyMonitor (OEM), OpenStreetMap (OSM) und Precious Plastic (PP), Quelle: Peer Innovation, 2022

Eine umfassende Bibliothek einschlägiger Messmethoden für verschiedene Indikatoren ist bereits in die Toolbox implementiert und wird bei Aufruf aus den Forendaten berechnet. Die Indikatoren-Bibliothek kann problemlos um weitere Metriken erweitert werden. Grundprinzipien: Die in der Toolbox PICI implementierten Kennzahlen speisen sich aus der im Forschungsprojekt vorgenommenen Literaturanalyse zu Community-Indikatoren im Forschungskontext von Open Innovation und User Innovation (Pohlisch et al. 2021). Diese Kennzahlen sind jeweils verschiedenen Beobachtungsebenen zugeordnet. Es können weitere Metriken hinzugefügt werden. In diesem Fall muss berücksichtigt werden, auf welcher Ebene die neue Kennzahl zu verorten ist. Eine Übersicht der aktuellen Implementierungen findet sich hier (Link zur Indikatoren-Liste). Abbildung: Bewertungsprozess der Indikatoren, Quelle: Peer Innovation, 2022

Mit Hilfe von maschinellem Lernen wird auf Grundlage des Trainingsdatensatzes die Leistungsfähigkeit der Metriken bei der Klassifizierung der Forumsinhalte bewertet. So werden geeignete Indikatoren und ihre bestmögliche Kombination zur automatisierten Erkennung relevanter Inhalte im Community-Forum ausgewählt. Grundprinzipien: PICI nutzt verschiedene Verfahren maschinellen Lernens, um Klassifizierungsmodelle zu trainieren, welche die zur Klassifizierung der Forumsinhalte bestgeeigneten Metriken kombinieren.

Ein Ergebnis der Toolbox PICI ist es, dass aus den Forendaten der Peer-Communities Kennzahlen und Netzwerkstatistiken, wie z. B. die Anteile von Gelegenheits- und Kernbeitragenden oder die Netzwerkdichte errechnet werden. Diese Werte dienen dem Vergleich und der Charakterisierung der Peer-Communities und ihrer Netzwerkstrukturen und sind vor allem für die Innovationsforschung interessant. Grundprinzipien: Die Forendaten können mit der Toolbox für jede Peer-Community statistisch ausgewertet werden. Die implementierten Metriken können berechnet und mit den anderen Peer-Communities verglichen werden, um Besonderheiten in den Interaktionsstrukturen zu erkennen. Darüber hinaus können, je nach Untersuchungsinteresse, Durchschnittswerte für beliebige Zeiträume berechnet werden, um dynamische Veränderungen der Communities zu untersuchen.

Ein weiteres Ergebnis ist die Evaluierung der Community. Mit ausgewählten Schätzmodellen werden geeignete Indikatoren und ihre Kombinationen zur Klassifizierung sämtlicher Forumsinhalte eingesetzt. Es können beispielsweise Indikatoren isoliert voneinander oder zusammen betrachtet werden. Entweder jeweils die Community-Aktivitätslevel sowie die Prominenz der Beitragenden, aber auch das Community-Aktivitätslevel UND die Prominenz der Beitragenden. Auf diese Weise werden die im Teildatensatz bestehenden Zusammenhänge zwischen den messbaren Merkmalen und der Relevanz der Forumsinhalte auf die Ebene der Community übertragen. Die Auswertung gibt Aufschluss darüber, wie innovativ die betrachtete Community ist. Insbesondere Forenbetreibende und die Innovationspolitik können sich mit diesem Ergebnis ein Bild davon machen, wie die Community möglicherweise (weiter) gefördert werden kann, um zur sozial-ökologischen Transformation beizutragen. Grundprinzipien: Die trainierten Klassifizierungsmodelle werden in diesem Schritt auf die Gesamtdatensätze angewendet, um eine Klassifizierung aller erfassten Forumsinhalte vorzunehmen. Auf diese Weise wird die mithilfe der Trainingsdaten erlernte automatisierte Bewertung für sämtliche Forumsinhalte vorgenommen. Die Ergebnisse der automatisierten Klassifizierung können wiederum für die einzelnen Communities, unterschiedliche Zeiträume oder Unterforen ausgewertet und verglichen werden.

Beispiel aus dem Projekt Peer Innovation: Für das Forschungsprojekt wurden Daten aus den Online-Foren von drei Peer-Communities gesammelt, um deren Innovationsaktivitäten zu analysieren: Precious Plastic, OpenEnergyMonitor und OpenStreetMap. Abbildung: Übersicht der im Projekt untersuchten Online-Foren, Quelle: Peer Innovation, 2022 Dabei wurden sämtliche Beiträge in den Foren der Communities erfasst und für den Zeitraum von 01/2017 bis 12/2019 analysiert. Abbildung: Aktivitäten der untersuchten Foren im Forschungszeitraum und darüber hinaus, Quelle: Peer Innovation, 2022 Insgesamt umfasst der Datensatz mehr als 200.000 Beiträge (in 20.000 Threads) von 12.000 Nutzer*innen. Weitere Informationen finden Sie im Arbeitsbericht 3 des Forschungsprojekts.

Beispiel aus dem Projekt PeerInnovation: Das Forschungsprojekt untersuchte die Diskussionsverläufe im Online-Forum als messbare Beweise des Wissensaustauschs in den Peer-Communities. Die Mitwirkenden-Netzwerke bilden ab, welche Community-Mitglieder Informationen miteinander austauschen. Die Bündelung verteilten Wissens und die Neukombination von Erfahrungen aus unterschiedlichen Bereichen gilt als Grundmechanismus für das Entstehen innovativer Ideen. Das Kommentatoren-Netzwerk bildet dagegen gerichtete Wissensflüsse innerhalb der Peer-Community ab. Hier liegt der Fokus also darauf, wem durch wen Informationen zufließen. Daraus lassen sich Schlüsse über die Stellung von bestimmten Mitgliedern und die Bedeutung ihrer Beiträge innerhalb der Community ziehen.

Beispiel aus dem Projekt PeerInnovation: Das Forschungsprojekt zielte auf die Entwicklung geeigneter Indikatoren für Innovationsaktivitäten in Peer-Communities. Auf den unterschiedlichen Beobachtungsebenen werden deshalb Kennzahlen berechnet, die in der Forschungsliteratur mit dem Auftreten von Innovationen in Verbindung gebracht werden (Pohlisch et al. 2021). Pohlisch et al. 2021 haben im Rahmen des Projektes ein Papier zu den Indikatoren geschrieben. Mit Hilfe der entwickelten Metriken sollen anschließend Threads im Online-Forum identifiziert werden, die Hinweise auf relevante Community-Aktivitäten wie das Vorstellen, Bewerten, Umsetzen, Modifizieren und Verbessern von innovativen Ideen beinhalten.

Beispiel aus dem Projekt Peer Innovation: Im Forschungsprojekt wurde der Klassifizierungsalgorithmus mit den manuell gelabelten Threads trainiert. So konnten die zuvor gebildeten Metriken dahingehend bewertet werden, wie gut mit ihnen das Auftreten der verschiedenen Innovationsaktivitäten vorhergesagt werden kann und in welcher Kombination eine bestmögliche Klassifikation der Forumsinhalte erfolgt.

Beispiel aus dem Projekt Peer Innovation: Im Forschungsprojekt wurden mithilfe der trainierten Modelle Innovationsaktivitäten der Peer-Communities aus den Forumsdaten geschätzt. So konnte der Anteil der Threads, die mit Innovationsaktivitäten in Zusammenhang stehen oder ein gewisses Innovationspotenzial aufweisen, für die untersuchten Communities automatisiert ermittelt werden. Die Übertragbarkeit der Schätzmodelle zwischen Communities konnte jedoch im Rahmen des Projekts nicht genauer überprüft werden.

Beispiel aus dem Projekt Peer Innovation: Im Forschungsprojekt wurden drei Peer-Communities mit Hilfe der implementierten Metriken untersucht und beschrieben. Dabei wurden die Untersuchungen zur besseren Vergleichbarkeit der Communities auf den Zeitraum von 2017 bis 2019 beschränkt. Im Vergleich der Werte wurden deutliche Unterschiede zwischen den Communities sichtbar, die zu den qualitativen Untersuchungsergebnissen aus Interviews mit Community-Mitgliedern in Beziehung gesetzt werden konnten. Beispielsweise konnten so (auf Basis der ungerichteten Grafen) die Netzwerkdichten der Peer-Communities Precious Plastic, OpenEnergyMonitor und Open Street Map verglichen werden. Eine Erkenntnis war, dass die Precious Plastic Community eine vergleichsweise hohe Netzwerkdichte aufweist. Zum Kern der Community (der größten Untergruppe, in der alle mindestens einmal miteinander interagiert haben), gehören knapp 10% der Teilnehmenden. Demgegenüber steht aber auch ein großer Anteil von Gelegenheitsnutzenden im Forum (mehr als 50%). Detailliertere Beispiele sowie vergleichende Tabellen sind im Arbeitsbericht 3 des Projekts zu finden.

Beispiel aus dem Projekt Peer Innovation: Um herauszufinden, wie Peer Communities nachhaltige Innovationen voranbringen, wurden die Austauschprozesse bestimmt, die über die Weiterentwicklung und Verbreitung nachhaltiger Technologien durch die Community Aufschluss geben. In den Diskussionen im Forum finden sich Hinweise auf Aktivitäten wieder, mit denen Community-Mitglieder zum Innovationsgeschehen beitragen: nicht nur das Teilen von Bauplänen und Designs, sondern auch die Erprobung und Bewertung von technischen Lösungen, das Aufzeigen von Alternativen oder von Möglichkeiten zur Überwindung von Schwierigkeiten bei der Umsetzung. Mit dem Trainingsdatensatz wurde die Toolbox PICI für die Erkennung von Hinweisen auf diese vielfältigen Aktivitäten ausgerichtet. Hinweise auf Innovationsaktivitäten und Innovationspotenzial in den Inhalten eines Teils der Forumsbeiträge wurden durch das Projektteam und im Rahmen einer Online-Umfrage manuell bewertet. Dazu wurden zunächst Regeln definiert (Heß & Gleu 2021), nach denen die Evaluierenden die Inhalte der Diskussionen in den Foren mit Labels versahen. So wurde ein Trainingsdatensatz von bewerteten Threads erstellt, mit welchem anschließend die Eignung der verschiedenen Metriken zur Identifizierung von Peer-Innovation überprüft werden konnte.

Erweiterungsmöglichkeit: Andere Regeln der Netzwerkbildung sind denkbar und je nach Fragestellung sinnvoll. Beispielsweise könnten die jeweiligen Positionen der Beiträge in den Threads berücksichtigt werden oder die Beitragenden könnten anhand ihrer User*innen-Historie in Mitglieder und Neulinge unterschieden werden, um den Einstieg in die Community zu untersuchen (z. B. Paxton et al. 2022). Die Erweiterung von PICI um andere Netzwerktypen ist zwar möglich, erfordert aber die Modifizierung des Codes.

Erweiterungsmöglichkeit: Erweiterungen der Community-Vergleiche sind durch die Hinzunahme von Forumsdaten anderer Communities oder die Definition alternativer Metriken ohne weiteres möglich. Darüber hinaus besteht im Vergleich der Durchschnittswerte verschiedener Zeiträume eine weitere Möglichkeit der Auswertung, die im Forschungsprojekt nicht verfolgt wurde. So könnten einerseits die dynamische Entwicklung der Communities untersucht oder die Auswirkung bestimmter Ereignisse oder Interventionen auf die Communities evaluiert werden.

Erweiterungsmöglichkeit: Die Toolbox PICI könnte ohne weiteres dazu verwendet werden, vergleichende Schätzungen für verschiedene Zeiträume oder Unterforen derselben Community vorzunehmen. Perspektivisch sollte die Robustheit der Schätzungen bei der Übertragung der Modelle auf unterschiedliche Communities überprüft werden, um die automatisierte Klassifizierung ohne vorheriges Labelling zu ermöglichen.