Plagiate waren in den letzten Jahren immer wieder Thema der medialen Berichterstattung. Parallel wuchs auch die Sensibilisierung im akademischen Kontext. Manche Universitäten prüfen heute schon standardmäßig Abschlussarbeiten auf plagiierte Stellen, andernorts geschieht das nur bei Verdachtsfällen. Auf jeden Fall hat die Wichtigkeit dieser Thematik zugenommen. Ich konnte nun einen Anbieter – Plagscan – testen. Außerdem war es mir möglich, dem CTO von Plagscan, Dr. Johannes Knabe, einige Fragen direkt zu stellen.
Wer braucht einen Dienst wie Plagscan?
Eines vorneweg: Ich habe hier nur Plagscan getestet, keine anderen Services. Davon gibt es genügend. Einige sind PlagAware, Scribbr oder eben PlagScan. Ich kann also hier nichts vergleichen. Auch weiß ich nicht, ob andere Anbieter günstiger oder besser sind. Der Hintergrund ist, dass PlagScan mich kontaktiert und gefragt hat, ob ich den Service nicht einmal testen möchte. Da ich es für diesen Blog relevant halte, habe ich zugestimmt. Mehr geben meine Kapazitäten leider nicht her.
Zunächst mal die Frage: Wer braucht das eigentlich? Ich sehe zwei Hauptzielgruppen. Da sind zum einen die Universitäten und Hochschulen selbst, die prüfen wollen, ob Abschlussarbeiten auch wirklich nach wissenschaftlichen Standards angefertigt worden sind. Plagiierte Stellen ohne eine solche technische Unterstützung zu finden, ist nämlich quasi unmöglich und wäre ein reiner Glückstreffer.
Auf der anderen Seite kann es aber unter Umständen auch für Einzelanwender*innen interessant sein. Natürlich nicht für die fünfzehnseitige Hausarbeit. Da sollte man wohl gerade noch zusammenbekommen, wo man ein Zitat her hat. Wer aber über Jahre an seiner Dissertation schreibt, kann am Ende schon mal unsicher werden, ob diese eine Passage nun nicht doch ein Zitat war bei dem man die Anführungsstriche vergessen hat oder vielleicht auch nur ein schlecht paraphrasierter Abschnitt. Natürlich sollte das nicht so sein, aber wer ehrlich zu sich ist, weiß, dass es halt doch manchmal vorkommt. Auch ganz ohne bösen Willen. Wer nun sicher sein möchte, am Ende nicht über die eigene Unorganisiertheit oder einfach Unachtsamkeit zu stolpern, könnte seine Arbeit durch einen Dienst wie Plagscan analysieren lassen. Und sich so Seelenfreiden verschaffen – oder eben die richtigen Anhaltspunkte bekommen, um nachzubessern.
Einfacher Import, umfangreiche Analyse
Nach der Registrierung bekommt man eine Art Dashboard, also eine Gesamtübersicht präsentiert. Dort kann man Dokumente hochladen, Textstellen reinkopieren oder ein Dokument direkt aus einem Cloud-Service importieren. Zum Zeitpunkt meines Tests wurden Dropbox, Google Drive, OneDrive und Box.com unterstützt. Außerdem ist es möglich, eine URL anzugeben von der ein Dokument bezogen wird. So weit, so einfach.
Nach dem Hochladen startet dann die Analyse und das kann eine Weile dauern. Das ist irgendwie auch kein Wunder, wenn man bedenkt, dass die Grundgesamtheit der Dokumente gegen die geprüft werden muss in die Millionen geht. Natürlich wird nicht jedes Dokument mit allen theoretisch zugänglichen Quellen getestet. Das würde auch wenig Sinn machen. Wieso soll man ein Paper über die Sozialstruktur Deutschlands mit einem zu Quantenmechanik prüfen. Hier findet also eine Einschränkung auf thematisch verwandte Paper zum Tragen. Dennoch dürfte der Aufwand erheblich sein. Eine ausführlichere Auskunft zum Verfahren findet sich auf der Seite von Plagscan.
Ich habe unter anderem meine Mastearbeit mit einem Umfang von 82 Seiten bzw. ca. 25.000 Wörtern hochgeladen. Die Analyse hat eine gute halbe Stunde gedauert. Plagscan selbst spricht von einer bis zehn Minuten, außer in „Stoßzeiten mit sehr hoher Serverbelastung“. Dann wären auch bis zu 24h pro Analyse nötig. Wenn diese abgeschlossen ist, bekommt man per Mail den Hinweis, dass es so weit ist und auch direkt den Abschlussbericht mitgeliefert.
Natürlich gibt es Einschränkungen. Auf der Hand liegt dabei, dass nur Quellen geprüft werden können, die auch digital vorliegen. PlagScan ist sich dieses Umstandes natürlich bewusst und arbeitet daran, blinde Flecken zu beseitigen:
»Es ist korrekt, dass PlagScan nur Plagiate in digital vorliegenden Quellen erkennt. Darum indexieren wir selbst, in Zusammenarbeit mit Verlagen und anderen Institutionen, ältere (und neuere) Texte, die nicht digital im Internet verfügbar sind. Die Plagiatsjäger haben bei der Untersuchung älterer Abschlussarbeiten von Politikern PlagScan als Tool zur Ermittlung der Verdachtsfälle genutzt: zur Abdeckung der oftmals alten Quellen haben sie umfangreiche Bücher-Scans vorgenommen (i.d.R. das gesamte Literaturverzeichnis). Nach einem OCR-Texterkennungslauf haben sie diese Bücher dann in PlagScan eingespeist um per Software alle Übereinstimmungen zu finden.«
Dr. Johannes Knabe (CTO Plagscan)
Eine weitere Einschränkung ist, dass Google Books und Google Scholar nicht als Quellen genutzt werden können, da Google das unterbindet:
»Leider bietet Google für gewerbliche Anbieter keine Schnittstelle zu diesen Daten an und die “Terms and Conditions” verbieten den automatisierten Zugriff. Daher arbeiten wir mit den Rechteinhabern (etwa diversen Verlagen) zusammen um die relevanten Quellen dennoch durchsuchen zu können. Unser Fokus liegt dabei auf wissenschaftlichen Texten der vergangenen 50 Jahre.«
Das wirkt sich auch auf die Wahl der genutzten Suchmaschine aus. Hier nimmt Plagscan nämlich Bing und nicht Google. Auch hierzu ein kurzes Statement von Dr. Johannes Knabe, dem CTO von Plagscan:
»Google arbeitet nicht mit Dritten, sie bieten leider keine Schnittstelle zu ihrem Suchindex an und die “Terms and Conditions” verbieten den automatisierten Zugriff. Mit Microsoft Bing haben wir eine gute legale Partnerschaft die uns z.B. hohe Verfügbarkeit garantiert. Da der Index von Bing etwas kleiner als der von Google ist, crawlen wir zunehmend die von Bing vernachlässigten Bereiche des Internet selbst.«
Hilfreiche Berichte – nach Einarbeitungszeit
Als ich dann den ersten Bericht anschaute, war die Verwirrung zunächst groß. In der Webansicht sieht man das Dokument, links die verschiedenen Fundstellen von möglichen Plagiaten oder Zitaten und in der Kopfleiste noch den Score sowie eine Art Übersichtsstrahl mit allen Fundstellen, sowie einigen Einstellungsmöglichkeiten. Die Fundstellen sind dabei nach drei Kategorien gegliedert: exakte Übereinstimmung, mögliche Textänderung und erkannte Zitate.
Ich wusste erstmal nicht so recht, woran ich hier bin. Das liegt auch daran, dass ein Onboarding fehlt. Dabei müsste das gar nicht so sein. Es gibt nämlich umfangreiche Hilfen und sogar Screencasts auf Youtube, die alles erklären. Ich denke, dass ein prominent platzierter Hinweis hier schon weiterhelfen könnte.
Nachdem ich mich dann aber noch mal eingearbeitet und viele spannende Punkte in den Einstellungen gefunden hatte, war der Bericht sehr hilfreich. Ich bin zu den Stellen gesprungen, die in der Übersicht besonders viele rote Stellen aufwiesen und habe dort kontrolliert, was Plagscan als Plagiat einstuft. In der Regel waren das Wortgruppen, feststehende Wendungen oder längere Bezeichnungen von Institutionen o.ä. Also kein Grund zur Panik.
An einer Stelle habe ich dann aber doch etwas gefunden. Das Problem war, dass ich eine Textquelle zu wenig paraphrasiert hatte und es doch sehr dem Original glich. Das konnte ich meist schnell beurteilen, da die Fundstelle ja mit der Originalquellen verbunden ist und man so schnell vergleichen kann. Es kam aber auch zu Problemen. Mehrfach gelang mir eine Zuordnung nicht, da möglicherweise plagiierte Stellen aus Blogbeiträgen nicht mehr zu finden waren. Der fragliche Beitrag wurde zwar angegeben, wenn ich aber auf den Link klickte, war der Beitrag nicht mehr online verfügbar oder zumindest nicht unter der Adresse.
Zitate wurden im übrigen meist als solche erkannt und dem richtigen Paper zugeordnet, teilweise kam es aber auch zu false positives, also Stellen die als Plagiat markiert wurden, eigentlich aber Zitate sind. Wird ein Zitat korrekt erkannt, so fließt es nicht mehr in den Plagscore ein.
Ich habe mich allerdings sehr gewundert, dass das Literaturverzeichnis zu großen Teilen als Plagiat erkannt wird. Das macht für mich gar keinen Sinn. Wieso sollte ich mein Literaturverzeichnis auf Plagiarismus prüfen wollen? Zum Glück kann das aber in den Einstellungen ausgeschlossen werden.
Apropos Einstellungen. Davon gibt es gar nicht wenig. So lässt sich die Sensitivität einstellen mit der Stellen als mögliches Plagiat angezeigt werden. Grundlage ist hier die Länge der gefundenen Stelle. Zusätzlich kann man auch noch (zu) kurze Übereinstimmungen herausfiltern, beispielsweise bei weniger als 4-10 Wörter oder 15-45 Zeichen. Das erscheint irgendwie redundant, aber gut. Besser als wenn man keinen Einstellmöglichkeiten hätte und mit ein bisschen Probieren findet man schon eine passende Konfiguration.
Zudem lässt sich auch ändern, ab welchem Plaglevel ein gelbes oder rotes Label verwendet wird, standardmäßig werden Scores schon ab >1% gelb und ab >5% als rot angezeigt. Zuletzt lassen sich auch noch URLs whitelisten, sodass sie nicht in die Plagiatsprüfung einbezogen werden. Eine weitere Whitelist ist für Zitatquellen vorhanden. Falls Plagscan Text auf diesen Seiten findet, geht es automatisch davon aus, es mit einem Zitat zu tun zu haben.
So schön diese umfangreichen Einstellmöglichkeiten sind, so schade ist es, dass es leider nicht möglich ist, nach abgeschlossener Analyse noch alle Dinge in den Einstellungen zu ändern. Es können dann nur noch Markierungen mit zu geringer Länge gefiltert werden, das Literaturverzeichnis im Nachhinein rauszurechnen geht leider nicht. Hier muss man händisch vorgehen und die Markierung als mögliches Plagiat entfernen.
Ich finde die Funktionalität von Plagscan gut und nachdem ich mich eingearbeitet habe, empfinde ich auch den Umgang als relativ einfach. Es wäre aber wirklich schön, wenn die – durchaus vorhandenen – Hilfestellungen etwas prominenter platziert wären oder ich vor der ersten Analyse darauf hingewiesen würde.
Bezahlen nur im Paket
Ich habe mich ein wenig geärgert, als ich sah, dass die Preise als Paket abgerechnet werden. Als Einzelnutzer*in erwirbt man Punkte, die man wiederum für eine gewisse Anzahl an Seiten bzw. Wörtern nutzen kann. Das führt dann leider auch dazu, dass man ggf. Punkte verfallen lassen muss und mehr kauft, als man eigentlich braucht. Eine seitengenaue Abrechnung wäre hier natürlich angenehmer. So ist es auch kein Beinbruch, aber auf jeden Fall ärgerlich.
Plagscan selbst sagt folgendes dazu:
»Die Punkte bei PlagScan stehen für Wörter. Das ist die fairste Grundlage der Berechnung da der Algorithmus und die Kosten für uns auch darauf basieren: Je nach Wortlänge braucht die Verarbeitung und Speicherung des Texts mehr Ressourcen, und bei längeren Texten schicken wir auch mehr Suchanfragen die ebenfalls Geld kosten.«
Alles in allem denke ich aber dennoch, dass die Preise angemessen sind. Nicht unfassbar günstig, aber angesichts des dahinter stehenden technischen Aufwandes absolut in Ordnung. Folgende Pakete gibt es für Einzelnutzer*innen:
Seiten | Wörter | Preise |
---|---|---|
20 | 5.000 | 4,99€ |
80 | 20.000 | 9,99€ |
200 | 50.000 | 19,99 |
500 | 125.000 | 39,99€ |
Meine Masterarbeit hätte ich also für ungefähr 10€ prüfen lassen können. Ich denke, dass das vertretbar ist. Für Institutionen wie Schulen oder Universitäten gelten andere Tarife, ebenso für Firmen, da hier auch Lizenzen für die gesamte Einrichtung oder einzelne Abteilungen möglich sind.
Was is mit dem Datenschutz?
Bleibt noch eine letzte Frage: Was geschieht mit meinen Dokumenten nach der Analyse? Eine Antwort findet sich in den Einstellungen. Dort kann man nämlich die Löschfrist auswählen und zwischen einer Woche, drei Monaten, sechs Monate bzw. niemals wählen.
Aber werden sie auch wirklich gelöscht? Plagscan wirbt mit Plagiats Präventions Pool (PPP), in dem intern Einreichungen von „teilnehmenden Institutionen und Verlagen“ hinzugefügt werden, was „zur regelmäßigen Erweiterung des Pools beiträgt“. Was hat es damit genau auf sich?
Institutionen können hier Dokumente hochladen und dem PPP zugänglich machen. Diese kommen dann in den internen Pool von Plagscan und können in der Folge mit neuen Einreichungen verglichen werden. So soll dazu beitragen, z.B. früher eingereichte Arbeiten zu erkennen, wenn Freunde oder Geschwister die gleiche Arbeit erneut einreichen. Plagscan selbst sagt dazu folgendes:
»[…] Damit Dokumente im PPP indexiert werden müssen sie dauerhaft vorliegen. Dokumente können manuell oder nach einer gewissen Zeit automatisch gelöscht werden. Dokumente von Einzelnutzern oder Entwürfe usw. werden grundsätzlich nicht in den PPP aufgenommen. Ziel des PPP ist es, die “Wiederverwendung” von Texten zu erkennen die auf nicht-öffentlichem Wege ausgetauscht werden, also etwa über Textbörsen wie Hausarbeiten.de. Jemand der seine Arbeit dort kauft muss jederzeit damit rechnen erwischt zu werden, da andere denselben Text ja auch zur Plagiatsprüfung einreichen können. Bei Funden aus dem PPP wird immer nur der Übereinstimmungs-Snippet aber niemals der Volltext der Quelle angezeigt – für den Volltext muss man über ein Kontaktformular die Freigabe vom Dokumentbesitzer einholen.«
Fazit: Plagscan überzeugt mich
Ich muss zugeben, dass ich zu Beginn meines Tests skeptisch war. Braucht man einen Service wie Plagscan? Und wenn ja, kann das überhaupt funktionieren? Als ich dann etwas voreilig alle Anleitungen übersprang und die erste Auswertung sah, fühlte ich mich in meiner Skepsis bestätigt. Das sah alles irgendwie unübersichtlich und wenig hilfreich aus. Nun hatte ich aber zugesagt, Plagscan zu testen und natürlich wollte ich auch gern den Artikel schreiben. Also wieder ran, Tutorials anschauen, eingehender damit beschäftigen, Einstellungsmöglichkeiten ausprobieren und siehe da — plötzlich erschien das Tool in neuem Licht.
Und ich will auch noch einmal deutlich sagen, dass meine anfängliche Abneigung eher an mir lag und dem Umstand, dass ich mich einfach nicht wirklich mit Plagscan auseinandergesetzt hatte. Sicherlich könnte man noch etwas mehr an die Hand genommen werden, aber an sich sind sehr gute Anleitungen und Erläuterungen vorhanden. Man muss sie halt auch lesen.
Einmal eingearbeitet finde ich Plagscan überzeugend, sowohl um fremde Arbeiten zu prüfen, als auch um bei eigenen langen Arbeiten auf Nummer sicher zu gehen. Plagiate können durchaus auch durch Unachtsamkeit oder unsauberes Arbeiten geschehen und müssen nicht immer aktiver Betrug sein. Gerade in so einem Fall möchte man aber natürlich vor der Abgabe davon erfahren, um die Stellen noch auszubessern. Und das gelingt mit Plagscan gut, wenngleich natürlich immer die Möglichkeit besteht, manche analoge Quellen nicht zu entdecken. Besonders gut hat mir gefallen, dass ich bei Plagscan das Gefühl habe, hier eine Firma zu haben, die sich schon sehr lange Gedanken über das Thema macht und aktiv an einer Verbesserung ihres Produkts arbeitet. So eine Einstellung ist mir persönlich sympathisch.
Wie eingangs geschrieben habe ich keine Ahnung wie gut oder schlecht andere Anbieter im Bereich Plagiatsprüfung sind und was sie kosten. Für Plagscan kann ich aber sagen, dass mich der Service überzeugt hat.
Coverbild: ©️PlagScan
Für diesen Test wurde mir von Plagscan ein Testkontingent kostenfrei zur Verfügung gestellt. Dies hatte keine Auswirkungen auf mein Urteil. Darüber hinaus habe ich keine wirtschaftlichen Vorteile.
Meine Tochter hat ihre Dissertation erst vor Kurzem beendet. Nur die Überprüfung fehlt noch. Die beschriebene Software erscheint mir dafür als ordentlich.