Lesen/Web/PDF-Erzeugung

From MediaWiki.org
< Reading‎ | Web
Jump to: navigation, search
This page is a translated version of the page Reading/Web/PDF Functionality and the translation is 100% complete.

Other languages:
Deutsch • ‎English • ‎español • ‎français • ‎日本語 • ‎polski • ‎português • ‎tarandíne • ‎русский • ‎中文

Update im Januar 2018

Derzeit werden Leistungstests für die PDF-Druck-Funktion durchgeführt. Neues dazu gibt es Anfang Februar.

Update im September 2017

Unser aktueller PDF-Renderer (Service zur Erzeugung von PDF-Dateien), der Offline Content Generator (OCG), kann nicht mehr gewartet werden. Er gibt, verkürzt gesagt, den Geist auf. Das Reading Team bei der Wikimedia Foundation arbeitet seit Monaten daran, den Service zu ersetzen. OCG wurde auf veraltetem Code ausgeführt, der in der Zukunft Sicherheitslücken und andere gravierende Probleme verursachen kann. In den letzten drei Monaten wurde auf der Spezialseite "Als PDF herunterladen" um Rückmeldung zum Prototyp eines neuen PDF-Renderers gebeten. Der neue Renderer soll besser funktionieren als OCG – er wird in der Lage sein, Tabellen und Infoboxen zu drucken und das Design der PDFs wird zugunsten einer besseren Lesbarkeit optimiert. Wir haben viele gute Rückmeldungen zum Prototyp gesammelt und arbeiten daran, die erforderlichen Verbesserungen an der neuen PDF-Funktion zu machen.

Nachtrag: Kurzfristiges ABSCHALTEN der PDF-Bucherstellung

Leider machen es große Probleme mit unserem alten Renderer (OCG) erforderlich, dass wir ihn abschalten, bevor die notwendigen Verbesserungen für die Buchfunktion abgeschlossen sind. Damit findet die Abschaltung früher statt, als wir wollten. Zu dem Zeitpunkt, an dem wir OCG abschalten, werden die Arbeiten an Einzeldownloads (“Als PDF herunterladen”) abgeschlossen sein. Die Buchfunktion wird allerdings pausieren, während wir auswerten und die nötigen Arbeiten abschließen. Der ursprünglich von uns ausgewählte Ersatz-Renderer, der Electron Rendering Service, ist nicht in der Lage, größere PDFs zu unterstützen und scheitert, wenn man versucht, ein Buch mit mehreren Artikeln zu erzeugen. Wir werden daran arbeiten, ein neues Rendering-System für Bücher auszuwählen, das die Größe der Dateien verarbeiten und unsere Anforderungen unterstützen kann. Dies entspricht nicht unserer ursprünglichen Planung. Wir haben niemals angestrebt, die Bucherstellung vorübergehend zu entfernen.

Zeitplan:

  • Bereitstellung des PDF-Renderers mit vollem Funktionsumfang für einzelne Artikel (als PDF drucken) - 1. Oktober 2017
  • Pausieren der PDF - Bucherstellung - 1. Oktober 2017
  • Abschalten des OCG-Renderers - 1. Oktober 2017
  • Bereitstellung eines neuen PDF - Renderers mit vollem Funktionsumfang – Jan 2018 (vorläufig, abhängig von den Rechercheergebnissen zu alternativen Rendersystemen)

Funktionalität:

Für eine vollständige Liste der aktuellen und geplanten Funktionen, siehe unten.

Zusätzlich zu den Aktualisierungen auf dieser Seite wird dies in einem Banner auf PDF-Erstellungsseite kommuniziert, auf Tech News und auf einigen Wikimedia-Mailinglisten.

Einleitung

Unser aktueller Service zur Erzeugung von PDF-Dateien, der Offline Content Generator (OCG), kann nicht mehr gewartet werden. Verkürzt gesagt gibt er den Geist auf. Das Reading Team bei der Wikimedia Foundation arbeitet seit Monaten daran, den Service zu ersetzen. Ursprünglich von einem Dritten erstellt, wurde OCG auf veraltetem Code ausgeführt, der in der Zukunft Sicherheitslücken und andere gravierende Probleme herbeiführen kann. Wenn wir eine PDF-Funktion haben wollen, müssen wir OCG leider ersetzen, sonst befinden wir uns möglicherweise plötzlich in einer Situation, in der wir den Service ungeplant abschalten müssen.

Darüber hinaus unterstützt OCG eine Reihe von Anforderungen aus der Community nicht; die wichtigste davon ist die Fähigkeit, Tabellen darzustellen. Als passenden Ersatz haben wir einen neuen Service ausgewählt, den Electron Rendering Service. Unser nächster Schritt ist es, die Funktionen von OCG im Electron Rendering Service zu duplizieren. Im Folgenden werden die wichtigsten Teile der Funktionalität beschrieben, die wir als notwendig identifiziert haben. Wir möchten zum Gespräch darüber einladen, was fehlt oder was in der Liste überflüssig ist. Wir möchten außerdem auf unsere zukünftigen Pläne für die PDF-Erzeugung hinweisen, um auch dazu Feedback zu erhalten.

Userbase

The following table shows a sample of traffic to the Electron "Download as PDF" service for over a 6 hour period. The traffic is broken down by operating system (OS), browser, and the browser major version (e.g. Windows 7, Chrome v61.*).

Note well that the majority of our traffic appears to come from Windows based machines.

OS Browser Browser Major Version  % of requests
Other Other - 14.38
Windows 7 Chrome 61 12.42
Windows 10 Chrome 61 8.83
Windows 7 IE 11 7.33
Windows 7 Firefox 56 6.59
Windows 10 Firefox 56 3.82
Windows 10 Edge 15 3.24
Windows 8.1 Chrome 61 3.07
Windows XP Chrome 49 2.2
Windows 10 Chrome 59 1.53
Windows 10 IE 11 1.51
Windows 8.1 Firefox 56 1.31
Windows XP Firefox 52 1.22
Windows 8 Chrome 61 1.15
Windows 8.1 IE 11 1.15
Mac OS X Safari 11 0.9
Windows 7 Firefox 53 0.89
Windows 7 Firefox 52 0.78
Ubuntu Firefox 56 0.78
Windows XP IE 6 0.7
Windows 7 Chrome 55 0.68
Windows 7 Firefox 55 0.62
Mac OS X Chrome 61 0.62
Android UC Browser 11 0.6
Windows 10 Edge 14 0.59
Windows 7 Opera 48 0.53
Android Chrome Mobile 61 0.49
Windows 10 Opera 48 0.44
Windows 7 Chrome 60 0.4
Windows Vista Chrome 49 0.39
Windows 7 Yandex Browser 17 0.37
Windows 10 Firefox 55 0.37
Mac OS X Safari 10 0.36
Windows 10 Chrome 50 0.34
Android Android 4 0.33
Mac OS X Firefox 56 0.33
Windows 10 Chrome 60 0.32
Windows 8.1 Chrome 43 0.3
Android Amazon Silk 60 0.29
Windows 7 Sogou Explorer 1 0.27
Windows 8 IE 10 0.26
Windows 7 IE 8 0.26
Windows 7 IE 9 0.25
Windows 8 Opera 12 0.25
Linux Firefox 52 0.25
Mac OS X Firefox 53 0.24
Windows 7 Firefox 45 0.24
Windows 10 Firefox 57 0.24
Windows 7 Firefox 38 0.22
Windows 10 Firefox 47 0.21

Aktuelle Funktionalitätsanforderungen

Im Folgenden findet sich eine Liste der aktuellen Anforderungen für das PDF-Rendering für Einzelartikel-PDFs und für Bücher. Die von der aktuellen Implementierung abweichenden Anforderungen werden fett dargestellt.

Vorgeschichte

  • Die Erstellung von PDF-Artikeln und Büchern aus Wikipedia-Seiten erfolgt über einen Dienst namens OCG. Wenn "Bücher" mit den Buchgenerator erzeugt werden, greift dieser über die Mediawiki-Erweiterung Collection auf OCG zu.

OCG hat verschiedene Probleme, besonders mit der Darstellung von Tabellen.

  • Verschiedene Probleme mit OCG wurden identifiziert, u.a. Beschwerden aus der Community rund um die fehlende Möglichkeit, mit OCG Tabellen darzustellen.
  • Tabellen in PDFs darzustellen ist Rang Nummer 9 auf der deutschsprachigen Technischen Wunschliste.
  • Wikimedia Deutschland beginnt damit, an einer zur Darstellung von Tabellen in PDFs zu arbeiten, und führt Electron PDF ein. Das Vorhaben ist, Electron PDF parallel zu OCG anzubieten, nicht OCG zu ersetzen.
  • Während Wikimedia Deutschland am Electron Service arbeitet, kommen die verantwortlichen Maintainer von OCG bei der Wikimedia Foundation zu der Schlussfolgerung, dass OCG ersetzt werden muss.
  • Das WMF Reading Team übernimmt die Verantwortung für die langfristige Wartung der PDF-Erstellung und beginnt mit der Planung, wie das Erzeugen von Tabellen in PDFs in alle Projekte implementiert werden kann.
  • Das Reading Team beginnt eine Befragung der Benutzerinnen und Benutzer, um Rückmeldungen zu Electron zu erhalten.
  • Die Teams Reading Infrastructure und Web beginnen eine genauere Betrachtung, was notwendig ist, um die Funktionen von OCG auf den Electron Service zu übertragen.

Update nach der Befragung von Benutzerinnen und Benutzern

Vorschlag für PDF- und Druckstile basierend auf Feedback von der Konsultation

Wir haben Anfang Juni 2017 um Rückmeldungen zur aktuellen Umsetzung des PDF-Renderers gebeten. Bei der Durchsicht der Rückmeldungen konnten wir folgende Beobachtungen machen:

  • Eine größere Anzahl von Leuten bevorzugte das einspaltige Format gegenüber dem zweispaltigen.
  • Jene, die das zweispaltige Format bevorzugen, hoben hervor, dass ihre Präferenz auf der Gestaltung und dem "Look-and-Feel" des Doppelspalten-Layouts basiert. Einige Benutzer äußerten auch Bedenken bzgl. Schriftgröße und Papierverschwendung beim Drucken von PDFs mit der einspaltigen Option.
  • Die folgenden Funktionen wurden gewünscht:
    • Funktionale Hyperlinks
    • Datum und URL, "diese Datei wurde heruntergeladen am [Datum] von [URL]"
    • Anpassbares CSS für Layout, Titel und Inhaltsverzeichnis
    • Zweispaltiges Format als Option
    • Bildversionen ein-/ausschließen
    • Veränderbare Ränder
    • Druck nach Abschnitten - erlaubt es, Einzelnachweise, ungewünschte Abschnitte, Index etc. zu entfernen
    • Textgröße einstellbar machen

Auf Basis der Rückmeldungen haben wir Folgendes in unsere neuen Printstile integriert:

  • Hyperlinks
  • Artikelinformation
  • kleinere Schriftgröße und buchähnliche Gestaltung

Der Rest der oben genannten Wünsche wird bis zur zweiten Iteration des PDF-Renderers verschoben. In dieser zweiten Iteration soll an einem Einstellungsmodus gearbeitet werden, der eine Anpassung anhand der verfügbaren Optionen ermöglicht.

Vorschlag

Das Folgende ist ein Vorschlag für den Funktionsumfang, der für das Erzeugen von PDFs benötigt wird:

  • PDFs zu einzelnen Artikeln werden über den Link "Als PDF herunterladen" in der Seitenleiste erzeugt.
  • PDFs mehrerer Artikel werden mit dem Buchgenerator-Werkzeug erstellt.
  • Alle Artikel enthalten Quellenangaben für Text und Bilder
  • Alle erzeugten PDFs sind in der Lage, Tabellen dazustellen.
    • Nutzerinnen und Nutzer können das Layout ihres PDFs individuell anpassen (optional).

Unterschiede zwischen der aktuellen und der zukünftigen Lösung

OCG Neuer Service Anmerkungen
PDF-Erzeugung für einzelne Artikel Ja Ja
PDF-Erzeugung für mehrere Artikel mithilfe des Buchgenerators Ja Ja
Enthält Inhaltsverzeichnisse für PDFs mit mehreren Artikeln Ja Ja
Stellt Tabellen dar. Nein Ja
Quellenangabe Ja Ja Offene Frage: Ort der Quellenangabe innerhalb des neuen Services
Gestaltung Latex Neue Stile
N-Spalten-Layout Ja Nein
2-spaltiges Layout als Standard Ja Vorläufig Ob einspaltiges oder zweispaltiges Layout der Standard ist, wird auf Basis der Rückmeldungen und quantitativen und/oder qualitativen Tests entschieden.
Ausgabeformat PDF, Klartext Nur PDF

Design

Die neuen PDF-Stile werden auf verbesserte Lesbarkeit ausgelegt. Je nach Community-Rückmeldungen und Ergebnissen der qualitativen oder quantitativen Tests wird eventuell eine Unterstützung von zweispaltigem Layout für den Buchgenerator und/oder Einzel-PDFs gebaut.

Plan für Entwicklung und Bereitstellung

Im Folgenden findet sich ein grober Überblick über den Ablauf von Entwicklung und Bereitstellung der Funktion. Änderungen vorbehalten.

  1. April - Mai 2017:
    1. Das Reading Team entwickelt die Backend-Unterstützung für die oben identifizierte Funktionalität.
    2. Die Benutzerinnen und Benutzer werden bei Erweiterung oder Verringerung des vorgeschlagenen Funktionsumfangs konsultiert.
    3. Ein qualitativer Test zur Gestaltung wird durchgeführt.
  2. Juni - Juli 2017:
    1. Neue Gestaltungsstile wurden eingebaut.
    2. Ein Prototyp für den PDF-Renderer (erste Iteration) wird gemeinsam mit OCG auf allen Projekten gestartet und die Performance wird verglichen.
    3. Iterationen auf der Grundlage von Nutzerbefragungen und identifizierten Grenzfällen
  3. August - September 2017:
    1. Zusätzliche Änderungen, falls nötig
  4. Oktober 2017:
    1. Zweite Iteration beginnt ohne OCG auf allen Projekten

Einzelne Artikel

  • Ein PDF für einen einzelnen Artikel wird erstellt, indem man den Link "Als PDF herunterladen" auswählt.
  • Mit der Auswahl von "Als PDF herunterladen" wird die PDF-Datei erzeugt. Um die Datei herunterzuladen, wählt man den Link "Herunterladen".
  • Jede PDF-Datei wird folgendes enthalten:
    • Titel und Text des Artikels
    • Infobox (falls vorhanden)
    • Tabelles (falls vorhanden)
    • einspaltiges Layout
    • Seitenzahl
    • Alle Bilder und Bildunterschriften des Artikels
    • Links auf Seiten, die im Artikel verlinkt sind (blaue Links und externe Links)
    • Text- und Bildquellen, Beiträge und Lizenzen

Phabricator Tracking

All PDF-related changes including sunsetting OCG, replacing the Electron PDF renderer, and any updates to books or the collections extension are tracked under the phabricator project Proton. The project page will display any recent updates for all tasks related to PDFs.

Bücher

Im Oktober 2017 verfügbare Funktionalität

Hinweis: Zum jetzigen Zeitpunkt werden keine Änderungen am aktuellen Buchgenerator vorgenommen.

  • Benutzer starten den Buchgenerator, indem sie "Buch erstellen" auswählen.
  • Dadurch wird zur aktuellen Seite zum Erstellen von Büchern navigiert.
  • Um ein Buch herunterzuladen, klicken Benutzer auf den Link "Herunterladen" auf der Seite des Buchgenerators.
  • Benutzer können Bücher nur im PDF-Format herunterladen.
  • Über die Elemente der Einzelartikel-PDFs hinaus enthalten Bücher:
    • Titelseite des Buches
    • Die Einzelnachweise für jeden Artikel des Buches erscheinen am Ende des jeweiligen Artikels.
    • Jeder Artikel beginnt auf einer neuen Seite.
    • Ein einziger Abschnitt für Text- und Bildquellen, Mitwirkende und Lizenzen, der die gesammelten Beiträge aus allen Artikeln enthält.

Functionality available in November - December, 2017

  • Bücher werden ein Inhaltsverzeichnis mit Seitenzahlen enthalten.
    • Wenn man einen Abschnitt im Inhaltsverzeichnis auswählt, navigiert man zum entsprechenden Abschnitt innerhalb des Buches.

Styles for books will be updated for improved readability