Funcionalidad de lectura/Web/PDF

From mediawiki.org
< Reading‎ | Web
This page is a translated version of the page Reading/Web/PDF Functionality and the translation is 42% complete.

Actualización sobre el renderizado de PDF, 15 de julio de 2019

Hemos lanzado el nuevo renderizador de PDF. Estamos examinando los comentarios, pero hasta ahora no hemos visto ningún problema significativo. Podríamos incorporar algunas sugerencias, pero queremos señalar que este no es un proyecto en curso con un desarrollo continuo. En otras palabras, ahora que se ha implementado y demostrado que funciona, el nuevo renderizador está entrando en modo de mantenimiento. La página de charla de esta página no será abandonada, pero podría pasar un tiempo antes de que alguien reaccione, simplemente porque todo el mundo tiene mucho que hacer.

En lo que respecta a los libros, lo hemos dejado en manos de desarrolladores voluntarios y PediaPress. Estaremos encantados de hacerles preguntas, pero no estamos planeando ninguna implicación en términos de la implementación técnica.

Actualización del renderizado del PDF, 18 de Marzo de 2019

Hemos implementado el nuevo renderizador para PDFs de un solo artículo para todos los proyectos. Esperamos que esto resuelva los problemas asociados con el renderizador Electron, que a menudo no ha podido generar PDFs como se esperaba. Por favor, siéntase libre de probar el nuevo renderizador y háganos saber si tiene alguna pregunta o si encuentra algún error u otro problema.

Actualización del renderizado del PDF, 18 de Marzo de 2019

Nos estamos acercando a la implementación de nuestro nuevo renderizador, Proton, con sólo unas pocas tareas que quedan como bloqueadores (como se puede ver en el gráfico de tareas en phab:T181084). Postearemos una nueva actualización una vez que la fecha de despliegue esté fijada Este renderizador reemplazará al renderizador de electrón como el renderizador de PDF predeterminado para los PDF de una sola página.

Actualización en libros, agosto 17 2018

Sample book from PediaPress

Aquí hay una muestra actualizada y más completa del nuevo renderizador de libros. El diseño ha cambiado bastante con respecto a la primera versión presentada en Wikimania. Gracias por todos los comentarios. La exportación todavía tiene una serie de problemas importantes: saltos de página, cuadros informativos, tablas y fórmulas matemáticas que deben mejorarse sustancialmente. Este archivo de muestra centrado en scripts internacionales y fórmulas matemáticas revela algunos de los problemas que aún deben ser resueltos. Las fórmulas matemáticas son actualmente renderizadas usando MathML - cambiar a LaTeX debería llevar a mejoras significativas.

Actualización en libros, agosto 17 2018

Hemos estado trabajando con PediaPress para generar y estilizar los nuevos libros. Nos han proporcionado una muestra de la salida de corriente, que será muy similar a la versión final. Hemos discutido puntos de mejora con el equipo de PediaPress, que están estudiando actualmente. Si tiene alguna opinión u otros comentarios sobre estos ejemplos, por favor háganoslo saber en la página de charla.

Actualización en libros, agosto 17 2018

La funcionalidad de los libros volverá a través de PediaPress. Después de investigar el nuevo renderizador en profundidad, nos dimos cuenta de que las características principales del creador del libro original (como los números de página y la tabla de contenidos) serían muy difíciles de implementar usando el nuevo renderizador. Además, tuvimos problemas significativos con nuestro código de concatenación. Por lo tanto, tuvimos que buscar alternativas para recuperar la funcionalidad de los libros PDF en los proyectos de Wikimedia. Nos pusimos en contacto con PediaPress, que era el patrocinador original de los libros de Wikipedia, para ver si les interesaba retomar la renderización de libros en PDF. Ellos han estado de acuerdo y actualmente estamos trabajando en los detalles y el calendario. Empezarán por trabajar en una solución temporal basada en una tecnología más antigua que se ha utilizado anteriormente para crear PDF. Esto puede tener algunas desventajas cuando se trata de elementos gráficos, como los mapas, pero significará una solución de trabajo más rápida. Luego planean trabajar en un nuevo renderizador de HTML a PDF, basado en la retroalimentación de la primera implementación.

Actualización de enero de 2018

Estamos preparando pruebas de rendimiento de la función PDF a libro. Esperamos saber más a principios de febrero.

Actualización de septiembre de 2017

Nuestro servicio de renderización de PDF actual, el offline content generator (OCG) ya no será mantenido. En pocas palabras, dejará de funcionar. El equipo de lectura de la Fundación Wikimedia ha estado trabajando durante meses para reemplazarlo. OCG —creado originamente por un tercero— ha estado funcionando con un código desactualizado que podría contener vulnerabilidades de seguridad y otros problemas mayores en el futuro. Durante los últimos tres meses hemos puesto banners en la página de creación de PDF solicitando comentarios sobre el prototipo de nuestro nuevo renderizador. El nuevo renderizador tendrá funcionalidades mejoradas de OCG —podrá imprimir tablas y fichas y contendrá estilo centrado en una mejor legibilidad. Hemos reunido una gran cantidad de comentarios positivos sobre el prototipo y estamos trabajando en hacer las actualizaciones requeridas a nuestros nuevos PDF.

Adición posterior: Desactivación del procesamiento de libros en PDF a corto plazo

Desafortunadamente, problemas importantes con nuestro anterior renderizador (OCG) nos obligarán a prescindir de este antes de completar las actualizaciones necesarias para la elaboración de libros. Es más pronto de lo que queríamos. Para cuando desactivemos OCG, el trabajo de renderizado de artículos individuales estará completo. Sin embargo, el renderizado de libros se detendrá mientras evaluamos y completamos los trabajos necesarios. Nuestra elección inicial para sustituirlo, el servicio de renderizado Electron, no es capaz de soportar archivos PDF de gran tamaño y falla cuando intenta renderizar un libro con muchos artículos. Buscaremos un nuevo sistema para crear libros que pueda soportar el tamaño de los archivos y cumpla nuestros requisitos. No era así como nos lo planteamos. Nunca quisimos desactivar temporalmente la funcionalidad de libros en PDF.

Cronología

  • Puesta en marcha de un renderizador completo para artículos individuales (imprimir en PDF) - 1 de octubre de 2017
  • Pausa del renderizado de libros en PDF - 1 de octubre de 2017
  • Desactivación del renderizador OCG - 1 de octubre de 2017
  • Activación de un renderizador de libros completo - Noviembre - diciembre de 2017 (basado tentativamente en las pruebas de sistemas alternativos)

Funcionalidad:

Para un lista completa de funcionalidades actuales y futuras, vea abajo.

Además de las actulizaciones en esta página, esto se comunicará en una pancarta en la página de creación de PDF, en Tech News y en algunas de las listas de correo de Wikimedia.

Introducción

Nuestro servicio actual de renderización, offline content generator, dejará de recibir mantenimiento. Sencillamente, dejará de existir. Creado originalmente por terceros, actualmente funciona con un código obsoleto que podría introducir vulnerabilidades de seguridad y otro tipo de problemas en un futuro. Si vamos a conservar la función de creación de PDF, debemos reemplazarlo, o nos veremos en la situación de desactivarlo sin tener una alternativa.

Además, no soporta diversos requerimientos de renderización de la comunidad, esencialmente la capacidad de renderizar tablas. Hemos elegido un nuevo servicio, el servicio de renderizado Electron, como sustituto adecuado. Nuestro siguiente paso será duplicar la función ofrecida por OCG usando Electron. Más abajo describiremos las partes principales de las funciones que identificamos como necesarias. Nos gustaría invitarle a conversar sobre qué falta o es superfluo en la lista que se ofrece. También desearíamos destacar nuestros futuros planes para renderizar PDF y así recoger propuestas iniciales.

Known issues

Userbase

La siguiente tabla muestra una muestra de tráfico al servicio Electron "Download as PDF" durante un periodo de más de 6 horas. El tráfico se desglosa por sistema operativo (SO), navegador y la versión principal del navegador (por ejemplo, Windows 7, Chrome v61.*). Tenga en cuenta que la mayoría de nuestro tráfico parece provenir de máquinas basadas en Windows.

OS Navegadores Browser Major Version % of requests 
Other Other - 14.38
Windows 7 Chrome 61 12.42
Windows 10 Chrome 61 8.83
Windows 7 IE 11 7.33
Windows 7 Firefox 56 6.59
Windows 10 Firefox 56 3.82
Windows 10 Edge 15 3.24
Windows 8.1 Chrome 61 3.07
Windows XP Chrome 49 2.2
Windows 10 Chrome 59 1.53
Windows 10 IE 11 1.51
Windows 8.1 Firefox 56 1.31
Windows XP Firefox 52 1.22
Windows 8 Chrome 61 1.15
Windows 8.1 IE 11 1.15
Mac OS X Safari 11 0.9
Windows 7 Firefox 53 0.89
Windows 7 Firefox 52 0.78
Ubuntu Firefox 56 0.78
Windows XP IE 6 0.7
Windows 7 Chrome 55 0.68
Windows 7 Firefox 55 0.62
Mac OS X Chrome 61 0.62
Android UC Browser 11 0.6
Windows 10 Edge 14 0.59
Windows 7 Opera 48 0.53
Android Chrome Mobile 61 0.49
Windows 10 Opera 48 0.44
Windows 7 Chrome 60 0.4
Windows Vista Chrome 49 0.39
Windows 7 Yandex Browser 17 0.37
Windows 10 Firefox 55 0.37
Mac OS X Safari 10 0.36
Windows 10 Chrome 50 0.34
Android Android 4 0.33
Mac OS X Firefox 56 0.33
Windows 10 Chrome 60 0.32
Windows 8.1 Chrome 43 0.3
Android Amazon Silk 60 0.29
Windows 7 Sogou Explorer 1 0.27
Windows 8 IE 10 0.26
Windows 7 IE 8 0.26
Windows 7 IE 9 0.25
Windows 8 Opera 12 0.25
Linux Firefox 52 0.25
Mac OS X Firefox 53 0.24
Windows 7 Firefox 45 0.24
Windows 10 Firefox 57 0.24
Windows 7 Firefox 38 0.22
Windows 10 Firefox 47 0.21

Requisitos de funcionalidad actuales

La siguiente es una lista de los actuales requisitos de renderizado de PDF a PDF's de artículos individuales y libros. Los requisitos diferentes a los de la implementación actual están mostrados en negrita

Historia

  • Rendering PDF articles and books from Wikipedia pages is handled by a service called OCG.

When rendering "books" through the book creator, it uses OCG as embedded within the Collection extension. OCG has multiple issues, especially with tables.

  • Multiple issues with OCG are identified, including complaints from the community around OCG's inability to render tables.
  • Rendering of tables ranks as number 9 on the German-speaking Community Technical Wishlist.
  • Wikimedia Deutschland begins on working on a solution for rendering tables in PDF's, and introduces Electron. They do this planning to run it alongside OCG, not to replace it.
  • At the same time as Wikimedia Deutschland is working on the Electron service, the responsible maintainers of the OCG service at the Wikimedia Foundation come to the conclusion that OCG has to be replaced.
  • The WMF Reading Team takes over the responsibility for the long term maintenance of PDF rendering and begins plans for implementing table rendering across all projects.
  • The Reading team launches a community consultation for gathering feedback on Electron.
  • The Reading Infrastructure and Web teams begin scoping the working necessary to port OCG functionality over to the Electron service.

Update After Consultation

Proposed PDF and print styles based on feedback from consultation

We launched a consultation on the current implementation of the PDF renderer in early June, 2017. After reviewing the consultation responses, we have made the following observations:

  • A larger number of users preferred the single-column format over the double column format
  • Users which prefered the double-column format highlighted that their preference was based in the styling and look and feel of double columns. Some users also expressed concerns with font size and wasting paper when printing PDF's in the single-column option
  • The following feature requests were made:
    • Functional hyperlinks
    • Date and url, 'this page downloaded [date] from [URL]'
    • Customizable css for layout, title, TOC
    • Option for 2 column format
    • Include/exclude images versions
    • Modifiable margins
    • print by section - allows you to remove references, paragraphs you don’t want, index, etc
    • Dejando configurable medida de texto

Based on the feedback, we have incorporated the following into our new print styles:

  • hyperlinks
  • article information
  • smaller font and book-like styling

The remainder of the requests above will be postponed until the second iteration of the PDF renderer, in which we plan to build a settings mode that will allow for customization of the available options.

Propuesta

The following is a proposal for the scope of functionality necessary for PDF rendering:

  • Individual articles will be rendered to PDF using the "Download as PDF" link in the sidebar
  • Multiple articles will be rendered to PDF using the Book Creator tool
  • All articles will contain attribution for text and images
  • All PDFs rendered will be able to print tables
    • Users will be able to customize the layout of their PDF (optional)

Differences between current and future implementation

OCG New Service Notes
Rendering individual articles Yes Yes
Rendering multiple articles using the book creator Yes Yes
Contains table of contents for multiple articles Yes Yes
Renders tables No Yes
Attribution Yes Yes Open question: location of attribution within the new service
Styling Latex New styles
N-column layout Yes No
Default 2-column layout Yes Tentative Default one column or two-column layout will be chosen based on feedback and quantitative and/or qualitative testing
Output format PDF, Plaintext PDF Only

Diseño

The new PDF styles will be designed for increased readability. Based on community feedback and qualitative or quantitative testing, support for a 2-column layout may be built for the book creator and/or for individual PDFs.

Development and Deployment Roadmap

The following is a rough outline of the development and deployment roadmap. It is subject to change.

  1. April – May 2017:
    1. The Reading team builds back-end support for functionality identified above
    2. Communities are consulted on expanding or shrinking proposed functionality
    3. Qualitative test performed for styling
  2. June – July 2017:
    1. New styles implemented
    2. First iteration is launched along with OCG on all projects and performance is compared
    3. Iterations based on consultations and identified edge cases
  3. August 2017 – September 2017
    1. Additional changes made if necessary
  4. octubre de 2017
    1. Second iteration launched without OCG on all projects

Single Articles

  • A PDF for a single article will be created by selecting the "Download as PDF" link
  • Upon selecting "Download as PDF", the PDF file will be generated. To download the file, users will select the "Download the file link"
  • Each PDF file will contain the following:
    • Article title and text
    • Infobox (if any)
    • Tables (if any)
    • Single-column layout
    • Page number
    • All article images and captions
    • Links to pages linked from the article (blue links and external links)
    • Text and image sources, contributors, and licenses

Phabricator Tracking

All PDF-related changes including sunsetting OCG, replacing the Electron PDF renderer, and any updates to books or the collections extension are tracked under the phabricator project Proton. The project page will display any recent updates for all tasks related to PDFs.

Libros

Functionality available in October, 2017

Note: no changes will be made to the current book creator workflow at this time

  • User will launch the books creator by selecting "Create a book"
  • This will navigate to the current book creation page
  • To download a book, users will select the "download" link from the books page
  • Users may only download books in PDF format
  • Books will contain all elements from single article format as well as:
    • Book title page
    • The references for each article from the book will appear at the end of the article
    • Each article will begin on a new page
    • A single section for text and image sources, contributors, and licenses, that contains the collected contributions from all articles

Functionality available in November - December, 2017

  • Books will contain a table of contents with page numbers
    • Selecting a section from the table of contents will navigate the user to the corresponding section within the book

Styles for books will be updated for improved readability

Alternative

There is an alternative way of exporting MediaWiki to LaTeX, PDF, ODT and EPUB:

http://mediawiki2latex.wmflabs.org/

The computational resources on the server are limited.

If you run Ubuntu Linux and want results faster, you can install the m2l-pyqt or mediawiki2latex packages.