Help:Export/de

Wiki-Seiten können in ein spezielles XML-Format exportiert werden, um in eine andere MediaWiki-Installation zu importieren oder sie zum Beispiel für das Analysieren des Inhalts zu benutzen. Siehe auch Syndication feeds für das Exportieren anderer Informationen als der Seiten und Hilfe:Import für das Importieren der Seiten.

Wie man exportiert
Es gibt mindestens vier Möglichkeiten, Seiten zu exportieren:

Sie können eine Liste aller Seitennamen (in einem spezifizierten Namensraum) über die Spezialseite Alle Seiten erhalten. schreibt alle wiki Seiten in eine XML Datei. dumpBackup.php arbeitet nur mit MediaWiki 1.5 oder neuer. Sie müssen direkten Zugang zum Server haben, um dieses Script auszuführen. Dumps der mediawiki Projekte werden (mehr oder weniger) regelmäßig unter http://download.wikipedia.org zur Verfügung gestellt. die seit einem spezifischen Zeitpunkt geändert worden sind. Für Wikimedia-Projekte ist diese Schnittstelle nicht öffentlich verfügbar. OAI-PMH enthält ein Wrapper-Format um die tatsächlichen exportierten Artikel.
 * Geben Sie die Namen der Artikel in die Eingabebox auf der Spezialseite Seiten exportieren ein oder verwenden Sie URL /wiki/Special:Export/Name_des_Artikels.
 * Das Backup-Script dumpBackup.php
 * Es gibt ein OAI-PMH-interface, um regelmäßig Seiten zu holen,


 * Verwenden Sie Python Wikipedia Robot Framework. Dieses Verfahren wird hier nicht erklärt.

Normalerweise ist nur die gegenwärtige Version einer Seite enthalten. Optional können Sie alle Versionen mit Datum, Zeit, Benutzername und die Bearbeitungs-Zusammenfassung erhalten.

Außerdem können Sie die SQL Datenbank kopieren. So wurden Dumps der Datenbank vor MediaWiki 1.5 zur Verfügung gestellt. Dieses Verfahren wird hier nicht weiter erklärt.

Exportieren aller Seiten eines Namensraums
Alle Seiten eines Namensraums exportieren Sie mit der erste Methode wie oben erwähnt:
 * Rufen Sie die Spezialseite Alle Seiten auf.
 * kopieren Sie die Liste in einen Texteditor.
 * sorgen Sie dafür, dass jeder Namen in einer neuen Zeile steht.
 * Wenn der gewählte Namensraum nicht der Haupt-Namensraum ist: ergänzen Sie den namensspace-Präfix vor den Seitennamen, z.B.: 'Hilfe:Inhalt'

Nun sind Sie bereit, den Export durchzuführen:
 * Gehen Sie auf die Spezialseite Seiten exportieren und fügen Sie alle Ihre Seitennamen in das Textfeld ein. Stellen Sie dabei sicher, daß es keine Leerzeilen gibt.
 * Klicken Sie den Knopf "Anfrage abschicken", um die Operation zu starten.
 * Speichern Sie die resultierende XML-Datei mit der "speichern unter"-Funktion Ihres Browsers

Und schließlich:
 * Öffnen Sie die XML-Datei in einem Texteditor. Rollen Sie zum Ende und überprüfen Sie, ob dort Fehlermeldungen angezeigt werden.

Nun können Sie diese XML-Datei für den Hilfe:Import verwenden.

Exportformat
Das Format der XML-Datei, die man erhält, ist immer gleich. Es wird durch das XML Schema unter http://www.mediawiki.org/xml/export-0.3.xsd kodiert. Dieses Exportformat ist nicht zur Ansicht in einem Webbrowser gedacht, obgleich einige Browser (wie der Internet Explorer) diese Datei in einem Baumformat zur Ansicht aufbereiten und darstellen können. Alternativ dazu kann man sich im Browser auch den Quelltext der Seite anzeigen lassen - für eine XML-Datei sieht man dann das eigentliche Format - oder die generierte Exportdatei speichern und mit anderen Werkzeugen ansehen. Beim Ansehen des XML-Quelltexts lässt sich der eigentliche Wikitext leicht ausfindig machen. Wenn Sie nicht einen speziellen XML-Editor oder -Viewer benutzen, tauchen "<" und ">" als &amp;lt; und &amp;gt; auf. Um Konflikte mit XML-Entitäten zu vermeiden, wird "&amp;" als "&amp;amp;" kodiert.

In der gegenwärtigen Version des XML-Exportformats ist keine besondere XML-Version des Wiki-Markups enthalten (siehe Wikipedia-DTD für einen früheren Vorschlag), man bekommt den Wikitext genau so, wie er aussähe, würde man den Artikel editieren.

Beispiel
 Page title sysop 2001-01-15T13:15:00Z Foobar I have just one thing to say! A bunch of text here. 2001-01-15T13:10:27Z 10.0.0.2 new! An earlier revision. Talk:Page title 2001-01-15T14:03:00Z 10.0.0.2 hey WHYD YOU LOCK PAGE??!!! i was editing that jerk

DTD
Hier ist eine inoffizielle, kurze Document-Type-Definition-Version des Formats. Wenn Sie nicht wissen, was eine DTD ist, ignorieren Sie sie einfach.

<!ELEMENT mediawiki (siteinfo,page*)>

<!ATTLIST mediawiki version CDATA  #REQUIRED xmlns CDATA #FIXED "http://www.mediawiki.org/xml/export-0.3/" xmlns:xsi CDATA #FIXED "http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation CDATA #FIXED "http://www.mediawiki.org/xml/export-0.3/ http://www.mediawiki.org/xml/export-0.3.xsd" > <!ELEMENT siteinfo (sitename,base,generator,case,namespaces)> <!ELEMENT sitename (#PCDATA)> <!ELEMENT base (#PCDATA)> <!ELEMENT generator (#PCDATA)> <!ELEMENT case (#PCDATA)> <!ELEMENT namespaces (namespace+)> <!ELEMENT namespace (#PCDATA)> <!ATTLIST namespace key CDATA #REQUIRED> <!ELEMENT page (title,id?,restrictions?,(revision|upload)*)> <!ELEMENT title (#PCDATA)> <!ELEMENT id (#PCDATA)> <!ELEMENT restrictions (#PCDATA)> <!ELEMENT revision (id?,timestamp,contributor,minor?,comment,text)> <!ELEMENT timestamp (#PCDATA)> <!ELEMENT minor EMPTY> <!ELEMENT comment (#PCDATA)> <!ELEMENT text (#PCDATA)> <!ATTLIST text xml:space CDATA #FIXED "preserve"> <!ELEMENT contributor ((username,id) | ip)> <!ELEMENT username (#PCDATA)> <!ELEMENT ip (#PCDATA)> <!ELEMENT upload (timestamp,contributor,comment?,filename,src,size)> <!ELEMENT filename (#PCDATA)> <!ELEMENT src (#PCDATA)> <!ELEMENT size (#PCDATA)>

Verarbeitung des XML Exports
Es gibt ohne Zweifel viele Werkzeuge, die das exportierte XML verarbeiten können. Wenn Sie viele Seiten verarbeiten (zum Beispiel einen kompletten Wikipedia-Dump), so dass Sie vermutlich nicht in der Lage sind, das gesamte Dokument im Hauptspeicher zu halten, brauchen Sie einen SAX-basierten Parser oder andere event-abhängige Methoden, um XML-Dateien zu lesen.

Alternativ können Sie auch reguläre Ausdrücke verwenden, um Teile des XML-Codes zu extrahieren, wobei diese Methode zwar schneller ist als andere, aber auch - auf Grund der Komplexität regulärer Ausdrücke - schwieriger zu warten.

Hier ist eine Liste von XML-Methoden und -Werkzeugen für die Verarbeitung der XML-Exports, bitte ergänzen:


 * Parse::MediaWikiDump ist ein Perl-Modul für die Verarbeitung der XML-Dump-Datei.
 * Processing MediaWiki XML with STX - Streambasierte Verarbeitung von XML
 * Das IBM History flow project kann Exports lesen, nachdem ein kleines Python-Programm (export-historyflow-expand.py) darübergelaufen ist.

Details und praktische Hinweise
/mediawiki/siteinfo/namespaces/namespace matchen.
 * Um den Namensraum (Namespace) einer Seite zu ermitteln, müssen Sie den Seitentitel auf das Prefix
 * Mögliche Beschränkungen sind
 * sysop (protected pages)