Manual:MWDumper/tr

From mediawiki.org
Jump to navigation Jump to search
Önemli: MWDumper'ın 2000'lerin ortalarından beri aktif olarak korunmadığına ve mevcut dağıtımlarla çalışıp çalışmayabileceğine dikkat edin. Görünüşe göre MediaWiki 1.31 veya sonraki sürümlere aktarmak için kullanılamaz.

MWDumper, bir MediaWiki döküm dosyasından sayfa kümelerini çıkarmak için Java ile yazılmış bir araçtır. Örneğin, MediaWiki'ye Vikipedi'nin içeriği yükleyebilir.

MWDumper, MediaWiki XML dışa aktarma dökümlerini (sürüm 0.3, eksi yüklemeler) okuyabilir, isteğe bağlı filtreleme gerçekleştirebilir ve 1.4 veya 1.5 şemasında bir veritabanına doğrudan bir şeyler eklemek için XML veya SQL ifadelerine geri çıkış verebilir.

Note Note: Bu, XML dökümlerini bir MediaWiki veritabanına aktarmak için kullanılabilse de, küçük içe aktarmalar için en iyi seçim olmayabilir (örneğin, 100 sayfa veya daha az). Genel bakış için Manual:XML dökümlerini içe aktarma sayfasına bakın.

Onu nerede bulabilir[edit]

Mevcut XML dışa aktarma dökümlerini içe aktarmak için, güncel bir MWDumper yapısına ihtiyacınız olacak...

{{git file|action=summary|project=mediawiki/tools/mwdumper|text=Kaynağından güncel bir MWDumper oluşturabilirsiniz. (Aşağıdaki #MWDumper kaynaktan nasıl oluşturulur bölümüne bakın).

Docker'ınız varsa ve onu kendiniz oluşturmak istemiyorsanız, bunu sizin için yapan aşağıdaki Docker görüntüsünü kullanabilirsiniz: https://hub.docker.com/r/ueland/mwdumper/

Kullanım[edit]

MWDumper aracılığıyla içe aktarım için ön koşullar[edit]

Mwdumper'ı kullanmadan önce sayfanız, metniniz, revizyon ve yönlendirme tablolarınız boş olmalıdır. Bunları boşaltmak için şunu yapın (bunun mevcut bir wikiyi sileceğini unutmayın):

  • SQL'de: USE wikidb; TRUNCATE TABLE page; TRUNCATE TABLE text; TRUNCATE TABLE revision; TRUNCATE TABLE redirect;
  • maintenance dizinde: php rebuildall.php

MWDumper ile döküm dosyaları içe aktarım[edit]

Doğrudan veritabanı içe aktarımı için örnek komut satırı:

  java -jar mwdumper.jar --format=sql:1.25 pages_full.xml.bz2 |
    mysql -u <username> -p <databasename>

veya

  cd mwdumper/src
  javac org/mediawiki/dumper/Dumper.java
  cd ..
  java -classpath ./src org.mediawiki.dumper.Dumper --format=sql:1.25 pages_full.xml.bz2 |
    mysql -u <username> -p <databasename>

Not: javac org/mediawiki/dumper/Dumper.java hatalar atacak ve bunun hata ayıklaması gerekecek
     ./org/mediawiki/dumper/filters/predicates/AdHocListFilter.java:5: error: 
     package com.google.common.base does not exist
     import com.google.common.base.Splitter;
 

Note Note: Bir üçüncü taraf geliştiricisi, büyük dökümleri işlemek için sekmeyle ayrılmış bir biçimde çıktıya özellikler ekledi. Derlenen sürüm burada ve projenin kodu buradadır. Güncellemeyi kullanmak için sayfalar için ayrı bir çıkış dosyası belirlemeniz gerekir, çünkü iki sekmeyle ayrılmış çıktı dosyalarının birlikte dökümünü istemezsiniz. Bu, özellikle Hadoop kullanılarak büyük Vikipedi Dökümlerini işlemek için yapıldı. Kullanım aşağıda gösterilmiştir:

cat train.xml | java -jar mwdumper.jar --format=flatfile:pages_output_file.txt - --quiet > train.txt

İpucu: 'page', 'revision' ve 'text' tabloları başarılı bir içe aktarma için boş bırakılmalıdır.

Not: MySQL bir hata bildirse bile bu komut devam edecektir. Muhtemelen istediğiniz bu değil, MySQL'e doğrudan bağlantı kullanırsanız, hata oluştuğunda içe aktarma işlemi duracaktır.

Not: Bir mwdumper komutunu nohup yaparsanız, --quiet seçeneğini kullandığınızdan emin olun.

Karakter kodlamayla ilgili bir not[edit]

Veritabanının utf8 kodlu metin beklediğinden emin olun. Veritabanı latin1 kodlu metin bekliyorsa (varsayılan olarak MySQL yapar), mwdumper'ın çıkışını doğrudan kullanırsanız tablolarınızda geçersiz karakterler alırsınız. Bunu yapmanın bir yolu, yukarıdaki örnek komutta --default-character-set=utf8 ile MySQL'e geçirmektir.

Mwdumper'ın çıkışını bir JDBC URL'sinde kullanmak istiyorsanız, sorgu dizesinde characterEncoding=utf8 setini kullanmanız gerekir.

Ayrıca MediaWiki tablolarınızın CHARACTER SET=binary kullandığından emin olun. Aksi takdirde, MySQL belirli karakterleri ayırt etmekte başarısız olduğu için UNIQUE Key 'name_title' içinde yinelenen girdi gibi hata mesajları alabilirsiniz.

Karmaşık filtreleme[edit]

Birden çok çıktı dosyası oluşturmak için karmaşık filtreleme de yapabilirsiniz:

  java -jar mwdumper.jar \
    --output=bzip2:pages_public.xml.bz2 \
      --format=xml \
      --filter=notalk \
      --filter=namespace:\!NS_USER \
      --filter=latest \
    --output=bzip2:pages_current.xml.bz2 \
      --format=xml \
      --filter=latest \
    --output=gzip:pages_full_1.25.sql.gz \
      --format=sql:1.25 \
    --output=gzip:pages_full_1.5.sql.gz \
      --format=sql:1.5 \
    --output=gzip:pages_full_1.4.sql.gz \
      --format=sql:1.4 \
    pages_full.xml.gz

Çıplak bir parametre, XML girişinin okunacağı bir dosya olarak yorumlanacaktır; "-" veya hiçbiri belirtilmezse, giriş stdin'den okunur. ".gz" veya ".bz2" uzantılı girdi dosyaları, sırasıyla gzip ve bzip2 akışları olarak açılacaktır.

7-zip .7z dosyalarının dahili sıkıştırmasının açılması henüz desteklenmemektedir; bu tür dosyaları p7zip'in 7za'sı üzerinden yönlendirebilirsiniz:

  7za e -so pages_full.xml.7z |
    java -jar mwdumper.jar --format=sql:1.25 |
    mysql -u <username> -p <databasename>

Hiçbir parametre verilmemişse varsayılanlar:

  • stdin'den sıkıştırılmamış XML okuması
  • stdout çıktıya sıkıştırılmamış XML yazımı
  • filtresiz

Çıkış havuzları[edit]

  --output=stdout
      Send uncompressed XML or SQL output to stdout for piping.
      (May have charset issues.) This is the default if no output
      is specified.
  --output=file:<filename.xml>
      Write uncompressed output to a file.
  --output=gzip:<filename.xml.gz>
      Write compressed output to a file.
  --output=bzip2:<filename.xml.bz2>
      Write compressed output to a file.
  --output=mysql:<jdbc url>
      Valid only for SQL format output; opens a connection to the
      MySQL server and sends commands to it directly.
      This will look something like:
      mysql://localhost/databasename?user=<username>&password=<password>

Çıkış formatları[edit]

  --format=xml
      Output back to MediaWiki's XML export format; use this for
      filtering dumps for limited import. Output should be idempotent.
  --format=sql:1.4
      SQL statements formatted for bulk import in MediaWiki 1.4's schema.
  --format=sql:1.5
      SQL statements formatted for bulk import in MediaWiki 1.5's schema.
      Both SQL schema versions currently require that the table structure
      be already set up in an empty database; use maintenance/tables.sql
      from the MediaWiki distribution.
  --format=sql:1.25
     SQL statements formatted for bulk import in MediaWiki 1.25's schema.

Eylem filtresi[edit]

  --filter=latest
      Skips all but the last revision listed for each page.
      FIXME: currently this pays no attention to the timestamp or
      revision number, but simply the order of items in the dump.
      This may or may not be strictly correct.
  --filter=list:<list-filename>
      Excludes all pages whose titles do not appear in the given file.
      Use one title per line; blanks and lines starting with # are
      ignored. Talk and subject pages of given titles are both matched.
  --filter=exactlist:<list-filename>
      As above, but does not try to match associated talk/subject pages.
  --filter=namespace:[!]<NS_KEY,NS_OTHERKEY,100,...>
      Includes only pages in (or not in, with "!") the given namespaces.
      You can use the NS_* constant names or the raw numeric keys.
  --filter=notalk
      Excludes all talk pages from output (including custom namespaces)
  --filter=titlematch:<regex>
      Excludes all pages whose titles do not match the regex.

Çeşitli seçenekler[edit]

  --progress=<n>
      Change progress reporting interval from the default 1000 revisions.
  --quiet
      Don't send any progress output to stderr. Recommended when running under nohup.

MySQL'e doğrudan bağlantı[edit]

MySQL'e doğrudan bağlantı ile mwdumper kullanma örneği[edit]

java -server -classpath mysql-connector-java-3.1.11/mysql-connector-java-3.1.11-bin.jar:mwdumper.jar \
   org.mediawiki.dumper.Dumper --output=mysql://127.0.0.1/testwiki?user=wiki\&password=wiki \
   --format=sql:1.25 20051020_pages_articles.xml.bz2

Notlar:

  • You will need the mysql-connector JDBC driver. On Ubuntu this comes in package libmysql-java and is installed at /usr/share/java/mysql-connector-java.jar.
  • The JRE does not allow you to mix the -jar and -classpath arguments (hence the different command structure).
  • The --output argument must before the --format argument.
  • The ampersand in the MySQL URI must be escaped on Unix-like systems.

Example of using mwdumper with a direct connection to MySQL on WindowsXP[edit]

Had problems with the example above... this following example works better on XP....

1.Create a batch file with the following text.


set class=mwdumper.jar;mysql-connector-java-3.1.12/mysql-connector-java-3.1.12-bin.jar
set data="C:\Documents and Settings\All Users.WINDOWS\Documents\en.wiki\enwiki-20060207-pages-articles.xml.bz2"
java -client -classpath %class% org.mediawiki.dumper.Dumper "--output=mysql://127.0.0.1/wikidb?user=<username>&password=<password>&characterEncoding=UTF8" "--format=sql:1.25" %data%
pause

2.Download the mysql-connector-java-3.1.12-bin.jar and mwdumper.jar

3.Run the batch file.

Note

  1. It still reports a problem with the import files, "duplicate key"...
  2. The class path separator is a ; (semi-colon) in this example; different from the example above.


The "duplicate key" error may result from the page, revision and text tables in the database not being empty, or from character encoding problems. See A note on character encoding.

Performance Tips[edit]

Please elaborate on these tips if you can.

To speed up importing into a database, you might try the following:

Remove indexes and auto-increment fields[edit]

Temporarily remove all indexes and auto_increment fields from the following tables: page, revision and text. This gives a tremendous speed bump, because MySQL will otherwise be updating these indexes after each insert.

Don't forget to recreate the indexes afterwards.

  1. Remove indexes:
  2. Remove primary keys: In MySQL execute:
    • alter table revision drop primary key;
    • alter table text drop primary key;
    • alter table page drop primary key;
  3. Remove auto increment fields: In MySQL execute:
    • alter table revision change rev_id rev_id int(10) unsigned not null;
    • alter table text change old_id old_id int(10) unsigned not null;
    • alter table page change page_id page_id int(10) unsigned not null;

Note that it will take a long time to recreate all the removed data.

Set -server option[edit]

Java's -server option may significantly increase performance on some versions of Sun's JVM for large files. (Not all installations will have this available.)

Increase MySQL's innodb_log_file_size[edit]

Increase MySQL's innodb_log_file_size in /etc/mysql/my.cnf. The default is as little as 5mb, but you can improve performance dramatically by increasing this to reduce the number of disk writes. innodb_log_file_size=64M is commonly a good log size; too large of a size may increase recovery time more than is desirable.

Shut down the server cleanly, and move away (don't delete) the log files, which are in /var/lib/mysql and named ib_logfile0, ib_logfile1, and so on. Change the innodb_log_file_size setting. Then restart the server. Test to see if the server is working; if all is well, you can delete the log files you moved.

Disable the binary log[edit]

If you don't need it, disable the binary log (log-bin option) during the import. On a standalone machine this is just wasteful, writing a second copy of every query that you'll never use.

To test if binary log is enabled via SQL command, issue the following statement:

SHOW VARIABLES LIKE 'log_bin';

More tips in the MySQL reference manual[edit]

Various other wacky tips can be found in the MySQL reference manual. If you find any useful ones, please write about them here.

Troubleshooting[edit]

If strange XML errors are encountered under Java 1.4, try 1.5:

If mwdumper gives java.lang.IllegalArgumentException: Invalid contributor exception, see task T20328.

If it gives java.lang.OutOfMemoryError: Java heap space exception, run it with larger heap size, for example java -Xms128m -Xmx1000m -jar mwdumper.jar ... (first is starting, second maximum size) (task T23937)

If an error is thrown with a reference to page_counter being missing, use the --format=sql:1.25 parameter. Alternatively, you can create a page_counter column on the page table.

Importing XML dumps from old MediaWiki versions may give errors of "Column 'rev_sha1' cannot be null". You'll need to change the column to accept null values, and run populateRevisionSha1.php afterwards.

How to build MWDumper from source[edit]

You can build MWDumper from source and let Maven sort out the dependencies. Just:

git clone https://phabricator.wikimedia.org/diffusion/MWDU/mwdumper.git
cd mwdumper
mvn compile
mvn package

It should generate the mwdumper<version number>.jar file (for example mwdumper-1.25.jar) on the folder named target.

Note that usage examples on this page use class=mwdumper.jar, so you should either rename the file to mwdumper.jar, or use class=mwdumper-1.25.jar instead.

Programming[edit]

Reporting bugs[edit]

Bugs can be reported in the Wikimedia bug tracker.

Change history (abbreviated)[edit]

  • 2016-04-23: Updated Xerces library to fix intermittent UTF-8 breakage
  • ... various bug fixes ...
  • ... build system changed to Maven ...
  • ... various bug fixes ...
  • 2005-10-25: Switched SqlWriter.sqlEscape back to less memory-hungry StringBuffer
  • 2005-10-24: Fixed SQL output in non-UTF-8 locales
  • 2005-10-21: Applied more speedup patches from Folke
  • 2005-10-11: SQL direct connection, GUI work begins
  • 2005-10-10: Applied speedup patches from Folke Behrens
  • 2005-10-05: Use bulk inserts in SQL mode
  • 2005-09-29: Converted from C# to Java
  • 2005-08-27: Initial extraction code

Todo[edit]

  • Add some more junit tests
  • Include table initialization in SQL output
  • Allow use of table prefixes in SQL output
  • Ensure that titles and other bits are validated correctly.
  • Test XML input for robustness
  • Provide filter to strip ID numbers
  • <siteinfo> is technically optional; live without it and use default namespaces
  • GUI frontend(s)
  • Port to Python? ;)

Alternate method of loading a huge wiki[edit]

MediaWiki version:
1.32
Warning: This method takes days to run.

If you have to load a huge wiki this might help...

Below is a set of instructions that makes loading a large wiki less error prone and maybe a bit faster. It is not a script but rather a set of commands you can copy into bash (running in a screen session.) You'll have to babysit and customize the process for your needs.

Warning Warning: Those commands drop several indices and then re-adds them again after the import. However, the index definition is from a specific MediaWiki version, which may not match your current version of MediaWiki. Use this method if you know what are you doing, and check if index definitions are correct.


# Dump SQL to disk in even sized chunks.  This takes about 80 Gb of hard drive space and 3 hours for enwiki.
# Setup the db to receive the chunks.  This takes a few seconds.
# Import the chunks.  This takes a few days for enwiki.
# Rebuild the DB.  This takes another day for enwiki.
# Run standard post import cleanup.  I haven't finished this step successfully yet but some of it can be skipped I think.

export DUMP_PREFIX=/public/datasets/public/enwiki/20130604/enwiki-20130604
export DIR_ROOT=/data/project/dump
export DIR=${DIR_ROOT}/enwiki
export EXPORT_PROCESSES=4
export IMPORT_PROCESSES=4
export DB=enwiki2
export EXPORT_FILE_SIZE=5
export EXPORT_FILE_SUFFIX_LENGTH=8
export LOG=~/log

bash -c 'sleep 1 && echo y' | mysqladmin drop ${DB} -u root
sudo rm -rf ${DIR}
rm -rf ${LOG}

sudo mkdir -p ${DIR}
sudo chown -R ${USER} ${DIR_ROOT}
mkdir -p ${LOG}

# Dump SQL to disk in even sized chunks.
# Sort by size descending to keep as many threads as possible hopping.
# uconv cleans up UTF-8 errors in the source files.
# grep removes BEGIN and COMMIT statements that mwdumper thinks are good, but I do better below
sudo apt-get install openjdk-7-jdk libicu-dev -y #jdk for mwdumper and libicu-dev for uconv
ls -1S ${DUMP_PREFIX}-pages-meta-current*.xml-p* |
  xargs -I{} -P${EXPORT_PROCESSES} -t bash -c '
  mkdir -p ${DIR}/$(basename {})
  cd ${DIR}/$(basename {})
  bunzip2 -c {} |
    uconv -f UTF-8 -t ascii --callback escape-xml-dec -v 2> ${LOG}/$(basename {}).uconv |
    java -jar ~/mwdumper-1.16.jar --format=sql:1.25 2> ${LOG}/$(basename {}).mwdumper |
    grep INSERT |
    split -l ${EXPORT_FILE_SIZE} -a ${EXPORT_FILE_SUFFIX_LENGTH} 2> ${LOG}/$(basename {}).split
  '

# Setup the db to receive the chunks.
mysqladmin create ${DB} --default-character-set=utf8 -u root
mysql -u root ${DB} < /srv/mediawiki/maintenance/tables.sql
mysql -u root ${DB} <<HERE
ALTER TABLE page
  CHANGE page_id page_id INTEGER UNSIGNED,
  DROP INDEX name_title,
  DROP INDEX page_random,
  DROP INDEX page_len,
  DROP INDEX page_redirect_namespace_len;
ALTER TABLE revision 
  CHANGE rev_id rev_id INTEGER UNSIGNED,
  DROP INDEX rev_page_id,
  DROP INDEX rev_timestamp,
  DROP INDEX page_timestamp,
  DROP INDEX user_timestamp,
  DROP INDEX usertext_timestamp,
  DROP INDEX page_user_timestamp;
ALTER TABLE text
  CHANGE old_id old_id INTEGER UNSIGNED;
HERE

# Import the chunks
# Each chunk is wrapped in a transaction and if the import succeeds the chunk is removed from disk.
# This means you should be able to safely ctrl-c the process at any time and rerun this block and
# it'll pick up where it left off.  The worst case scenario is you'll get some chunk that was added
# but not deleted and you'll see mysql duplicate key errors.  Or something like that.  Anyway, if you
# are reading this you are a big boy and can figure out how clean up the database or remove the file.
echo 'BEGIN;' > ${DIR_ROOT}/BEGIN
echo 'COMMIT;' > ${DIR_ROOT}/COMMIT
find ${DIR} -type f |
  sort -R |
  xargs -I{} -P${IMPORT_PROCESSES} -t bash -c '
    cat ${DIR_ROOT}/BEGIN {} ${DIR_ROOT}/COMMIT | mysql -u root ${DB} &&
    rm {}'

# Rebuild the DB
mysql -u root ${DB} <<HERE
CREATE TABLE bad_page AS 
  SELECT page_namespace, page_title, COUNT(*) AS count
  FROM page GROUP BY page_namespace, page_title
  HAVING count > 1;
UPDATE page, bad_page
  SET page.page_title = CONCAT(page.page_title, page.page_id)
  WHERE page.page_namespace = bad_page.page_namespace AND page.page_title = bad_page.page_title;
DROP TABLE bad_page;
ALTER TABLE page
  CHANGE page_id page_id INTEGER UNSIGNED AUTO_INCREMENT,
  ADD UNIQUE INDEX name_title (page_namespace,page_title),
  ADD INDEX page_random (page_random),
  ADD INDEX page_len (page_len),
  ADD INDEX page_redirect_namespace_len (page_is_redirect, page_namespace, page_len);
ALTER TABLE revision 
  CHANGE rev_id rev_id INTEGER UNSIGNED AUTO_INCREMENT,
  ADD UNIQUE INDEX rev_page_id (rev_page, rev_id),
  ADD INDEX rev_timestamp (rev_timestamp),
  ADD INDEX page_timestamp (rev_page,rev_timestamp),
  ADD INDEX user_timestamp (rev_user,rev_timestamp),
  ADD INDEX usertext_timestamp (rev_user_text,rev_timestamp),
  ADD INDEX page_user_timestamp (rev_page,rev_user,rev_timestamp);
ALTER TABLE text
  CHANGE old_id old_id INTEGER UNSIGNED AUTO_INCREMENT;
HERE

# Run standard post import cleanup
cd /srv/mediawiki
php maintenance/update.php

Notes[edit]


See also[edit]