Manual:ウィキコードをキャッシュされたHTMLから復元

From mediawiki.org
This page is a translated version of the page Manual:Restoring wiki code from cached HTML and the translation is 100% complete.

If you've managed to fail in your attempts at backing up your wiki , like we did, you may, unfortunately, after a server failure, be left with no other option than trying to recreate your lost content from various cached copies of pages from your site.

サイトのキャッシュされたHTMLを取得する場所

  • 失われたウィキからキャッシュされた HTML ページを探す最初の場所は、ブラウザーのページキャッシュです。 Google Chrome/Chromium や Firefox で about:cache にアクセスし、これらのキャッシュされたページを表示できます。ただし、キャッシュがサーバーからの新しいページで上書きされないように、「オフライン作業」モードにしておくことを忘れないでください。
  • 検索エンジンは、少なくとも人気のあるウェブサイトのページのキャッシュを保持しています。Google、Bing、Yahoo を試してみてください。
  • ウェブ アーカイブ (www.archive.org) も、幸運な場合にはあなたのページのいくつかを持っているかもしれません。
  • 大手企業や大学内にいる場合、キャッシュ プロキシを保持している可能性があるため、利用可能な他のキャッシュがあるかもしれません。

Google で site:mywiki.example.com を検索すると、サイトの ほとんど のキャッシュされたページの一覧が表示されますが、特定のページ名を検索することでより多くのページにアクセスできることがあります。 これは、災害が発生した直後にできるだけ多くのキャッシュ コンテンツを保存する、時間のかかる手作業プロセスです (ウィキを復元すると、キャッシュが新しいサーバーからリフレッシュされ、さらなるコンテンツが失われる可能性があります)。

ウィキを再構築するためのHTMLの利用

ウィキのほとんどのコンテンツを取得できた場合、一連のスクリプトを使用してそのコンテンツを処理できます。 この目的に役立つ2010年のコードの一部は、以下で入手できます: http://code.ascend4.org/ascend/trunk/tools/mediawiki/html2mediawiki/

上記のコードは、見出し、リスト、テーブル、リンク、数式、およびソース コード リストの基本的な再構築作業を行います。 それはカテゴリ タグや特定のテンプレートも正しく処理します。 The core parts of this code use BeautifulSoup and Python's regular expressions module to search for recognized patterns.

ただし、MediaWiki インスタンスはそれぞれ異なります。インストールされている拡張機能やテンプレートが異なるため、上記のスクリプトを特定のサイトに適用する前に、慎重に編集する必要があるでしょう。 上記のコードには、ASCEND ウィキへのハード コードされた参照がいくつかある可能性がありるため、注意して読み直し、変更する必要があるでしょう。

Other HTML2wiki scripts have been published but these have a slightly different aim: to translate HTML snippets for inclusion in a wiki, rather than reconstructing a wiki from its HTML impression.