Wikipedia日本語版のEPWING変換(ServersMan@VPS編)

1.変換のための作業ディレクトリを作成

# mkdir /tmp/wikipedia
# cd /tmp/wikipedia

2.Perlのインストール

# # wget http://ftp.funet.fi/pub/CPAN/src/perl-5.8.8.tar.bz2
# tar xvf perl-5.8.8.tar.bz2
# cd perl-5.8.8
# ./Configure -Duselargefiles -Duse64bitint -des

# make
# make install
# cd ..

# wget ftp://ftp.imagemagick.org/pub/ImageMagick/ImageMagick.tar.gz
# tar xvf ImageMagick.tar.gz
# cd ImageMagick-6.6.2-7
# ./configure
# make
# make install
# cd PerlMagick
# perl Makefile.PL
# make
# sudo make install
# cd ../../

3.freepwingのインストール

# wget ftp://ftp.sra.co.jp/pub/misc/freepwing/freepwing-1.6.1.tar.bz2
# tar jxvf freepwing-1.6.1.tar.bz2
# cd freepwing-1.6.1
# ./configure
# make
# make install
# cd ..

4.wikipedia-fpwのインストール

# wget http://ikazuhiro.s206.xrea.com/filemgmt/visit.php/134
# tar xvf wikipedia-fpw-20091202-src.tar.gz
# mv wikipedia-fpw-20091202 wikipedia-fpw

5.mimetex(数式変換用)

# yum install ImageMagick ImageMagick-perl ImageMagick-devel
# mkdir mimetex
# cd mimetex
# wget http://www.forkosh.com/mimetex.zip
# unzip mimetex.zip
# gcc -DAA -DAA mimetex.c gifsave.c -lm -o mimetex.exe
# cp -p mimetex.exe /usr/local/bin
# cd ..
※:数式変換を使用しない場合には不要

wikipedia-fpw.conf 内容の編集について

  • ‘enable_math’ => 1, (数式変換しない場合は「0」を指定)
  • ‘math_black’ => 0, (数式のバックグラウンドを白にする場合「0」黒にする場合「1」を指定)

6.ebzip(EPWING圧縮用)

# yum install zlib-devel
# wget ftp://ftp.sra.co.jp/pub/misc/eb/eb-4.4.3.tar.bz2
# tar zxvf eb-4.4.3.tar.gz
# cd eb-4.4.3
# ./configure
# make
# make install
# cd ..
※:ローカルPC側で圧縮を行う場合には不要

7.WikipediaをEPWING形式に変換 =====

# # wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
# bunzip2 jawiki-latest-pages-articles.xml.bz2
# mv jawiki-latest-pages-articles.xml wikipedia-fpw/wikipedia.xml
# cd wikipedia-fpw
# fpwmake
# fpwmake categoly
# fpwmake package

8.作成されたEPWING形式を圧縮 =====

# mkdir dst
# unzip wikipedia-fpw-YYYYMMDD.zip
# cd WIKIP
# ebzip -z -l 5 -o ../dst ./

# tar cjvf wikipedia-fpw-YYYYMMDD.tar.bz2 ../dst/WIKIP

変換にかかる時間は…、よく分からんけど時間が天文学的にかかるんですが…。

メモリが足りていないからか?ServersMan@VPSでの変換はだめなのか?ちょっと不明なんで調べてみます。

おそらく、数式変換のところでメモリをバカ食いしているのが原因と思うのですが…。

変換したら、ローカルのPCに”wikipedia-fpw-YYYYMMDD.tar.bz2″をFTP・SFTPなんかで転送すれば使えるはず。

変換済みのものをページを別にしてアップしておきますので使ってやってください。

  1. コメントはまだありません。

  1. トラックバックはまだありません。

 
%d人のブロガーが「いいね」をつけました。