言葉の足し算やら引き算やらができるという
word2vecとやらを試してみたよ!
・下準備
まずは、こちらのサイトからwikiのデータを取得
wget https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
約20分くらいかな
次に、落としてきたデータがxml形式なので、
こちらをテキスト形式に変換するためにwp2txtというのを使用するのだけど
wp2txtをインストールするためにrubyの環境を用意
git clone git://github.com/sstephenson/rbenv.git ~/.rbenv
mkdir ~/.rbenv/plugins
git clone https://github.com/sstephenson/ruby-build.git ~/.rbenv/plugins/ruby-build
.bashrcなどに
export RBENV_ROOT=”~/.rbenv”
export PATH=”${RBENV_ROOT}/bin:${PATH}”
eval “$(rbenv init -)”
設定を反映
source .bashrc
必要なモジュールをインストールしておく
yum install -y readline-devel openssl-devel
こちらでインストール可能なバージョンが確認できるので
rbenv install -l
rbenv install 2.2.0
rbenv rehash
rbenv global 2.2.0
確認
rbenv versions
これでruby環境が整った(はず)!
wp2txtのインストール
gem install wp2txt
そしてテキストに変換
wp2txt –input-file jawiki-latest-pages-articles.xml.bz2
1時間くらい
コメント