word2vec を wikiデータを使って検証してみる

言葉の足し算やら引き算やらができるという
word2vecとやらを試してみたよ!

・下準備

まずは、こちらのサイトからwikiのデータを取得
wget https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
約20分くらいかな

次に、落としてきたデータがxml形式なので、
こちらをテキスト形式に変換するためにwp2txtというのを使用するのだけど
wp2txtをインストールするためにrubyの環境を用意

git clone git://github.com/sstephenson/rbenv.git ~/.rbenv
mkdir ~/.rbenv/plugins
git clone https://github.com/sstephenson/ruby-build.git ~/.rbenv/plugins/ruby-build

.bashrcなどに
export RBENV_ROOT=”~/.rbenv”
export PATH=”${RBENV_ROOT}/bin:${PATH}”
eval “$(rbenv init -)”

設定を反映
source .bashrc

必要なモジュールをインストールしておく
yum install -y readline-devel openssl-devel

こちらでインストール可能なバージョンが確認できるので
rbenv install -l

rbenv install 2.2.0
rbenv rehash
rbenv global 2.2.0

確認
rbenv versions

これでruby環境が整った(はず)!

wp2txtのインストール
gem install wp2txt

そしてテキストに変換
wp2txt –input-file jawiki-latest-pages-articles.xml.bz2
1時間くらい

コメント

タイトルとURLをコピーしました