サイト上のページから、メインコンテンツだけを抽出したいな~
って思っても、ロジックが複雑そ~
って思って、あきらめていたらこんな便利なものが~
ってことでメモメモ
言語はPythonなのだけれど、ちょうど今マイブームなので問題なしっw
readability-lxmlというモジュールで実現できるらしい!
まずはpipでインストール!
pip install readability-lxml
そしたら、下記コマンドをたたくと、なんとメインコンテンツが返ってくるのだ~
python -m readability.readability -u http://pypi.python.org/pypi/readability-lxml
ちょー簡単なうえ、優秀!!
記事ページとかなら高確率で抽出できる!
こりゃ便利w
コメント