ブログから本文抽出するためにHTML

http://d.hatena.nh.jp/dkfj/20081205/1228441267を参考に

インストール

$ perl -MCPAN -e shell

install HTML::ExtractContent

<<

サンプル

上記参考サイトのものをそのまま流用

|perl|
use strict;
use warnings;
use HTML::ExtractContent;
use LWP::UserAgent;

my $url = shift @ARGV;
my $ua = LWP::UserAgent->new;
$ua->agent('Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)');
my $res = $ua->get($url);
my $extractor = HTML::ExtractContent->new;
$extractor->extract($res->decoded_content);
print $extractor->as_text,"\n";

||<