2 posts tagged “それpla”
先日書いたエントリー「Dapper と Yahoo! pipes で Hikki の日記をRSS化する」に対して、はてブで
「まず"plagger 宇多田"で検索。」
というコメントをいただいた。
で、早速"plagger 宇多田"で検索してみた。
Plaggerで全文取得 (1)・宇多田ヒカルの日記を攻略する | Glassleaf (2007年06月09日)
というエントリーに対して、かの大旦那 ID:otsune さんが日付を取得しようと頑張ったのですがどうしても出来なくてそのままにしてあります。誰か教えてください。
subtech - otsune's SnakeOil - 宇多田ヒカルの日記用EFTを改造
というエントリーを書かれていた。extract_date_formatをコメントアウトしているのは理由が有って。DateTimeは年が無いとエラーを出して認識できないから。
monthとdayがあるけどyearが無い場合のPlagger::Date処理についていろいろと話したけど。
でも、ソースを眺めてみると、サイドバーのリンクのところに、使えそうなyearの情報があるではないか。
<td valign="top"><a href="index.php?m=1&d=2007070321452j.xml" class="m">クマゼミ<br>7.3(Tue) 21:45 J</a></td>
これをyearとして利用するようPlaggerのFilter-EntryFullTextを見よう見まねで書いてみた。ちなみに、「\2」は正規表現の前方参照。サイドインデックスの日付と本文の日付が一致したら、サイドインデックスにあるそのURLの一部をyearとしている。
- assets/plugins/Filter-EntryFullText/u3music_com_message.yaml
# Message from Utada Hikaru / Utada
# http://www.u3music.com/message/
author: Koji Kawade
custom_feed_handle: http://www\.u3music\.com/message/
custom_feed_follow_link: index\.php\?m=1&d=\d+j\.xml
handle: http://www\.u3music\.com/message/index\.php\?m=1&d=\d+j\.xml
extract: <a href="index\.php\?m=1&d=(\d{4})\d+j\.xml" class="m">.*?<br>(.*?) J</a>.*?<div class="blue">(.*?)</div>.*?<div class="blue02" align="right">\2</div>.*?<!--Photo - start-->(.*?)<!--Photo - end-->.*?<div class="txt">(.*?)</div>extract_capture: year date2 title photo body
extract_after_hook: |
$data->{date} = $data->{year} . "." . $data->{date2};
$data->{body} = $data->{photo} . $data->{body};
あまりエレガントではないけど。
ちなみにconfig.yamlは以下のような感じで書けばよい。
global:
cache:
base: /path/plagger
assets_path: /path/plagger/cpan/usr/bin/assetstimezone: Asia/Tokyo
plugins:
- module: Subscription::Config
config:
feed:
- url: http://www.u3music.com/message/
meta:
follow_xpth: //div[@align='center']//a
- module: Filter::EntryFullText
- module: Publish::Feed
config:
format: RSS
dir: /path/plagger/feed/
filename: u3music_com_message.rss
CRONで1時間に一度実行してRSSを生成し、かつあるサーバにFTPでアップロードするようにした。
(自分専用のRSSです)。
Dapperというツールがあるのを知った。
HTML中の特定の項目を抜き出してRSS等に変換してくれるツールらしい。
早速試してみた。
最近のHikkiの日記が毎日のように更新されているのだが、HikkiのWebサイトはRSSが無いので、更新されたことがわからない。それで、Dapperを使ってHikki のメッセージをRSS化してみることにする。
やってみると、タイトルとリンクのみのRSS化はとても簡単で、10分もかからなかった。
しかし、日付がタイトルになったリンクもRSS化されたり、余分のところまでRSS化されて今ひとつ。
Hikkiの日記のRSS化は、Dapperだけではどうもうまくいかない。
Y! pipesはDapperよりも簡単。5分ほどでできた。
完成したRSSがこれ。タイトルのみのRSSだが更新を知りたいだけならこれだけでも便利。
http://pipes.yahoo.com/pipes/pipe.run?_id=fLrjga4n3BGXlL6nX0sBXw&_render=rss
でも、これって、「それPla」ですよね。
MacにPlaggerをインストールしている(ほとんど活用してないのだが)ので、DapperとY! pipesでやったことを次回はそれPlaでやってみたいと思います。