スポンサーリンク

Javaで実装されたHTMLパーサの性能や使い勝手を比べてみるよん


XSS対策として入力値チェックライブラリを考えているんですが、入力値としてHTMLを許可する場合、これを解析してなんとかならんもんかと思ってたりします。

スポンサーリンク

JavaのHTMLパーサ

XMLスキーマとかも使えそうなもんですが、柔軟になる分、ユーザはXMLスキーマの書き方を覚えなければならないわけで、いろんなチェックを、フィルタを通すように使える設計で作っておいて、「IE8がでたー!」となったときでも「IE8Filter」を追加で作って、フィルタに追加するだけー・・・とかにしようかと。

調べてみると、いがぴょんさんのJavaで実装された HTML Parser (HTMLパーサ) を調べてみましたがとても素敵です。これにパフォーマンスとか、使い勝手を加えてまとめてみます。

今回、Google先生や、いがぴょんさんも言及しているOpen Source HTML Parsers in Javaから、以下を調査対象とした。結果はそれぞれまとめていき、結果はまとめページに載せる予定です。

名前
HTML Parser
Jericho HTML Parser
javax.swing.text.html.parser.Parser
Java Mozilla Html Parser
CyberNeko HTML Parser
JTidy
The Validator.nu HTML Parser
TagSoup
HotSAX
Cobra: Java HTML Renderer & Parser
HtmlCleaner
VietSpider HTMLParser
タイトルとURLをコピーしました