HTML解析器對比

解析HTML是一項自動化工作，由（所謂的）HTML解析器執行。它們有兩個主要目的：

HTML遍歷：為程序員提供一個接口，來輕鬆地訪問和修改「HTML代碼」。典型例子：DOM解析器。
HTML清理：修正有語法錯誤的HTML，改善結果標記的布局和縮進樣式。典型例子：HTML Tidy。

解析器	許可證	實現語言	最新日期*	HTML解析^[1]	清理HTML**	升級HTML***
Beautiful Soup^[2]	Python S. F. L.	Python	2013-05-31	是	？	？
Gumbo（頁面存檔備份，存於網際網路檔案館）	Apache許可證2.0	C	2013-08-13	是	？	？
html5lib（頁面存檔備份，存於網際網路檔案館）	MIT許可證	Python和PHP	2013-12-23^[3]	是	是	否
HTML::Parser（頁面存檔備份，存於網際網路檔案館）	藝術許可協議	Perl	2013-03-28	否^[4]	？	？
htmlPurifier（頁面存檔備份，存於網際網路檔案館）	GNU寬GPL	PHP	2009-03-25^[5]	否	是	是
HTML Tidy	W3C許可證（英語：W3C Software Notice and License）	ANSI C	2009-03-25^[5]	是^[6]	是	？
HtmlCleaner（頁面存檔備份，存於網際網路檔案館）	BSD許可證^[7]	Java	2013-09-05	否	是	？
Hubbub（頁面存檔備份，存於網際網路檔案館）	MIT許可證	C	2013-04-19	是	？	？
Jaunt API（頁面存檔備份，存於網際網路檔案館）	Jaunt Beta許可證	Java	2013-08-01	是	是	否
Jericho HTML Parser（頁面存檔備份，存於網際網路檔案館）	Eclipse公共許可證	Java	2012-10-30^[8]	否？？	？	？
jsdom（頁面存檔備份，存於網際網路檔案館）	MIT許可證	JavaScript	2013-07-21	否	？	？
jsoup^[9]	MIT許可證	Java	2013-01-27^[10]	是	是	是
JTidy（頁面存檔備份，存於網際網路檔案館）	JTidy許可證（頁面存檔備份，存於網際網路檔案館）	Java	2009-12-01^[11]	是	？	？
libxml2 HTMLparser（頁面存檔備份，存於網際網路檔案館）	MIT許可證	C	2012-09-11^[12]	是	？	？
NekoHTML（頁面存檔備份，存於網際網路檔案館）	Apache許可證2.0	Java	2013-02-27^[13]	否	是	？
TagSoup	Apache許可證2.0	Java	2011-07-07	否	？	？
Validator.nu HTML Parser（頁面存檔備份，存於網際網路檔案館）	MIT許可證	Java	2012-06-05	是	？	？
AVHTML（頁面存檔備份，存於網際網路檔案館）	LGPL	C++	2015-07-17	是	否	是
解析器	許可證	實現語言	最新日期*	HTML解析	清理HTML**	升級HTML***

* （有重要更新的）最新版本日期。

** 規範（生成標準兼容的網頁，減少垃圾信息，等）和清理（剝離過剩的表達標籤，移除XSS代碼，等）HTML代碼。

*** 將HTML4.X升級到XHTML或HTML5，將廢棄的標籤（如CENTER）轉換為有效的標籤（如帶有style="text-align:center;"的DIV）。

參考資料

^ 12.2 解析HTML文檔——HTML標準（頁面存檔備份，存於網際網路檔案館）（英文）
^ 基於lxml和html5lib，http://www.crummy.com/software/BeautifulSoup/（英文）（頁面存檔備份，存於網際網路檔案館）
^ 版本·html5lib/html5lib-python （頁面存檔備份，存於網際網路檔案館）（英文）
^ HTML-Parser：HTML 5的缺陷#53300 （頁面存檔備份，存於網際網路檔案館）（英文）
^ ^5.0 ^5.1 Windows的HTML Tidy （頁面存檔備份，存於網際網路檔案館）（英文）
^ Tidy解析器舉例：PHP的class.tidynode （頁面存檔備份，存於網際網路檔案館）（英文）
^ HtmlCleaner以BSD許可證分發（頁面存檔備份，存於網際網路檔案館）（英文）
^ Jericho HTML Parser——在SourceForge.net瀏覽/jericho-html/3.3 （頁面存檔備份，存於網際網路檔案館）（英文）
^ jsoup Java HTML Parser, with best of DOM, CSS, and jquery. jsoup.org. [2019-09-22]. （原始內容存檔於2019-09-27）.
^ 在master的jsoup/CHANGES·jhy/jsoup·GitHub （頁面存檔備份，存於網際網路檔案館）（英文）
^ JTidy—在SourceForge.net瀏覽/JTidy （頁面存檔備份，存於網際網路檔案館）（英文）
^ libxml2版本（頁面存檔備份，存於網際網路檔案館）（英文）
^ NekoHTML | 變更歷史（頁面存檔備份，存於網際網路檔案館）（英文）

[1] 12.2 解析HTML文檔——HTML標準（頁面存檔備份，存於網際網路檔案館）（英文）

[2] 基於lxml和html5lib，http://www.crummy.com/software/BeautifulSoup/（英文）（頁面存檔備份，存於網際網路檔案館）

[3] 版本·html5lib/html5lib-python （頁面存檔備份，存於網際網路檔案館）（英文）

[4] HTML-Parser：HTML 5的缺陷#53300 （頁面存檔備份，存於網際網路檔案館）（英文）

[#1-5] 5.0 ^5.1 Windows的HTML Tidy （頁面存檔備份，存於網際網路檔案館）（英文）

[6] Tidy解析器舉例：PHP的class.tidynode （頁面存檔備份，存於網際網路檔案館）（英文）

[7] HtmlCleaner以BSD許可證分發（頁面存檔備份，存於網際網路檔案館）（英文）

[8] Jericho HTML Parser——在SourceForge.net瀏覽/jericho-html/3.3 （頁面存檔備份，存於網際網路檔案館）（英文）

[9] soup Java HTML Parser, with best of DOM, CSS, and jquery. jsoup.org. [2019-09-22]. （原始內容存檔於2019-09-27）.

[10] 在master的jsoup/CHANGES·jhy/jsoup·GitHub （頁面存檔備份，存於網際網路檔案館）（英文）

[11] JTidy—在SourceForge.net瀏覽/JTidy （頁面存檔備份，存於網際網路檔案館）（英文）

[12] xml2版本（頁面存檔備份，存於網際網路檔案館）（英文）

[13] NekoHTML | 變更歷史（頁面存檔備份，存於網際網路檔案館）（英文）

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]