HTML解析器對比
此條目或章節需要時常更新。有關事物或許會隨着時間而有所變化。 |
解析HTML是一項自動化工作,由(所謂的)HTML解析器執行。它們有兩個主要目的:
- HTML遍歷:為程式設計師提供一個介面,來輕鬆地訪問和修改「HTML代碼」。典型例子:DOM解析器。
- HTML清理:修正有語法錯誤的HTML,改善結果標記的佈局和縮排樣式。典型例子:HTML Tidy。
- * (有重要更新的)最新版本日期。
- ** 規範(生成標準相容的網頁,減少垃圾資訊,等)和清理(剝離過剩的表達標籤,移除XSS代碼,等)HTML代碼。
- *** 將HTML4.X升級到XHTML或HTML5,將廢棄的標籤(如CENTER)轉換為有效的標籤(如帶有style="text-align:center;"的DIV)。
參考資料
- ^ 12.2 解析HTML文件——HTML標準 (頁面存檔備份,存於互聯網檔案館)(英文)
- ^ 基於lxml和html5lib,http://www.crummy.com/software/BeautifulSoup/(英文) (頁面存檔備份,存於互聯網檔案館)
- ^ 版本·html5lib/html5lib-python (頁面存檔備份,存於互聯網檔案館)(英文)
- ^ HTML-Parser:HTML 5的缺陷#53300 (頁面存檔備份,存於互聯網檔案館)(英文)
- ^ 5.0 5.1 Windows的HTML Tidy (頁面存檔備份,存於互聯網檔案館)(英文)
- ^ Tidy解析器舉例:PHP的class.tidynode (頁面存檔備份,存於互聯網檔案館)(英文)
- ^ HtmlCleaner以BSD特許條款分發 (頁面存檔備份,存於互聯網檔案館)(英文)
- ^ Jericho HTML Parser——在SourceForge.net瀏覽/jericho-html/3.3 (頁面存檔備份,存於互聯網檔案館)(英文)
- ^ jsoup Java HTML Parser, with best of DOM, CSS, and jquery. jsoup.org. [2019-09-22]. (原始內容存檔於2019-09-27).
- ^ 在master的jsoup/CHANGES·jhy/jsoup·GitHub (頁面存檔備份,存於互聯網檔案館)(英文)
- ^ JTidy—在SourceForge.net瀏覽/JTidy (頁面存檔備份,存於互聯網檔案館)(英文)
- ^ libxml2版本 (頁面存檔備份,存於互聯網檔案館)(英文)
- ^ NekoHTML | 變更歷史 (頁面存檔備份,存於互聯網檔案館)(英文)