HTML解析器对比
此条目或章节需要时常更新。有关事物或许会随著时间而有所变化。 |
解析HTML是一项自动化工作,由(所谓的)HTML解析器执行。它们有两个主要目的:
- * (有重要更新的)最新版本日期。
- ** 规范(生成标准兼容的网页,减少垃圾信息,等)和清理(剥离过剩的表达标签,移除XSS代码,等)HTML代码。
- *** 将HTML4.X升级到XHTML或HTML5,将废弃的标签(如CENTER)转换为有效的标签(如带有style="text-align:center;"的DIV)。
参考资料
- ^ 12.2 解析HTML文档——HTML标准 (页面存档备份,存于互联网档案馆)(英文)
- ^ 基于lxml和html5lib,http://www.crummy.com/software/BeautifulSoup/(英文) (页面存档备份,存于互联网档案馆)
- ^ 版本·html5lib/html5lib-python (页面存档备份,存于互联网档案馆)(英文)
- ^ HTML-Parser:HTML 5的缺陷#53300 (页面存档备份,存于互联网档案馆)(英文)
- ^ 5.0 5.1 Windows的HTML Tidy (页面存档备份,存于互联网档案馆)(英文)
- ^ Tidy解析器举例:PHP的class.tidynode (页面存档备份,存于互联网档案馆)(英文)
- ^ HtmlCleaner以BSD许可证分发 (页面存档备份,存于互联网档案馆)(英文)
- ^ Jericho HTML Parser——在SourceForge.net浏览/jericho-html/3.3 (页面存档备份,存于互联网档案馆)(英文)
- ^ jsoup Java HTML Parser, with best of DOM, CSS, and jquery. jsoup.org. [2019-09-22]. (原始内容存档于2019-09-27).
- ^ 在master的jsoup/CHANGES·jhy/jsoup·GitHub (页面存档备份,存于互联网档案馆)(英文)
- ^ JTidy—在SourceForge.net浏览/JTidy (页面存档备份,存于互联网档案馆)(英文)
- ^ libxml2版本 (页面存档备份,存于互联网档案馆)(英文)
- ^ NekoHTML | 变更历史 (页面存档备份,存于互联网档案馆)(英文)