机读数据

机读数据是指合符可由电脑处理格式的数据。机读数据必须是结构化数据。^[1]

在美国，2019年1月14日的OPEN政府数据法案（英语：Foundations_for_Evidence-Based_Policymaking_Act）将机读数据定义为“一种格式，该格式可以由计算机轻松处理而无需人工干预，同时确保不丢失语义。”法律指示美国联邦机构以这种方式发布公共数据，^[2]确保“该机构的任何公共数据资产都是机读的”。^[3]

机读数据可分为两类：标记为人类可读的数据，以便机器也可以读取（例如，微格式，RDFa，HTML），以及主要用于机器处理的数据文件格式（CSV、RDF、XML、JSON）。需注意的是，仅当这些格式其中包含的数据经过正式结构化时，才是机读数据，而从结构不良的电子表格中导出CSV文件则不符合定义。

机读不是可数字访问（英文：digitally accessible）的同义词。可数字访问的文档可能在线上，使人类更易于透过电脑存取，但是如果内容不是机读的，则很难通过电脑编程逻辑来提取，转换和处理其内容。^[4]

可扩展标记语言（XML）被设计为可人类和机读的，可扩展样式表语言转换（XSLT）用于改善数据的呈现方式以提高人类可读性。例如，XSLT可用于自动呈现可移植文档格式（PDF）的XML。机读数据可以自动转换以提高可读性，但是通常来说，事实并非如此。

为了实施《政府绩效和结果法案（英语：Government Performance and Results Act）》（GPRA）现代化法案，美国行政管理和预算局（OMB）定义了“机读格式”，如下所示：“格式可以是标准计算机语言（非英语）。由网络浏览器或计算机系统自动读取（例如xml）。传统的文字处理文档和便携式文档格式（PDF）文件很容易被人类读取，但通常机器难以解释。其他格式，例如可扩展标记语言（XML），（JSON）或带有标题栏且可以导出为逗号分隔值（CSV）的电子表格是机读的格式。由于HTML是一种结构化标记语言，可以谨慎地标记文档的某些部分，因此计算机可以收集文档组件来组装目录 (书籍)，大纲，文献检索书目等。可以使传统的文字处理文档和其他格式可以机读，但该文档必须包括增强的结构元素。” ^[5]

参见

参考资料

^ Machine readable. opendatahandbook.org. [2019-07-22]. （原始内容存档于2021-02-05）.
^ HR4174. stratml.us. [2020-08-05]. （原始内容存档于2019-01-19）.
^ HR4174. stratml.us. [2020-08-05]. （原始内容存档于2019-01-19）.
^ A Primer on Machine Readability for Online Documents and Data. Data.gov. 2012-09-24 [2015-02-27]. （原始内容存档于2021-03-20）.
^ OMB Circular A-11, Part 6 互联网档案馆的存档，存档日期2020-04-22., Preparation, Submission, and Execution of the Budget

[1] Machine readable. opendatahandbook.org. [2019-07-22]. （原始内容存档于2021-02-05）.

[2] HR4174. stratml.us. [2020-08-05]. （原始内容存档于2019-01-19）.

[3] HR4174. stratml.us. [2020-08-05]. （原始内容存档于2019-01-19）.

[4] A Primer on Machine Readability for Online Documents and Data. Data.gov. 2012-09-24 [2015-02-27]. （原始内容存档于2021-03-20）.

[5] OMB Circular A-11, Part 6 互联网档案馆的存档，存档日期2020-04-22., Preparation, Submission, and Execution of the Budget

[1]

[2]

[3]

[4]

[5]