跳转到内容

机读数据

维基百科,自由的百科全书

机读数据是指合符可由电脑处理格式的数据。机读数据必须是结构化数据[1]

在美国,2019年1月14日的OPEN政府数据法案英语Foundations_for_Evidence-Based_Policymaking_Act将机读数据定义为“一种格式,该格式可以由计算机轻松处理而无需人工干预,同时确保不丢失语义。”法律指示美国联邦机构以这种方式发布公共数据,[2]确保“该机构的任何公共数据资产都是机读的”。[3]

机读数据可分为两类:标记为人类可读的数据,以便机器也可以读取(例如,微格式RDFaHTML),以及主要用于机器处理的数据文件格式(CSVRDFXMLJSON)。需注意的是,仅当这些格式其中包含的数据经过正式结构化时,才是机读数据,而从结构不良的电子表格中导出CSV文件则不符合定义。

机读不是可数字访问(英文:digitally accessible)的同义词。可数字访问的文档可能在线上,使人类更易于透过电脑存取,但是如果内容不是机读的,则很难通过电脑编程逻辑来提取,转换和处理其内容。[4]

可扩展标记语言(XML)被设计为可人类和机读的,可扩展样式表语言转换(XSLT)用于改善数据的呈现方式以提高人类可读性。例如,XSLT可用于自动呈现可移植文档格式(PDF)的XML。机读数据可以自动转换以提高可读性,但是通常来说,事实并非如此。

为了实施《政府绩效和结果法案英语Government Performance and Results Act》(GPRA)现代化法案,美国行政管理和预算局(OMB)定义了“机读格式”,如下所示:“格式可以是标准计算机语言(非英语)。由网络浏览器或计算机系统自动读取(例如xml)。传统的文字处理文档和便携式文档格式(PDF)文件很容易被人类读取,但通常机器难以解释。其他格式,例如可扩展标记语言(XML),(JSON)或带有标题栏且可以导出为逗号分隔值(CSV)的电子表格是机读的格式。由于HTML是一种结构化标记语言,可以谨慎地标记文档的某些部分,因此计算机可以收集文档组件来组装目录 (书籍),大纲,文献检索书目等。可以使传统的文字处理文档和其他格式可以机读,但该文档必须包括增强的结构元素。” [5]

参见

参考资料

  1. ^ Machine readable. opendatahandbook.org. [2019-07-22]. (原始内容存档于2021-02-05). 
  2. ^ HR4174. stratml.us. [2020-08-05]. (原始内容存档于2019-01-19). 
  3. ^ HR4174. stratml.us. [2020-08-05]. (原始内容存档于2019-01-19). 
  4. ^ A Primer on Machine Readability for Online Documents and Data. Data.gov. 2012-09-24 [2015-02-27]. (原始内容存档于2021-03-20). 
  5. ^ OMB Circular A-11, Part 6 互联网档案馆存档,存档日期2020-04-22., Preparation, Submission, and Execution of the Budget