汉文古籍版式描述规范WHT 100-2023.pdf

返回 相关 举报
汉文古籍版式描述规范WHT 100-2023.pdf_第1页
第1页 / 共11页
汉文古籍版式描述规范WHT 100-2023.pdf_第2页
第2页 / 共11页
汉文古籍版式描述规范WHT 100-2023.pdf_第3页
第3页 / 共11页
汉文古籍版式描述规范WHT 100-2023.pdf_第4页
第4页 / 共11页
汉文古籍版式描述规范WHT 100-2023.pdf_第5页
第5页 / 共11页
点击查看更多>>
资源描述
IC S 湂湅.湅湈湂CCSA 湅湈WH 棷 T 湅湂湂湆湂湆湇中华人民共和国文化行业标准汉文古籍版式描述规范Th ef o rma td esc ri p ti o nf o rChinesean ci en tboo ks湆湂湆湇-湂湏-湂湏 发布湆湂湆湇-湅湆-湂湏 实施中华人民共和国文化和旅游部 发 布WH 棷 T湅湂湂湆湂湆湇I目次前言 III1范围 12规范性引用文件 13术语和定义 14基本原则 2 4.1客观描述 2 4.2描述唯一 2 4.3易实现 2 4.4可扩展 25汉文古籍版式描述 2 5.1概述 2 5.2基于 XML 的版式描述 3WH 棷 T湅湂湂湆湂湆湇III前言本文件按照 GB/T1.12020 标准化工作导则第 1 部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中华人民共和国文化和旅游部提出。本文件由全国图书馆标准化技术委员会(SAC/TC389)归口。本文件起草单位:国家图书馆、天津图书馆、北京汉王数字科技有限公司。本文件主要起草人:肖禹、陈红彦、张毅、董馥荣、李志峰、胡艳杰、白帆、王昭、杜立功、赵依澍、周升川、潘慧敏、谢冬荣、萨仁高娃、李国庆、江世盛、刘正珍、王晓健、王战波。WH 棷 T湅湂湂湆湂湆湇1汉文古籍版式描述规范1范围本文件对汉文古籍版式描述进行了规范,给出了版式描述的规范性要求。本文件适用于对汉文古籍文本化加工结果的描述。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T37922021信息与文献 资源描述GB/T48942009信息与文献 术语GB/T187932002信息技术 可扩展置标语言(XML)1.0GB/T217122008古籍修复技术规范与质量要求GB/T31219.22014图书馆馆藏资源数字化加工规范第 2 部分:文本资源3术语和定义下列术语和定义适用于本文件。3.1古籍ancientbooks1911 年以前(含 1911 年)在中国书写或印刷的书籍。来源:GB/T37922021,3.183.2书叶page按文稿顺序排列的书写、印制的单张纸叶。来源:GB/T217122008,2.93.3版框arectangularframeintowhichpagesengraving书叶(3.2)正面图文四边的围栏,一般指印刷的书。来源:GB/T217122008,2.103.4版心middleofpage书叶(3.2)左右对折的正中、在折叶时取作中缝标准的条状行格。雕版印刷的书籍版心通常印有书名、卷次、叶码,有的还印有一版文字总数、刊刻机构以及刻工姓氏等。来源:GB/T217122008,2.113.5版式format汉文古籍的版面格式。WH 棷 T湅湂湂湆湂湆湇23.6版式 XML 文件 formatXMLfile符合 GB/T 187932002 要求,对具有同一样式的书叶(3.2)共同拥有的版式(3.5)特点进行描述的 XML 文件。3.7文本 text以字符、符号、词、短语、段落、句子、表格或者其他字符排列形成的数据,用于表达意义,其解释基本上取决于读者对于某种自然语言或者人工语言的知识。来源:GB/T48942009,4.1.1.2.43.8图像 image用各种观测系统以不同形式和手段观测客观世界而获得的,可以直接或间接作用于人眼进而产生视知觉的实体。来源:GB/T31219.22014,3.34基本原则4.1 客观描述对汉文古籍版式特点、文本内容和位置、插图大小和位置等内容的描述客观准确。有无版框、四周单边、四周双边、左右双边、大小字等。4.2 描述唯一每个书叶描述方式唯一,且每个描述数据解释方式唯一,没有歧义。拥有统一版式的多个书叶,版式相关数据描述方式唯一,包括版框位置、版心位置、文本行数、每行文字数、文字大小等。4.3 易 实 现版式描述形式简单,使 XML 文件容易加工和解释,利于汉文古籍文本后续更深层次加工使用。4.4 可 扩 展可对 XML 进行扩展以适应更多的汉文古籍样式,例如新的字符修饰样式等。扩展部分是新增加的内容,不使用已有的内容代替,不与已有内容发生逻辑冲突。5汉文古籍版式描述5.1 概 述汉文古籍版式描述存放目录可分为 3 个层级:第一层级为书文件夹;第二层级为卷册文件夹;第三层级为书叶 XML 文件夹、书叶图像文件夹及抠图文件夹。其中,书文件夹和卷册文件夹的命名可自定义,书叶 XML 文件夹名称应为“XML”,书叶图像文件夹名称应为“Image”,抠图文件夹名称应为“Cutout”。存放目录结构见图 1:WH 棷 T湅湂湂湆湂湆湇3图 1汉文古籍版式描述数据存储目录结构示意图汉文古籍版式描述存放目录中内容应符合以下要求:a)书文件夹存放一部书的所有数据。书文件夹下包括一个书 XML 文件和一个或者多个卷册文件夹。b)卷册文件夹包括一个卷册 XML 文件、一个版式 XML 文件、一个 XML 文件夹、一个 Image 文件夹和一个 Cutout 文件夹。c)卷册 XML 文件描述卷册包含的书叶和书叶的顺序。d)版式 XML 文件描述卷册的版式信息。e)XML 文件夹存放卷册中的书叶 XML 文件。f)Image 文件夹存放卷册中的书叶原始图像。g)Cutout 文件夹存放卷册中的所有插图和集外字、模糊字的抠图。h)汉文古籍版式描述数据保存在版式 XML 和书叶 XML 中。5.2 基于 XML 的版式描述5.2.1 版 式 X M L 文 件版式 XML 文件用来统一描述卷册中书叶的版式信息,有助于书叶样式严格统一,其命名规则为:Format.xml,版式 XML 文件的标签及其属性见表 1:表 1版式 XML 文件标签XML 标签名 注解 说明属性样例属性名称 注解 说明xml文档类型定义定义文档版本编码version 版本 XML 文件的版本encoding 编码 文字编码root 根节点 根节点 version 版本 版式 XML 文件的版本 formats 版式列表定义一组版式无 无 无 WH 棷 T湅湂湂湆湂湆湇4表 1版式 XML 文件标签(续)XML 标签名 注解 说明属性样例属性名称 注解 说明format 版式formats 的子节点,定义一种版式name版式的 名称用户对版式的命名dpi版式的 基准 DPI根据版式的基准 DPI,可将版式中的像素值转换为毫米、厘米等物理长度值page_width版式的 书叶宽版式书叶宽度的像素值page_height版式的 书叶高版式书叶高度的像素值page_frame版式的 书叶版 框位置版式书叶版框的像素位置,以“,”分隔开的 4 个数值,依次代表左上右下的像素值using_page版式作用于哪些书叶确定哪些书叶使用该版式page_id_range书叶 id范围使用该版式的书叶 id 的范 围,连续的书叶 id 使用“-”连接起始和结束叶的 id 值,不连续时使用“,”连接odd_even 奇偶性0:所有叶码1:奇数叶码2:偶数叶吗text_formats文本版式列表定义一组文本版式无 无 无 text_format 文本版式text_formats的子节点,定义一个文本版式region文本的区域位置文本的矩形区域位置,属性值为矩形的左上右下 4 边的像素值以符号“,”连接font_id 字体 ID 字体列表中的一个字体 IDpara_style_id段落样式 ID段落样式列表中的一个段落样式 IDalignment 对齐方式0:头部对齐(横排左对齐,竖排上对齐)1:居中对齐2:尾部对齐(横排右对齐,竖排下对齐)direction 文字方向0:横排1:竖排images 图像列表定义一组图像无 无 无 image 图像images 的子节点,定义一个图像name版式图像的文件名版式所需图像的文件名,图像存放于 Cutout 文件夹中region图像的区域位置图像的矩形区域位置,属性值为矩形的左上右下 4 边的像素值以符号“,”连接lines 线段列表定义一组线段无 无 无 line 线段lines 的子节点,定义一条线段start_point 起始点 起始点坐标的像素值 end_point 结束点 结束点坐标的像素值weight 线宽 像素数线宽WH 棷 T湅湂湂湆湂湆湇5表 1版式 XML 文件标签(续)XML 标签名 注解 说明属性样例属性名称 注解 说明rectangles矩形框 列表定义一组矩形框无 无 无 rectangle 矩形框rectangles子节点,定义一个矩形框region矩形框的区域位置属性值为矩形框的左上右下 4 边的像素值以符号“,”连接weight 线宽 像素数线宽box_and_line边框栏线信息节点信息为空时,表示无边框栏线middle_area_width版心宽度 像素数box_space内外边框距离的像素数内外边框距离,用“,”分隔的 4 个值依次表示左上右下 4 个方向上内外框线之间的距离,如果为 0 则表示没有内框线left_column_num版心左侧行数版心左侧行数right_column_num版心右侧行数版心右侧行数show_column_line是否显示栏线从右向左按顺序描述,用“,”分隔0:不显示1:显示允许值为空字符串,值为空时显示所有栏线column_line_weight栏线宽 栏线像素宽度out_box_weight外边框宽 外边框像素宽度inner_box_weight内边框宽 内边框像素宽度fonts 字体列表定义一组字体无 无 无 font 字体fonts 的子节点,定义一种字体id 字体 IDid 值从 1 开始且唯一,用于区分字体,在使用该字体的地方引用此 id 值name字体的名称用户对字体的命名face 字体类型字体在字体文件中的名称,加字符“”表示竖排size 字号字体大小,以像素为单词,也是字体的高度值width_stretch_ratio字体宽度缩放比例字体宽=size*width_stretch_ratiochar_space 字间距 字与前一字之间的像素距离location_type 位置类型0:字位于版框内1:字位于版框外如果处于上文定义的版框区域以外,则不用来进行高起计算WH 棷 T湅湂湂湆湂湆湇6表 1版式 XML 文件标签(续)XML 标签名 注解 说明属性样例属性名称 注解 说明font 字体fonts 的子节点,定义一种字体style 字体风格0:正常1:加粗2:斜体4:加下划线8:阳文16:阴文风格可以叠加,如值为1+2+4,表示文字加粗、斜体,并且加下划线para_styles段落样式列表定义一组段落样式无 无 无 para_style 段落样式para_styles的子节点,定义一种段落样式id段落样式 IDid 值从 1 开始且唯一,用于区分段落样式,在使用该段落样式的地方引用此 id 值name段落样式的名称用户对段落样式的命名line_space 行间距行与前一行之间的像素距离head_space首字距版框位置像素数,计算高起边框时用到tail_space尾字距版框位置像素数5.2.2 书 叶 X M L 文 件书叶 XML 文件用来描述汉文古籍每一个书叶的具体信息,具体 XML 标签和属性见表 2:表 2书叶 XML 文件标签XML 标签名注解 说明属性样例属性名称 注解 说明xml文档类型定义定义文档版本编码version 版本 XML 文件的版本encoding 编码 文字编码root 根节点 根节点 version 版本 书叶 XML 文件的版本 page 书叶 描述书叶内容page_id书叶的id 号书叶的 id 号,从 1 开始并且在全书中具有唯一性dpi书叶的基准 DPI根据书叶的基准 DPI,可将书叶中的像素值转换为毫米、厘米等物理长度值WH 棷 T湅湂湂湆湂湆湇7表 2书叶 XML 文件标签(续)XML 标签名注解 说明属性样例属性名称 注解 说明page 书叶 描述书叶内容page_width 书叶宽 书叶宽度的像素值page_height 书叶高 书叶高度的像素值page _frame书叶版框位置书叶版框的像素位置,以“,”分隔开的 4 个数值,依次代表左上右下的像素值image_name书叶图像的名称书叶文件对应的原图的名称format_texts文本版式对应的文字列表定义一组文本版式对应的文字无 无 无 format_text文本版式对应的 文字format_texts 的子节点,该文字的坐标及字体效果等从版式文件中取得无 无 无光绪順天府志blocks图文区域列表定义一组图文区域 无 无 无 image_block插图图像区域blocks 的子节点,定义一个插图图像区域region插图区域位置插图的矩形区域位置,属性值为矩形的左上右下 4 边的像素值以符号“,”连接image_name插图的图像文件名插图图像保存在 Cutout 文件夹中text_block 文本区域blocks 的子节点,定义一个文本区域region文本区域位置文本的矩形区域位置,属性值为矩形的左上右下 4 边的像素值以符号“,”连接text_line 文本行text_block 的子节点,定义一个文本行region文本行的区域位置文本行的矩形区域位置,属性值为矩形的左上右下 4 边的像素值以符号“,”连接column_index栏的索引值文本行所属栏的索引,从 0 开始,属性信息为空时表示没有分栏direction 文字方向0:横排1:竖排para_style_id段落样式 ID段落样式定义见版式文件bussiness_type大小字0:大字1:小字WH 棷 T湅湂湂湆湂湆湇8表 2书叶 XML 文件标签(续)XML 标签名注解 说明属性样例属性名称 注解 说明char 文本字符text_line 的子节点,定义一个文本字符region文本字符的区域 位置文本字符的矩形区域位置,属性值为矩形的左上右下 4 边的像素值以符号“,”连接通font_id 字体 ID 字体定义见版式文件rotation 角度 单个字符的旋转角度ids表意文字描述 字符串表意文字描述字符串blur 模糊字text_line 或 format_text 的子节点,定义一个模糊字region模糊字的区域位置模糊字的矩形区域位置,属性值为矩形的左上右下 4 边的像素值以符号“,”连接image_name模糊字抠图文件名模糊字抠图的图像文件名,图像保存在 Cutout 文件夹中bracket 括号text_line 或 format_text 的子节点,char、gaiji 或 blur的父节点,定义一对括号style 括号风格0:加框1:加中括号2:加八边形通州type 括号类型0:完整的一对括号1:头括号2:尾括号通过定义头括号和尾括号的类型,支持一对括号跨行、跨页的情况lines 线段列表 定义一组线段 无 无 无 line 线段lines 的子节点,定义一条线段start_point 起始点 起始点坐标的像素值 end_point 结束点 结束点坐标的像素值weight 线宽 像素数线宽rectangles矩形框 列表定义一组矩形框 无 无 无 rectangle 矩形框rectangles 的子节点,定义一个矩形框region矩形框位置属性值为矩形框的左上右下 4 边的像素值以符号“,”连接weight 线宽 像素数线宽
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642