印度文字资讯交换码
印度文字资讯交换码(英:Indian Script Code for Information Interchange,缩:ISCII,印度文: सूचना अन्तरविनिमय के लिए भारतीय लिपि संहिता,IS13194:1991)是一种编码系统,其对象为多种在印度所使用的书写系统。它包含婆罗米系文字,所支持的文字包含了:阿萨姆文、孟加拉文、天城文、古吉拉特文、古木基文、卡纳达文、马拉雅拉姆文、奥里亚文、淡米尔文和泰卢固文。 它不支持由阿拉伯文所派生出来的印度书写系统。 但它仍混和使用喀什米尔语、信德语、乌尔都语、波斯语、普什图语和阿拉伯语。由阿拉伯语派生的书写系统则采用之后的波斯阿拉伯文字资讯交换码。
婆罗米系书写系统在结构上类似,只是使用不同的字母外形。此编码将相同音的编在相同码位。如 0xB3 0xDB 代表 [ki]。在天城文中产生 कि ,在古木基文中为 ਕਿ,在淡米尔文中则为 கி 。在富文件可以利用标记来选择或在纯文件中使用 ATR 码。
使用此方法的动机为,它可以很容易地在不同书写系统间做转写。然而,其彼此间的不兼容又使得这在实现不容易。见 关于印度文字资讯交换码(页面存档备份,存于互联网档案馆)。
此编码是八位元编码。其较低的 128 码位为纯ASCII,其较高 128 码位为此编码专用。除了表示字符的码位,此编码还包括一个记忆用码位,用来指示接下来的字节包含两种资讯之一。一种会改变书写系统直到下一个书写系统指示器或行结尾。另一种则选择显示模式,如粗体或斜体。此编码并未提供默认书写系统。
码位分布
[编辑]阿萨姆文、孟加拉文、古吉拉特文、古木基文、卡纳达文、马拉雅拉姆文、奥里亚文、淡米尔文和泰卢固文的字符集和天城文的字符集相类似。只要将每个天城文字母转成相对应书写系统的字母。每个字符会列出其十进制值和相对应统一码。
ATR 记号
[编辑]印度文字资讯交换码还提供了 ATR(0xEF)记号,用来切换书写系统。此外还可切换字体属性。
ATR 后面可接 0x42~0x4B ,其意义为切换成天城文(0x42)、孟加拉文(0x43)、淡米尔文(0x44)、泰卢固文(0x45)、阿萨姆文(0x46)、奥里亚文(0x47)、卡纳达文(0x48)、马拉雅拉姆文(0x49)、古吉拉特文(0x4A)、古木基文(0x4B)。
ATR 默认使用(0x40)。使用 0x41 则意指使用罗马字母转写。
ATR 后接 0x71~0x76 时,意指阿拉伯语(0x71)、波斯语(0x72)、乌尔都语(0x73)、信德语(0x74)、喀什米尔语(0x75)、普什图语(0x76)等派生自阿拉伯文字,但此编码并为对此做详细规范。
ATR 后接 0x30~0x39 时,意指粗体、斜体、下划线等模式。其详细用法定义在印度文字资讯交换码的附录 E。
EXT 记号
[编辑]印度文字资讯交换码另外提供 EXT 记号(0xF0),用于吠陀文字。 吠陀文字可以视为天城文的扩展。使用 EXT,可以用来表示‘梨俱吠陀’等调音记号和‘黑夜柔吠陀’和‘白夜柔吠陀’等特有的各种 Anusvāra(鼻音)文字。
若使用 EXT 所指定的吠陀文字,ATR 所定义的书写系统或罗马转写则失效。 EXT 能指定的文字分成一是如 udātta(0xB6)和 an-udātta(0xBE)等的修饰文字(0xB4~0xBE)和另外的非修饰文字(0xA1~0xB3)。修饰文字出现的段落为天城文之后,此外就是限定在非修饰文字之后。
2010年出版的通用字符集,将吠陀文字编在 1CD0~1CFF。(例如印度文字资讯交换码的0xF0 0xB0在通用字符集中为U+1CEE)。
使用状况
[编辑]除了某些政府组织,此编码并未广泛应用。现在因为有统一码的缘故,它已显得过时。统一码除了为每个印度书写系统保留独立区块外,并每个区块的编码配置和此编码相同。
此外,在印度,除了 IS 13194(ISCII)外,其它的编码还有 IS 10315(等同于 ASCII)、IS 12326(等同于 ISO/IEC 2022)。
参考资料
[编辑]