《简繁大师》用户指南

系统要求 目录 2. 高精度内码识别技术
 

简繁转换

 

1. 智能型高精度简繁体转码


1.1 行业领先的智能型高精度简繁体转码引擎
1.2 编辑区转码、剪贴板转码、文件/网页/目录/网站转码
    1.2.1 编辑区转码
    1.2.2 剪贴板转码
    1.2.3 文件/网页/目录/网站转码
    1.2.4 批量文件/文件夹简繁转换
1.3 如何利用《简繁大师》实现 Word、Excel、PowerPoint、Access、Trados TM...等多种其他格式文档的简繁转换?

1.4 实时/动态简繁转换、命令行接口、批量转码

1.5 Unicode 相关转换 - 在 Unicode/Unicode BE 和 GBK/Big5/UTF-8 之间转码
1.6 智能词汇修正
1.7 如何利用《简繁大师》实现完美品质转码

1.8 背景知识:简体中文、繁体中文、GBK、GB2312、Big5、UTF-8、Unicode 和 Unicode BE

 

1.1 行业领先的智能型高精度简繁体转码引擎
 

精致工作室致力于实现高品质简繁体转码。现在,用户已经可以利用《简繁大师》针对指定任务实现完美品质简繁体转码,这一技术处于行业领先水平。

 

精致工作室投入大量精力以提高转码引擎的精度。通过各种特别设计的流程及专用程序对 GBK 码表、GB2312 码表及 Big5 码表进行逐字审核,参考了多种相关标准,并通过海量当代文本资源反复校对,以确保转码准确合理。根据我们的内部测试,当前版本的《简繁大师》在 GBK 码表、GB2312 码表及 Big5 码表的转码准确性上已分别处于行业领先水平。除了品质优异的内核字库,《简繁大师》具有目前最先进的词汇修正技术,提供一系列精心设计形成的词汇修正库,并针对不同转码任务提供修正包管理体系。用户通过词汇修正包可以轻松地为指定转码任务配置专门的简繁体转码方案,在大多数情况下,只要合理调配,转码品质可以达到用户对转码软件的最高期望——完美。与此相关的进一步细节请参考 1.6 智能词汇修正

 

Unicode 字符集包含了 GBK 字符集,它是目前已成为主流的全球统一编码集。Unicode 字符集中有一些较常用符号并未包含在 GBK 编码集中。继多年前《简繁大师》跳出 GB2312 的框架,全面基于 GBK 大编码集进行转换之后,自 2.9 版后,《简繁大师》又超越了 GBK 转换时代,进入 Unicode 编码转换新世代。我们对转换引擎进行了关键改进,现在,当您在 UTF-8、Unicode、Unicode BE 编码之间进行剪贴板、文件、目录转换时,程序内部使用的是全新的 Unicode 转换引擎进行转换,可以帮助您实现 Unicode 文本的完美转换。

 

《简繁大师》的转码引擎经过特别优化,转码速度在同类软件中相对较快。在实际操作中,转码速度与您所用电脑性能,以及用到的词汇修正库中的词条量有关。

 

基于卓越的转码引擎,《简繁大师》提供全系列简繁体转码服务,包括编辑区转码、剪贴板转码、文件/网页/目录/站点转码,并为 Word、Excel、PowerPoint、Access 和 Trados TM 等特殊格式文档的整体转换提供了专业指导。所有转换均具备始终如一的专业品质。

 

1.2 编辑区转码、剪贴板转码、文件/网页/目录/网站转码
 

编辑区转码剪贴板转码文件/网页/目录/网站转码分别用于对编辑区和剪贴板中的文本,以及单独的文件、网页或形成整体的目录、网站进行方便而专业的转换。这些功能支持简繁体 GBK、Big5(繁体)、UTF-8、Unicode 和 Unicode BE 的任意组合之间的专业级互转。

 

 

图 UG-1-1 全部转码功能均可在“转码”子菜单下找到。编辑区转码、剪贴板转码、文件/网页/目录/网站转码等主功能面板,可通过快捷键快速打开。转码主菜单最底下的“常见转换”二级菜单中列出了最常见的编辑区和剪贴板转换操作,方便您快速选用。通过二级菜单中的“编辑区转码选项”,可设置通过菜单命令和工具栏按钮执行编辑区转码时,结果覆盖上编辑区的原文本还是写入下编辑区,我们建议您采用“上区->下区”的默认设置。

 

 

图 UG-1-2 上工具条上的编辑区 GBK<->Big5 转码和文件/网页/目录/网站简繁体转码按钮。左边圈中的两个按钮是编辑区简转繁(GBK->Big5)和编辑区繁转简(Big5->GBK)。右边圈中的按钮是文件/网页/目录/网站简繁体转码按钮。

 

 

图 UG-1-3 对 100 KB 以上的字符进行剪贴板转码或编辑区转码时,您可以看见一个转码进度栏。

 

1.2.1 编辑区转码

 

 

图 UG-1-4 使用“转码”菜单下的“编辑区转码”命令,可打开此“编辑区转码”面板。由于源文本位置都处在上编辑区,所以仅当上区中有文本时,才可打开此面板。

 

编辑区转码对上编辑区中的文本进行简繁转码。您可利用“编辑区转码”面板进行转码,它提供了最全的转码控制选项,您可在简繁体 GBK、Big5 和 UTF-8 的任意可用组合间进行转换。另外,您也可以利用二级转码菜单上的命令和工具栏上的按钮执行几种常见编辑区转码操作。

 

由于编辑区转码仅对上编辑区(即源编辑区)中的文本进行转换,所以仅当上区中有文本时,才可执行编辑区转码。

 

1)利用“编辑区转码”面板进行转码

 

执行

执行“转码”菜单下的“编辑区转码”命令,可打开此面板。快捷键是 Ctrl+Q。打开后的面板见图 UG-1-4。

 

功能及说明

源文本:上编辑区中的选中文本(仅上当编辑区中有内容被选中时才可用)或上编辑区中的全部文本。

目标位置:上编辑区(不推荐)、下编辑区或剪贴板。如果将目标位置设为上编辑区,源文本将被覆盖,所以不推荐使用这种位置。当设置目标位置为剪贴板时,有一个专门的可选项,可将转换结果先转为 Unicode,再贴入剪贴板。

转换方向:源码和目标码可分别为

 

    * 简体中文(GBK)

    * 简体中文(UTF-8)

    * 繁体中文(Big5)

    * 繁体中文(GBK)

    * 繁体中文(UTF-8)

 

中的任一种。所以您有 5*4=20 种编辑区转码方向可供选择。

 

2)利用菜单和工具栏上的编辑区转码命令执行常用编辑区转码操作

 

参图 UG-1-1。您可利用转码菜单最底下的二级菜单,执行多项常见编辑区转码操作。另外,上工具栏上的 AA->U / A->U、G->B、B->G 和下工具栏上的 AA->U / A->U 按钮,也是编辑区转码命令。鼠标移上去可通过提示文字了解按钮命令的功能。二级菜单中的“编辑区转码选项”可设为“上区->上区”或“上区->下区”。它们专用于通过菜单和按钮执行的编辑区转码。

 

辑区转码功能可实现文本的可视化转码。您可以设定将上编辑区内的文本进行自身转码,转码结果将仍在上编辑区内显示;也可以设定将转码结果显示在下编辑区。多数情况下,建议您将转码结果显示在下编辑区中,这样可以方便地对照检查转码效果,也可以保留上编辑区中的原文。

 

如图 UG-1-3,如要转的字符数超过 100 KB,《简繁大师》将弹出一个进度栏实时显示转码进度。《简繁大师》的转码引擎本身速度很快,不过如果您要转的文本字符数比较多,将转码结果放入编辑区显示出来可能会花一些额外的时间。

 

 

 

图 UG-1-5 编辑区转码结束后,编辑区的文本显示语言将自动调整,从而可正确显示转码语言。上图是个繁(Big5)转简(GBK)的例子。转码结束后,上编辑区显示语言被调整为繁体中文(Big5),下编辑区的显示语言被调整成简体中文(GBK)。

 

1.2.2 剪贴板转码

 

 

图 UG-1-6 使用“转码”菜单下的“剪贴板转码”命令,可打开此“剪贴板转码”面板。只有当剪贴板中有文本内容时,才可打开此面板。

 

剪贴板转码对剪贴板中的文本进行简繁转码。您可利用“剪贴板转码”面板进行转码,它提供了最全的转码控制选项,您可在简繁体 GBK、Big5、UTF-8、Unicode、Unicode BE 的任意可用组合间进行转换。另外,您也可以利用二级转码菜单上的命令和工具栏上的按钮执行几种常见剪贴板转码操作。

 

由于剪贴板转码仅对剪贴板中的文本进行转换,所以仅当剪贴板中有文本时,才可执行此类转码。

 

1)利用“剪贴板转码”面板进行转码

 

执行

执行“转码”菜单下的“剪贴板转码”命令,可打开此面板。快捷键是 Ctrl+J。打开后的面板见图 UG-1-6。

 

功能及说明

源码和目标码可分别为

 

    * 简体中文(GBK)

    * 简体中文(UTF-8)

    * 简体中文(Unicode)

    * 简体中文(Unicode BE)

    * 繁体中文(Big5)

    * 繁体中文(GBK)

    * 繁体中文(UTF-8)

    * 繁体中文(Unicode)

    * 繁体中文(Unicode BE)

 

中的任一种。所以您有 9*8=72 种剪贴板转码方向可供选择。

 

2)利用菜单和工具栏上的剪贴板转码命令执行常用剪贴板转码操作

 

参图 UG-1-1。您可利用转码菜单最底下的二级菜单,执行多项常见剪贴板转码操作。另外,上下工具栏上的 G->U(即 GBK->Unicode)、U->G(即 Unicode->GBK、B->U(即 Big5->Unicode)和 U->B(即 Unicode->Big5)按钮也是剪贴板转码命令。当某编辑区的编码为 GBK 时,U->G 和 G->U 按钮可用,当某编辑区的编码为 Big5 时,U->B 和 B->U 按钮可用。

 

如图 UG-1-3,和编辑区转码一样,如要转的字符数超过 100 KB,《简繁大师》将弹出一个进度栏实时显示转码进度。

 

1.2.3 文件/网页/目录/网站转码

 

 

图 UG-1-7 “文件/网页/目录/网站转码”对话框

 

 

图 UG-1-8 正在进行站点转码。进行站点转码时,主程序标题将会实时显示转码状态。如果您对一个大型网站进行转码时,就可以一边做其他工作,一边可从任务栏上看见转码状态。如您想终止转码,可单击转码对话框中白圈所示按钮。

 

文件/网页转码和目录/网站转码使用同一个对话框。您可以从转码菜单下找到“文件/网页/目录/网站转码”命令,也可以通过上工具条上的“文件/网页/目录/网站简繁体转码”按钮(图 UG-1-2 右边圈中的按钮)打开这个对话框。当选择进行文件/网页转码时,对话框中的选项和提示信息是针对文件/网页转码的选项和提示信息;选择进行目录/网站转码时,对话框中的选项和提示信息则为针对目录/网站转码的选项和提示信息。无论您选择哪种转码方式,源码和目标码可分别为

 

    * 简体中文(GBK)

    * 简体中文(UTF-8)

    * 简体中文(Unicode)

    * 简体中文(Unicode BE)

    * 繁体中文(Big5)

    * 繁体中文(GBK)

    * 繁体中文(UTF-8)

    * 繁体中文(Unicode)

    * 繁体中文(Unicode BE)

 

中的任一种。所以您有 9*8=72 种转码方向可供选择。

 

1. 文件/网页转码

 

如您将“转换对象”设为“一个文件/网页”时,您看到的是针对文件/网页转码的设置信息。

 

如您选择“转换结果另存为新文件/网页”,目标文件必须与源文件不同,这种选项可以保护您的源文件不会被无意中覆盖。如果不选择“转换结果另存为新文件/网页”,转换结果将写入源文件。

 

如果转换的文件是网页,并带有网页语言标记,转换时也会自动对语言标记进行转换,转换后的网页可自动按指定语言正确显示。

 

您可以单击右边的文件图标查看源文件或转换结果。

 

2. 目录/网站转码

 

当您将转换对象设为“一个目录/网站”时,对话框将显示针对目录/网站转码的选项和提示信息。

 

如您选择“转换结果另存为新站点”,目标站点必须为一个不存在的待建目录,或一个没有内容的空目录。这样可以确保您不会无意破坏一个现有目录中的内容。

 

进行目录/网站转码时,《简繁大师》将自动识别一个文件是否是文本文件,如果是文本文件则进行转换,如果不是则不转换。如您将转换结果另存为新站点的话,可以选择让《简繁大师》将无需转换的非文本文件同时复制到新目录下的相应位置。这些非文本文件往往也是网站的必要组成部分,如图片、压缩文件或其他网页中提供了链接的资源。

 

新站点下全部网页文件的语言编码属性将被自动改为目标码。如图 UG-1-7 中进行的站点简体(GBK)转繁体(UTF-8),转换完成后,"F:\lanlib1\UTF-8"目录下网页文件的语言编码属性将自动由原来的简体中文(GB2312)改为 UTF-8。

 

单击路径编辑框右侧的目录图标,可以查看源站点或转换结果(转码完成后可查看)的目录结构。

 

1.2.4 批量文件/文件夹简繁转换

 

此功能相当于由多个转换/设置命令组成的批量简繁转换宏,每个宏称之为一个批量简繁转换包,可一次性对一批文件、文件夹进行连续转换。您可在转换流程的任意一步或多步中单独指定转换包,可对每一轮文件、文件夹转换单独设置源/目标路径、转换方向及转换选项。此功能极大地方便了经常需要分别按不同配置进行多轮文件、文件夹简繁转换的用户。

   * 此功能可在“转码”菜单下找到,快捷键为 Ctrl+Shift+B。

   * 每个宏(批量简繁转换包)包括宏属性(名称、作者、版本、说明、路径...等)和命令列表集。共有“设置转换包”、“转换文件/文件夹”和“文件系统辅助功能”三类命令。您可以通过选项指定宏运行结束后恢复原来的简繁转换包设置。

   * 您可以在“转换文件/文件夹”命令中进一步指定转换的对象是文件还是文件夹。如转换对象为文件夹,可以补充指定可覆盖现有文件夹,此选项有助于包中包含大批量命令时能流畅运行。

   * 您可以在列表中逐个或成批管理命令,如添加、删除、修改、剪切、复制、粘贴、上移、下移命令,或设置/取消命令的“应用”状态(如未应用,则此命令仍保留在命令列表中,但不会执行)。除添加、编辑命令只能逐个操作外,其余命令均支持多选成批操作。

   * 支持文件/文件夹拖放,您可以一次性将多个文件/文件夹拖入命令列表中。拖入转换包文件即自动添加设置转换包命令,拖入其他文本文件和文件夹即自动添加文件、文件夹的原路径转换命令;您也可以在编辑单个命令时将一个转换包文件或其他文本文件或文件夹拖入达到同样效果。此功能要求 Windows 2000、XP、2003。如您使用 Windows Vista、7 则不支持,原因是 Windows Vista、7 本身不支持文件拖放。

   * 界面上有一个“编辑源文件”按钮,打开后可以直接编辑源文件,保存后即自动提示更新。此功能便于您大批量、自由、精细修订命令集。

   * 功能界面可拉伸缩放,缩放时界面控件的布局、表列宽及表中显示的描述文字的长度也会自动适应调整到最佳,便于大显示屏用户查看及操作。

   * 您可以将配置满意的包保存为纯文本文件,也可以随时调用以前保存的包。

   * “文件系统辅助功能”命令集包括执行程序、打开、新建、剪切、复制、粘贴、创建快捷方式、删除、重命名/移动、属性等命令。此组命令可以帮助电脑玩家级用户执行批量转换时作一些辅助性文件系统操作,对电脑操作不熟悉的普通用户不需要使用这些功能。

 

1.3 如何利用《简繁大师》实现 Word、Excel、PowerPoint、Access、Trados TM...等多种其他格式文档的简繁转换?
 

《简繁大师》专注于 GBK、Big5、UTF-8、Unicode 等关键内码格式文本或文件的专业品质转换,并不直接操纵 Word、Excel、PowerPoint、Access、Trados TM 等特殊文件格式,但《简繁大师》也整理了间接,但仍很方便的流程,指导用户在《简繁大师》的帮助下实现这些特殊格式文件的专业品质整体简繁转换。熟悉这些流程后,除去基本转换必须要花的时间,您只需多花 1 分钟,即可实现多种特殊格式文件的专业品质整体简繁转换。

 

这类转换的基本原理
 

1)将这些特殊格式文件导出为 XML(即 UTF-8)等《简繁大师》识别的格式(导出时也自动保留了完整或基本完整的格式信息)。

2)由《简繁大师》对导出的 XML 等可识别格式进行专业品质简繁转换。

3)如有必要,通过批量替换等方式,对转换结果进行一定处理(这一步经常可省略)。

4)将以上 2、3 两步的结果重新导入相关软件,另存为指定格式。

5)如有必要,进行简单后期处理(这一步经常可省略)。

 

进一步细节

 

关于 Word、Excel、PowerPoint 简繁转换,以及特殊格式文件简繁转换的一般性说明,请参阅 FAQ 中的“如何转换 Word、Excel、PowerPoint、Access...等其他格式文档?”。

关于 Access 简繁转换,请参阅 FAQ 中的“我要转换一个 Access 数据库”。

关于 Trados TM 简繁转换,请参阅 FAQ 中的“我是一位翻译人员,我有一个 Trados 的英译简体 TM 库,想转换成英译繁体库,请问如何实现?”。

 

1.4 实时/动态简繁转换、命令行接口、批量转码
 

实时/动态简繁转换、命令行接口

 

有些开发级用户、网站站长和喜欢命令行操作的资深电脑玩家希望《简繁大师》 能提供可通过第三方程序实时、动态调用的简繁转换接口,为此,我们开发了命令行功能。您可以通过命令行功能实时调用《简繁大师》进行文件、目录简繁转换。命令行功能仅在《标准大师》标准版中提供,其他版本《简繁大师》不提供此功能。关于命令行功能的具体细节请参考:

 

附录 3. 命令行指南(《简繁大师》标准版专属功能)

 

批量转码

 

1)用目录转换代替“批量转换”

 

有些不明真相的用户希望我们能提供批量转码功能,原因是有些文件需要转换,还有些文件不需要转换,一个个挑出来转换太麻烦。实际上这些用户之所以提出此类要求,往往是因为对目录转 码的强大功能了解不足所致。

 

请注意,我们提供的目录转码功能可以对目录下所有各级子目录进行转换,而且转换时会自动识别文本文件,该转换将只转换文本文件,您可以选择将 Word、图片、压缩文件等非文本文件复制到目标目录下的相同位置。这样,如果您有一个简体网站(一个网站一般就是一个目录)需要转换成繁体,或有一个繁体网站需要转换成简体,只需要对这个目录实施目录转换即可,转换完成后,所有链接关系都可以正确保留,而非文本文件也直接复制到相关位置。既然一次性什么都搞定了,还要“批量转换”有什么必要?

 

如果您有多个文件或多个文件夹下的内容需要转换,只需要将它们复制到一个目录下,然后对这个目录进行目录转换,也可以一次就解决了。

 

所以大多数普通用户并不需要特别的批量转换功能,现有的目录转换功能就已经足够方便了。

 

2)用命令行接口实现批量转换

 

有些用户出于某些特殊的原因,仍需要专门的“批量转换”功能,建议这些用户购买《简繁大师》标准版。您可以利用标准版支持的命令行功能实现批量转换。您只需要参照我们提供的样本批处理文件(以下链接的最后有样本批处理文件的下载地址),将样本批处理文件中的源文件+目标文件或源目录+目标目录的路径换成您指定的文件或目录路径即可。每条命令为一行,一个批处理文件可包含任意多行。您可以为每行转换设置不同转换参数,可以实时更换转换包。

 

进一步细节请参考:

 

附录 3. 命令行指南(《简繁大师》标准版专属功能)

 

1.5 Unicode 相关转换 - 在 Unicode/Unicode BE 和 GBK/Big5/UTF-8 之间转码


如果您在 NT/2000/XP/2003/Vista 等系统下从网页上复制文本,或在 Windows XP 下用 Notepad 编辑文本,您所处理的数据是 Unicode 格式的数据。有时您在这类系统下粘贴到简繁大师或其他传统软件编辑框上的文本变成了????,就是因为您贴进来的不是 GBK 或 Big5,而是 Unicode 格式的文本。

 

如您需直接对 Unicode 格式的文本进行简繁转换,可以使用《简繁大师》剪贴板转码功能,从中选择简体(Unicode)->繁体(Unicode)或繁体(Unicode)->简体(Unicode)。

 

如果您需要编辑剪贴板中的 Unicode 文本,可以用上下工具栏中的 U->G 或 U->B 按钮将其转为 GBK 或 Big5 编码,再贴入编辑区中进行编辑。编辑完成后,可以用工具栏上的 A->U 或 AA->U 按钮将编辑区中的全部或选中文本复制到剪贴板中,再用 G->U 和 B->U 按钮将其转成 Unicode 格式。如您在某编辑区中的语言编码为 GBK,则 U->G 和 G->U 可用,如语言编码为 Big5,则 U->B 和 B->U 按钮可用。如您想在 U->G / G->U 和 U->B / B->U 之间进行切换,您只需切换该编辑区的语言编码即可。

 

如果有需要,您也可以利用剪贴板转码功能在 Unicode/Unicode BE 和 GBK、Big5、UTF-8 之间转码。

 

1.6 智能词汇修正
 

《简繁大师》提供智能词汇修正功能,可以进一步提高转码精度。

 

经过词汇修正的转码效果要比没有经过词汇修正的转码效果好得多。

1. 部分简体字如“制”-“制度”、“复制”,在繁体中文中根据使用环境不同,可将对映到不同的繁体字,如“制度複製

从繁体向简体转码时也时有这样的情况出现。如繁体中的“”-“你看著我著作,在简体中文里就是你看着我著作

2. 现代汉语中的一些新名词和日常用法,在简繁体中也往往有所不同。如英文的 modem(上网用的“猫”),在简体中文中的正式名称是“调制解调器”,在繁体中文中,则称之为“數據機”。

通过词汇修正技术可以实现以上转码要求。除实际的词汇差异外,您也可以合理利用词汇修正技术在合适的时间对您想改的任何内容进行调整。

 

 

图 UG-1-9 单击“转码”子菜单下“词汇修正”命令,可以打开词汇修正主界面。顶端的列表和按钮组可用于词汇修正包的管理(添加、删除、编辑、应用等)。左下角帮助按钮旁的 4 个按钮可用于实现词汇修正库的融合、有效性检查/错误自动修正,及在一个或所有库中搜索指定词汇。右下角的按钮组可用于词汇修正库的管理。当你把鼠标放在任何一个组件上时,最底端的状态栏中可以显示相关说明。

 

 

图 UG-1-10 编辑词汇修正库。您可以在此编辑语汇修正库。只有当您选择“应用本库”时,转码时才会调用这个库。如果此词库内码与当前操作系统内码不一致时,可能无法正确显示,但选中条目的两个词可以在列表上的编辑框中正确显示出来。如果您不喜欢这样一个词一个词进行编辑,您可以单击列表右侧圈中的文件图标,新开一个《简繁大师》对这个库内的内容进行全文编辑。全文编辑应在本对话框打开时进行,全文编辑结束并保存修改结果后,《简繁大师》会提示您可用全文编辑的结果替换当前库。和图 UG-5-11 所示一样,您也可以在此对话框中对进行有效性检查,只不过这里仅对当前库检查/修正。打勾的按钮可帮助您发现错误时自动修正错误,或指导您修正错误。

 

词汇修正库共有两组 - 一组繁体库用于简转繁时的修正,一组简体库用于繁转简时的修正。

 

《简繁大师》安装后,将为每组库提供 6 套系统库,另加几个自定义专业库。

 

您不能删除系统库,但可以编辑它们。不过如果您不是这一行的专家,建议您不要动 系统库。如果您有自定义词条的需要,可以创建自己的修订包并在其中维护一个或几个自定义修正库,详情请参考附录 2. 词汇修正引擎定制攻略。以下为系统库和一些常见自定义库的简要说明。

 

精致工作室对《简繁大师》简繁转换引擎的改进一直在持续不断地进行,可能为了提供更好的转换效果而随时更新系统库和自定义库,恕不另行通知。

 

系统库:

基础库:基础库对不同语境下的单字进行修正。本库是 GBK 和 Big5 码表间词汇修正的核心。基础库对简繁体间一对多的问题进行修正。

习惯用语修正基本库:由于几十年的分隔和缺乏交流,两岸对一些相同或相似的事物或行为采用了不同的词汇加以描述。如大陆所称的“软件”,“硬件”,在港台一般称之为“软体”,“硬体”。本库收录这种存在差异的词汇中的常见词。它提供简繁体间不同习惯用语的对应表。

习惯用语修正基本库 2:对习惯用户修正基本库未能修正的词汇进行补充修正。

最终修正库:同时使用多个库时,理论上可能存在极少量意想不到的情况————可能某一库中一个待修正词,或它的一部分在修正前已经被另一个库,或本库前面的一个词替换了;或修正后又被本库后面的词或后面库中的某一词替换或替换了一部分,致使少量修正要求未能正确实现。请把本库放在库列表的最后,并在其中添加相关条目,对你发现的这种意外情况进行最终修正。

最终修正库 2:对最终修正库未能修正的词汇进行补充修正。

最终修正库 3:对最终修正库 2 未能修正的词汇进行补充修正。

 

自定义库:

IT 库:提供 IT 行业专业词汇的修正。

IT2-4 库:对 IT 库未能修正的词进行补充修正。

Windows 库:对 Microsoft Windows 中特有的词进行修正。

Windows2 库:对 Windows 库未能修正的词进行补充修正。

Network 库:对网络相关的词进行修正。

Network2 库:对 Network 库未能修正的词进行补充修正。

 

自定义最终修正库:

HongKong 库:香港地区繁体用户的语言习惯与台湾略有不同,本库针对香港用户的习惯提供附加修正。

 

用户需要注意的一点是,词汇修正库的应用顺序是按表 UG-5-10 中所示从上向下顺序应用。如您发现某一个库引发了什么问题,您可以在它下面的库中进行更正。

 

关于词汇修正的进一步信息,请参考附录 2. 词汇修正引擎定制攻略

 

1.7 如何利用《简繁大师》实现完美品质转码


通过合理利用包管理功能,即可轻松实现完美或基本完美的简繁体转码。

 

一般性建议

 

1。请熟悉《简繁大师》所提供的词汇修正包及词汇修正库列表。合理利用现有库或包将有助于您为自己的项目实现高品质转码。

2。一般情况下,建议不要修改系统库或我们提供的其他修正库。如您需要添加自定义修正词条,建议添加在自定义最终库中,这样《简繁大师》的引擎升级后,您的库不会受到影响,并便于于维护。

 

普通转码任务

 

对于普通的转码任务,请应用“默认库”。对于与 IT 相关的转码任务,请应用 IT 库。即可对大多数转码任务实现专业品质转码。

 

专业转码任务

 

实现完美品质转码的关键在于两点:

1。为每一项重要的转码任务特别建立一个专用修正包。利用此包将您为此任务所做的库选配和修正设置保存下来,统一管理。调配好这个包后,您需要为此任务进行转码时,只需应用此包即可实现专业品质的转码。

2。在此包内,针对您的任务为 GBK 和 Big5 转码需求分别配置 1-2 级自定义最终修正库。

 

其他建议:

3。熟悉并合理利用《简繁大师》《简繁大师》安装包中提供的系列修正库:

a) 了解这些库(分 GBK 和 Big5 两组,每组包括 6 个系统库,几个主题自定义库,几个主题最终修正库)是做什么的。

b) 一般情况下,请应用全部 6 个系统库。默认情况下它们都被设为应用,不要随意关掉它。

c) 如果您要对 IT 类的文献进行转码,请应用简体 IT 库和繁体 IT 库。IT 库的的词汇均经过仔细调研,可以较好地对 IT 类文件进行修正。如果转码的对象不是 IT 类文献,没有必要应用 IT 类库。

d) 安装包中还有几个自定义最终修正库,如有需要,也可选用。

4。合理利用您的自定义最终修正库:

a) 您可在此存放您为您的任务特别修订的修正词对。如果一级修正未能达到目标,可以在二级库中进行补充修正。

b) 可以自定义字串对对简繁体站点中的不同链接进行修正。如简体库中的许多链接是"...\gb2312\abc.htm",而到了繁体中变成"...\big5\abc.htm",您可以在您的自定义修正库中加一条"\gb2312\"->"\big5\",即可以在转码过程中直接对其进行修改,而不必在转码结束后再手工调整。

 

关于词汇修正的进一步信息,请参考附录 2. 词汇修正引擎定制攻略

 

1.8 背景知识:简体中文、繁体中文、GBK、GB2312、Big5、UTF-8、Unicode 和 Unicode BE
 

简体中文和繁体中文

 

在 20 世纪上半叶,当时的国民政府就曾考虑过要精简汉字,让汉字的学习、书写更容易,以利于国民教育的普及。但由于时局不稳,这一计划未能最终实施。

 

1949 年以后,两岸政局相对稳定,在大陆的中华人民共和国政府组织了专家委员会,在 50 年代到 70 年代期间基本完成了汉字的简化工作。简化的主要是高频字,大部分简化汉字或偏旁都是将两个或几个相近字/偏旁合并为其中一个较简单的,其他被简化的汉字/偏旁,也往往在古汉语(很多来自草书)中有所依据,凭空造出的汉字或偏旁只占简化字中的很少一部分。而在台湾的政府一直未进行汉字简化工作。从此就有了简繁汉字的区别。

 

由于进行汉字简化时往往会将两个、三个甚至更多汉字合并为一个汉字(采用的汉字一般书写相对简单些)的情况,所以在简体字和繁体字的对应关系中,经常有多繁对一简的关系。另外,由于两岸从 1949 年以来社会文化的隔阂,在 1949 年以来产生的新词中,有相当比例在简繁中文中以不同方式表述,这是简繁中文的另一重要区别。

 

现在,中国大陆、新加坡和马来西亚都采用简体中文作为官方中文加以普及,而台湾、香港、澳门则采用繁体中文。在其他国家/地区的海外华人中,老一辈华人用繁体字较多,新生代,尤其是不少近年来从大陆移民出去的华人,也有很多用简体中文的。由于最近二三十年来的频繁文化交流,大多数中文用户都能同时辩认简繁中文,但书写和阅读习惯上的差异并非轻易可以改变。对于简体中文起主导作用的主要是中国大陆,对于繁体中文起主导作用的主要是台湾。另外,香港在繁体中文的使用习惯上也有一定自己的特点,但其影响明显小于台湾繁体的影响。最近几年来,繁体在台湾经常被称为正体中文,表示这种未经简化的中文是“正宗原版”的中文。

 

GBK/GB2312/Big5

 

计算机字符编码在 20 世纪末至 21 世纪初经历了从单字节(即 ANSI 编码)向双字节(Unicode)编码的转变。Windows 9x 以前的 MS 操作系统都主要采用单字节(ANSI)编码保存、传输、处理文件和其他数据,其一个字节的长度为二进制 8 位,共有 2 的 8 次方,总计 256 种基本字符。而早期的 Windows NT 和后来的 Windows 2000 以后的操作系统则以双字节为内核。在单字节的简体中文系统中,中文以 GBK 编码表示。而在单字节的繁体中文系统中,中文以 Big5 编码表示。这是两套分别由不同人编订的编码,相互之间没有什么直接关系。

 

在单字节系统中,一个汉字由两个值为 1-255 的 ANSI 字符表示,该汉字以哪两个 ANSI 字符表示,这两个字符就是这个字的编码。GBK 编码的标准是中国大陆审订的,共收有 约 2.2 万汉字,其中既包括简体中文字,也包括了基本完整的繁体中文字,所以 GBK 实际上是一个简繁中文的合集。Big5 编码是台湾审订的,共有约 1.3 万中文,只收录繁体中文中有的字,很多只出现在简体中文中的简化字未被 Big5 编码标准收录。

 

GB2312 可以说是 GBK 的前身,它是一个 6000 多字的简体中文高频字符集,早期在一定范围内被采用过。在一篇日常的简体中文文章中,在不计重复的情况下,可能其中 98%-99.5% 的汉字属于 GB2312 字符集。随着资料字数的增加,总会有一些不属于 GB2312 字符集的汉字出现,所以在绝大多数系统中,它早已被收字更全的 GBK 字符集全面取代了。GBK 字符集并没有改变 GB2312 中出现的汉字的编码,只是另外补充收录了大量其他汉字和符号。GBK 对 GB2312 的扩充主要包括三方面:(1)全面收录了 Big5 字符集中的汉字;(2)补充收录了一些其他偏冷汉字;(3)补充收录了一些标点符号。由此可见,GBK 字符集包含,也全面兼容 GB2312 字符集。由于这一原因,也许也有 GB2312 先出现,先入为主的原因,今天我们仍能在各种计算机资料中大量看见 GB2312 的名称,但现在出现 GB2312 的地方,实际上所用字符集基本已经清一色采用了 GBK 字符集。GB2312 只是延用了过去的名称。

 

Windows NT 和 2000 以后的双字节系统除了支持双字节文件/数据格式,也兼容支持单字节数据。在 2000 以后的简体中文系统中,数据经常也可以以单字节的 GBK 编码保存,而繁体中文系统中的数据也经常可以以单字节的 Big5 编码保存。

 

Unicode/Unicode BE/UTF-8

 

Windows 2000 以后的双字节 Windows 操作系统采用了 Unicode 编码。Unicode 是一种双字节(或说宽字符)编码,一个 Unicode 字符有原来单字节字符的两个字符那么长,共有 256*256=65536 种 Unicode 字符。由于 Unicode 容量较大,它在制订时也经过了各国语言专家联合商议,Unicode 编码在制订完成时就收录了所有主流语言的所有字符(当然也包含了简体中文和繁体中文中的所有字符),它可以算地球上所有主流语言各种各样字符的合集。如果一个汉字同时存在于简体中文和繁体中文中(如果一个常用汉字在简体中文中没有被简化,就会出现这种情况),它在 GBK 和 Big5 中具有不同的编码,但在 Unicode 中则只有一个编码。实际上由于 GBK 包含了几乎所有 Big5 字符,Unicode 基本是参照 GBK 收录中文字符的。

 

Unicode BE 是 Unicode 的另一种编码形式,简单地说,一个 Unicode BE 字符就是把相对应的 Unicode 字符的前一半和后一半换个位置重新组装形成的。

 

由于很多 Unicode 字符不被 ANSI 系统识别(比如,值为 0 的 ANSI 字符在 ANSI 系统的文件和字符串中都表示终结符,所以 0 值不能出现在文件或文本数据块的中间,但如果把一个 Unicode 宽字符简单地从中点断开拆成两个 ANSI 字符,就会拆出很多 X+0 或 0+X 的组合来,会出现很多不合法的 0 字符),所以并非所有 Unicode 字符可以简单地直接前后拆开保存为两个 ANSI 编码字符。UTF-8 应运而生,它是与 Unicode 对应的兼容 ANSI 的文件/文本保存形式,Unicode 转换为 UTF-8 时,通过一定规则,将一个双字节 Unicode 字符保存成 1 个或 2 个或 3 个单字节字符,这样就可以将 Unicode 数据完整无缺地保存为兼容 ANSI 的单字节编码数据。

 

所以 UTF-8 的本质就是 Unicode 编码,但它可以同时兼容单字节和双字节系统。UTF-8 是双字节时代最重要的文件保存格式。