《多语编辑器》用户指南

5. 编辑资源管理器中的文本文件 目录 7. Unicode 相关转换
 

6. 智能型高精度简繁体转码


6.1 行业领先的智能型高精度简繁体转码引擎
6.2 剪贴板转码、编辑区转码、文件转码和站点转码
6.3 GBK 大码表内的“简”“繁”体互转
6.4 实现 Unicode“简”“繁”体互转
6.5 智能词汇修正
6.6 如何利用《多语编辑器》实现完美品质转码
6.7 《简繁大师》
 

6.1 行业领先的智能型高精度简繁体转码引擎
精致工作室致力于实现高品质的简繁体转码。现在,用户已经可能利用《多语编辑器》针对指定任务实现专业品质的简繁体转码任务。

 

精致工作室投入大量精力以提高转码引擎的精度。通过各种特别设计的流程及专用程序对 GBK 码表、GB2312 码表及 Big5 码表进行逐字审核,参考了多种相关标准,并通过海量当代文本资源反复校对,以确保转码准确合理。根据我们的内部测试,当前版本的《多语编辑器》在 GBK 码表、GB2312 码表及 Big5 码表的转码准确性已分别处于行业领先水平。除了品质优异的内核字库,《多语编辑器》具体目前最先进的词汇修正技术,提供一系列精心设计形成的词汇修正库,并针对不同转码任务提供修正包管理体系。用户通过词汇修正包可以轻松地为指定转码任务配置专门的简繁体转码方案,其转码品质可以达用户对转码软件的最高期望——完美。与此相关的进一步细节请参考 6.5 智能词汇修正

 

《多语编辑器》的转码引擎经过特别优化,转码速度在同类软件中相对比较快。实际操作中,转码速度与您所用电脑性能,以及用到的词汇修正库中词条量有关。

 

6.2 剪贴板转码、编辑区转码、文件转码和站点转码
从 1.1 版起,《多语编辑器》提供全系列简繁体转码(GBK<->Big5)服务,包括剪贴板转码、编辑区转码以及文件和站点转码。其中进行编辑区转码时,除了可以进行 GBK 和 Big5 的互转,还可以实现 GBK 大码表内部的“简”“繁”体互转。

 

 

图 UG-6-1 全部转码功能均可在“转码”子菜单下找到。

 

 

图 UG-6-2 源工具条上的编辑区转码按钮

 

剪贴板转码

剪贴板转码功能对内存中的文本进行转码。剪贴板转码的速度很快,100 KB 以下的文本转码瞬间即可完成。如果您对 100 KB 以上的内存文本进行转码,速度也很快,不过《多语编辑器》将弹出一个进度栏实时显示转码进度。

 

 

图 UG-6-3 对 100 KB 以上的字符进行剪贴板转码或编辑区转码时,您可以看见一个转码进度栏

 

编辑区转码

编辑区转码功能可实现文本的可视化转码。您可以设定将源编辑区内的文本进行自身转码,转码结果将仍在源编辑区内显示;也可以设定将转码结果显示在目标编辑区。多数情况下,建议您将转码结果显示在目标编辑区中,这样可以方便地对照检查转码效果,也可以保留源编辑区中的原文。

 

和剪贴板转码一样,如要转的字符数超过 100 KB,您将会看见一个进度栏。《多语编辑器》的转码引擎本身速度很快,不过如果您要转的文本字符数比较多,将转码结果放入编辑区显示出来可能会花一些额外的时间。

 

编辑区转码,除了可以实现正常意义的简繁体 (GBK<->Big5)转码,还可以实现 GBK 大码表内部的“简”“繁”体互转。进一步信息请参考 6.3 GBK 大码表内的“简”“繁”体互转

 

 

图 UG-6-4 编辑区转码对源编辑区中的文本进行转码。如果编辑区转码选项设为“源->源”,转换结果将写回源编辑区中;如果设为“源->目标”,结果将写入目标编辑区。

 

 

图 UG-6-5 编辑区转码结束后,编辑区的文本显示语言将自动调整,从而可正确显示转码语言。上图是个繁转简的例子。转码结束后,源编辑区显示语言被调整为繁体中文,目标编辑区的显示语言被调整成简体中文。

 

文件/网页转码和站点转码

文件转码和站点转码使用同一个对话框。您可以从转码对话框菜单下找到“文件/网站转码”命令,也可以通过源工具条上的“文件/网站简繁体转码”按钮(图 UC-5-2 中右边圈中的按钮)打开这个对话框。当选择进行文件转码时,对话框中的选项和提示信息是针对文件转码的选项和提示信息。进行站点转码时,对话框中的选项和提示信息则为针对站点转码的选项和提示信息。

 

1. 文件/网页转码

如您将“转换对象”设为“一个文件”时,您看到的是针对文件转码的设置信息。

 

如您选择“转换结果另存为新文件”,目标文件必须与源文件不同,这种选项可以保护您的源文件不会被无意中覆盖。如果不选择“转换结果另存为新文件”,转换结果将写入源文件。

 

您可以单击右边的文件图标查看源文件或转换结果。

 

如您对一个网页文件进行繁->简转码时,《多语编辑器》将会把转换结果网页的语言属性改为简体中文。如您将一个简体中文网页转换成繁体中文,《多语编辑器》也会将转换出的繁体中文网页的语言属性设为繁体中文。

 

 

图 UG-6-6 文件转码界面

 

2. 站点转码

站点转码就是目录转码。之所以称之为站点转码,是因为站点转码常见的应用场合是对一个网站进行整体简繁体转码。

 

当您将转换对象设为“一个站点”时,对话框将显示针对站点转码的选项和提示信息。

 

如您选择“转换结果另存为新站点”,目标站点必须为一个不存在的待建目录,或一个没有内容的空目录。这样可以确保您不会无意破坏一个现有目录中的内容。如您将转换结果另存为新站点的话,可以选择让《多语编辑器》将无需转换的非文本文件同时复制到新目录下的相应位置。这些非文本文件往往也是网站的必要组成部分,如图片、压缩文件或其它网页中提供了链接的资源。

 

单击路径编辑框右侧的目录图标,可以查看源站点或转换结果(转码完成后可查看)的目录结构。

 

新站点下全部网页文件的语言属性将被自动改为目标码。如下图中进行了站点繁体转简体,转换完成后,“F:\lanlib1\big5 lanlib gbk”目录下网页文件的语言属性将自动由原来的繁体中文 (Big5)改为简体中文(gb2312)。

 

 

图 UG-6-7 站点转码界面

 

 

图 UG-6-8 正在进行站点转码。上例中在 Windows 98 下对一个 40 MB 左右的网站进行转码,花了大约 6 分左右完成。如果您在 Windows 2000 下进行同样的转码,速度可以快得多。进行站点转码时,主程序标题将会实时显示转码状态。如果您对一个大型网站进行转码时,就可以一边做其它工作,一边可从任务栏上看见转码状态。如您想终止转码,可单击转码对话框中白圈所示按钮。

 

6.3 GBK 大码表内的“简”“繁”体互转
GBK 大码表内置了一整套“繁体”字。《多语编辑器》提供了“GBK 简体转繁体”或“GBK 繁体转简体”功能,帮助您实现 GBK 表内的简繁互转。

 

6.4 实现 Unicode“简”“繁”体互转
《多语编辑器》没有提供专门的 Unicode 简繁互转命令。不过您可以通过组合命令实现些功能。

剪贴板 Unicode 简转繁:

1. 剪贴板转码:Unicode->ANSI(简体中文)

2. 剪贴板转码:GBK->Big5

3. 剪贴板转码:ANSI(简体中文) -> Unicode

 

剪贴板 Unicode 繁转简:

1. 剪贴板转码:Unicode->ANSI(繁体中文)

2. 剪贴板转码:Big5->GBK

3. 剪贴板转码:ANSI(繁体中文) -> Unicode

 

关于 Unicode 相关转码的介绍,请参考 Unicode 相关转换

 

6.5 智能词汇修正
《多语编辑器》提供智能词汇修正功能,可以进一步提高转码精度。

 

经过词汇修正的转码效果要比没有经过词汇修正的转码效果好得多。

1. 部分简体字如“制”-“制度”、“复制”,在繁体中文中根据使用环境不同,可将对映到不同的繁体字,如“制度 複製从繁体向简体转码时也时有这样的情况出现。如繁体中的“”-“你看著我著作,在简体中文里就是你看着我著作

2. 现代汉语中的一些新名词和日常用法,在简繁体中也往往有所不同。如英文的 modem(上网用的“猫”),在简体中文中的正式名称是“调制解调器”,在繁体中文中,则称之为“數據機”。

通过词汇修正技术可以实现以上转码要求。除实际的词汇差异外,您也可以合理利用词汇修正技术在合适的时间对您想改的任何内容进行调整。

 

 

图 UG-6-9 单击“转码”子菜单下“词汇修正”命令,可以打开词汇修正主界面。顶端的列表和按钮组可用于词汇修正包的管理(添加、删除、编辑、应用等)。左下角帮助按钮旁的 4 个按钮可用于实现词汇修正库的融合、有效性检查/错误自动修正,及在一个或所有库中搜索指定词汇。右下角的按钮组可用于词汇修正库的管理。当你把鼠标放在任何一个组件上时,最底端的状态栏中可以显示相关说明。

 

 

图 UG-6-10 编辑词汇修正库。您可以在此编辑语汇修正库。只有当您选择“应用本库”时,转码时才会调用这个库。如果此词库内码与当前操作系统内码不一致时,可能无法正确显示,但选中条目的两个词可以在列表上的编辑框中正确显示出来。如果您不喜欢这样一个词一个词进行编辑,您可以单击列表右侧圈中的文件图标,新开一个《多语编辑器》对这个库内的内容进行全文编辑。全文编辑应在本对话框打开时进行,全文编辑结束并保存修改结果后,《多语编辑器》会提示您可用全文编辑的结果替换当前库。和图 UG-6-9 所示一样,您也可以在此对话框中对进行有效性检查,只不过这里仅对当前库检查/修正。打勾的按钮可帮助您发现错误时自动修正错误,或指导您修正错误。

 

词汇修正库共有两组 - 一组繁体库用于简转繁时的修正,一组简体库用于繁转简时的修正。

 

《多语编辑器》安装后,将为每组库提供 3 套系统库,另加几个自定义专业库。

 

您不能删除系统库,但可以编辑它。不过如果您不是这一行的专家,建议您不要动它。下面对这些库作简要说明:

 

系统库:

基础库: 基础库对不同语境下的单字进行修正。本库是 GBK 和 Big5 码表间词汇修正的核心。基础库对简繁体间一对多的问题进行修正。

习惯用语修正基本库: 由于几十年的分隔和缺乏交流,两岸对一些相同或相似的事物或行为采用了不同的词汇加以描述。如大陆所称的“软件”,“硬件”,在港台一般称之为“软体”,“硬体”。本库收录这种存在差异的词汇中的常见词。它提供简繁体间不同习惯用语的对应表。

习惯用语修正基本库 2: 对习惯用户修正基本库未能修正的词汇进行补充修正。

最终修正库: 同时使用多个库时,理论上可能存在极少量意想不到的情况————可能某一库中一个待修正词,或它的一部分在修正前已经被另一个库,或本库前面的一个词替换了;或修正后又被本库后面的词或后面库中的某一词替换或替换了一部分,致使少量修正要求未能正确实现。请把本库放在库列表的最后,并在其中添加相关条目,对你发现的这种意外情况进行最终修正。

最终修正库 2: 对最终修正库未能修正的词汇进行补充修正。

最终修正库 3: 对最终修正库 2 未能修正的词汇进行补充修正。

 

自定义库:

IT 库: 提供 IT 行业专业词汇的修正。

IT2 库: 对 IT 库未能修正的词进行补充修正。

Windows 库: 对 Microsoft Windows 中特有的词进行修正。

Windows2 库: 对 Windows 库未能修正的词进行补充修正。

Network 库: 对网络相关的词进行修正。

Network2 库: 对 Network 库未能修正的词进行补充修正。

 

自定义最终修正库:

HongKong 库: 香港地区繁体用户的语言习惯与台湾略有不同,本库针对香港用户的习惯提供附加修正。

 

用户需要注意的一点是,词汇修正库的应用顺序是按表 UG-6-9 中所示从上向下顺序应用。如您发现某一个库引发了什么问题,您可以在它下面的库中进行更正。

 

6.6 如何利用《多语编辑器》实现完美品质转码
通过合理利用包管理功能,即可轻松实现完美或基本完美的简繁体转码。

 

普通转码任务

对于普通的转码任务,请应用“默认包”。对于与 IT 相关的转码任务,请应用“IT”包。即可对大多数转码任务实现专业品质转码。

 

专业转码任务

实现完美品质转码的关键在于两点:

1。为每一项重要的转码任务特别建立一个专用修正包。利用此包将您为此任务所做的库选配和修正设置保存下来,统一管理。调配好这个包后,您需要为此任务进行转码时,只需应用此包即可实现专业品质的转码。

2。在此包内,针对您的任务为 GBK 和 Big5 转码需求分别配置 1-2 级自定义最终修正库。

 

其它建议:

1。熟悉并合理利用《多语编辑器》《多语编辑器》安装包中提供的系列修正库:

a) 了解这些库(分 GBK 和 Big5 两组,每组包括 6 个系统库,几个主题自定义库,几个主题最终修正库)是做什么的。

b) 一般情况下,请应用全部 6 个系统库。默认情况下它们都被设为应用,不要随意关掉它。

c) 如果您要对 IT 类的文献进行转码,请应用简体 IT 库和繁体 IT 库。IT 库的的词汇均经过仔细调研,可以较好地对 IT 类文件进行修正。如果转码的对象不是 IT 类文献,没有必要应用 IT 类库。

d) 安装包中还有几个自定义最终修正库,如有需要,也可选用。

2。一般情况下,建议不要修改系统库或我们提供的其它修正库。如您需要添加自定义修正词条,建议添加在自定义最终库中,这样《多语编辑器》的引擎升级后,您的库不会受到影响,并便于于维护。

3。合理利用您的自定义最终修正库:

a) 您可在此存放您为您的任务特别修订的修正词对。如果一级修正未能达到目标,可以在二级库中进行补充修正。

b) 可以自定义字串对对简繁体站点中的不同链接进行修正。如简体库中的许多链接是“...\gb2312\abc.htm”,而到了繁体中变成“...\big5\abc.htm”,您可以在您的自定义修正库中加一条“\gb2312\”->“\big5\”,即可以在转码过程中直接对其进行修改,而不必在转码结束后再手工调整。

 

6.7 《简繁大师》
对于普通要求的简繁转换,《多语编辑器》可能满足得很好。不过如果您需要经常进行专业水平的简繁转换,建议您使用我们的专用产品《简繁大师》,《简繁大师》集中了我们最高品质的简繁转换数据和技术。 该软件的主页是:

 

《简繁大师》:http://www.speedy7.com/cn/stguru/index_chs.html