《簡繁大師》使用者指南

系統要求 內容表 2. 高精度內碼辨識技術
 

簡繁轉換

 

1. 智慧型高精度簡繁體轉碼


1.1 行業領先的智慧型高精度簡繁體轉碼引擎
1.2 編輯區轉碼、剪貼簿轉碼、檔案/網頁/資料夾/網站轉碼
    1.2.1 編輯區轉碼
    1.2.2 剪貼簿轉碼
    1.2.3 檔案/網頁/資料夾/網站轉碼
    1.2.4 批量檔案/資料夾簡繁轉換
1.3 如何利用《簡繁大師》實現 Word、Excel、PowerPoint、Access、Trados TM...等多種其他格式文件的簡繁轉換?

1.4 即時/動態簡繁轉換、指令行介面、批量轉碼

1.5 Unicode 相關轉換 - 在 Unicode/Unicode BE 和 GBK/Big5/UTF-8 之間轉碼
1.6 智慧詞彙修正
1.7 如何利用《簡繁大師》實現完美品質轉碼

1.8 背景知識:簡體中文、繁體中文、GBK、GB2312、Big5、UTF-8、Unicode 和 Unicode BE

 

1.1 行業領先的智慧型高精度簡繁體轉碼引擎
 

精致工作室致力於實現高品質簡繁體轉碼。現在,使用者已經可以利用《簡繁大師》針對指定工作實現完美品質簡繁體轉碼,這一技術處於行業領先水平。

 

精致工作室投入大量精力以提高轉碼引擎的精度。透過各種特別設計的流程及私人程式對 GBK 碼表、GB2312 碼表及 Big5 碼表進行逐字審核,參考了多種相關標準,並透過海量當代文字資源反覆校對,以確保轉碼準確合理。根據我們的內部測試,當前版本的《簡繁大師》在 GBK 碼表、GB2312 碼表及 Big5 碼表的轉碼準確性上已分別處於行業領先水平。除了品質優異的內核字庫,《簡繁大師》具有目前最先進的詞彙修正技術,提供一系列精心設計形成的詞彙修正庫,並針對不同轉碼工作提供修正包管理體系。使用者透過詞彙修正包可以輕鬆地為指定轉碼工作組態專門的簡繁體轉碼方案,在大多數情況下,只要合理調配,轉碼品質可以達到使用者對轉碼軟體的最高期望——完美。與此相關的進一步細節請參考 1.6 智慧詞彙修正

 

Unicode 字集包含了 GBK 字集,它是目前已成為主流的全球統一編碼集。Unicode 字集中有一些較常用符號並未包含在 GBK 編碼集中。繼多年前《簡繁大師》跳出 GB2312 的框架,全面基於 GBK 大編碼集進行轉換之後,自 2.9 版後,《簡繁大師》又超越了 GBK 轉換時代,進入 Unicode 編碼轉換新世代。我們對轉換引擎進行了關鍵改進,現在,當您在 UTF-8、Unicode、Unicode BE 編碼之間進行剪貼簿、檔案、資料夾轉換時,程式內部使用的是全新的 Unicode 轉換引擎進行轉換,可以幫助您實現 Unicode 文字的完美轉換。

 

《簡繁大師》的轉碼引擎經過特別最佳化,轉碼速度在同類軟體中相對較快。在實際作業中,轉碼速度與您所用電腦效能,以及用到的詞彙修正庫中的詞條量有關。

 

基於卓越的轉碼引擎,《簡繁大師》提供全系列簡繁體轉碼服務,包括編輯區轉碼、剪貼簿轉碼、檔案/網頁/資料夾/站台轉碼,並為 Word、Excel、PowerPoint、Access 和 Trados TM 等特殊格式文件的整體轉換提供了專業指導。所有轉換均具備始終如一的專業品質。

 

1.2 編輯區轉碼、剪貼簿轉碼、檔案/網頁/資料夾/網站轉碼
 

編輯區轉碼剪貼簿轉碼檔案/網頁/資料夾/網站轉碼分別用於對編輯區和剪貼簿中的文字,以及單獨的檔案、網頁或形成整體的資料夾、網站進行方便而專業的轉換。這些功能支援簡繁體 GBK、Big5(繁體)、UTF-8、Unicode 和 Unicode BE 的任意組合之間的專業級互轉。

 

 

圖 UG-1-1 全部轉碼功能均可在「轉碼」子功能表下找到。編輯區轉碼、剪貼簿轉碼、檔案/網頁/資料夾/網站轉碼等主功能面板,可透過快速鍵快速開啟。轉碼主功能表最底下的「常見轉換」二級功能表中列出了最常見的編輯區和剪貼簿轉換操作,方便您快速選用。透過二級功能表中的「編輯區轉碼選項」,可設定透過功能表指令和工具列按鈕執行編輯區轉碼時,結果覆寫上編輯區的原文字還是寫入下編輯區,我們建議您採用「上區->下區」的預設設定。

 

 

圖 UG-1-2 上工具列上的編輯區 GBK<->Big5 轉碼和檔案/網頁/資料夾/網站簡繁體轉碼按鈕。左邊圈中的兩個按鈕是編輯區簡轉繁(GBK->Big5)和編輯區繁轉簡(Big5->GBK)。右邊圈中的按鈕是檔案/網頁/資料夾/網站簡繁體轉碼按鈕。

 

 

圖 UG-1-3 對 100 KB 以上的字元進行剪貼簿轉碼或編輯區轉碼時,您可以看見一個轉碼進度欄。

 

1.2.1 編輯區轉碼

 

 

圖 UG-1-4 使用「轉碼」功能表下的「編輯區轉碼」指令,可開啟此「編輯區轉碼」面板。由於源文字位置都處在上編輯區,所以僅當上區中有文字時,才可開啟此面板。

 

編輯區轉碼對上編輯區中的文字進行簡繁轉碼。您可利用「編輯區轉碼」面板進行轉碼,它提供了最全的轉碼控制選項,您可在簡繁體 GBK、Big5 和 UTF-8 的任意可用組合間進行轉換。另外,您也可以利用二級轉碼功能表上的指令和工具列上的按鈕執行幾種常見編輯區轉碼操作。

 

由於編輯區轉碼僅對上編輯區(即源編輯區)中的文字進行轉換,所以僅當上區中有文字時,才可執行編輯區轉碼。

 

1)利用「編輯區轉碼」面板進行轉碼

 

執行

執行「轉碼」功能表下的「編輯區轉碼」指令,可開啟此面板。快速鍵是 Ctrl+Q。開啟後的面板見圖 UG-1-4。

 

功能及說明

源文字:上編輯區中的選中文字(僅上當編輯區中有內容被選中時才可用)或上編輯區中的全部文字。

目的位置:上編輯區(不推薦)、下編輯區或剪貼簿。如果將目的位置設為上編輯區,源文字將被覆寫,所以不推薦使用這種位置。當設定目的位置為剪貼簿時,有一個專門的可選項,可將轉換結果先轉為 Unicode,再貼入剪貼簿。

轉換方向:源碼和目的碼可分別為

 

    * 簡體中文(GBK)

    * 簡體中文(UTF-8)

    * 繁體中文(Big5)

    * 繁體中文(GBK)

    * 繁體中文(UTF-8)

 

中的任一種。所以您有 5*4=20 種編輯區轉碼方向可供選擇。

 

2)利用功能表和工具列上的編輯區轉碼指令執行常用編輯區轉碼操作

 

參圖 UG-1-1。您可利用轉碼功能表最底下的二級功能表,執行多項常見編輯區轉碼操作。另外,上工具列上的 AA->U / A->U、G->B、B->G 和下工具列上的 AA->U / A->U 按鈕,也是編輯區轉碼指令。滑鼠移上去可透過提示文字瞭解按鈕指令的功能。二級功能表中的「編輯區轉碼選項」可設為「上區->上區」或「上區->下區」。它們私人於透過功能表和按鈕執行的編輯區轉碼。

 

輯區轉碼功能可實現文字的視覺化轉碼。您可以設定將上編輯區內的文字進行自身轉碼,轉碼結果將仍在上編輯區內顯示;也可以設定將轉碼結果顯示在下編輯區。多數情況下,建議您將轉碼結果顯示在下編輯區中,這樣可以方便地對照檢查轉碼效果,也可以保留上編輯區中的原文。

 

如圖 UG-1-3,如要轉的字元數超過 100 KB,《簡繁大師》將彈出一個進度欄即時顯示轉碼進度。《簡繁大師》的轉碼引擎本身速度很快,不過如果您要轉的文字字元數比較多,將轉碼結果放入編輯區顯示出來可能會花一些額外的時間。

 

 

 

圖 UG-1-5 編輯區轉碼結束後,編輯區的文字顯示語言將自動調整,從而可正確顯示轉碼語言。上圖是個繁(Big5)轉簡(GBK)的例子。轉碼結束後,上編輯區顯示語言被調整為繁體中文(Big5),下編輯區的顯示語言被調整成簡體中文(GBK)。

 

1.2.2 剪貼簿轉碼

 

 

圖 UG-1-6 使用「轉碼」功能表下的「剪貼簿轉碼」指令,可開啟此「剪貼簿轉碼」面板。只有當剪貼簿中有文字內容時,才可開啟此面板。

 

剪貼簿轉碼對剪貼簿中的文字進行簡繁轉碼。您可利用「剪貼簿轉碼」面板進行轉碼,它提供了最全的轉碼控制選項,您可在簡繁體 GBK、Big5、UTF-8、Unicode、Unicode BE 的任意可用組合間進行轉換。另外,您也可以利用二級轉碼功能表上的指令和工具列上的按鈕執行幾種常見剪貼簿轉碼操作。

 

由於剪貼簿轉碼僅對剪貼簿中的文字進行轉換,所以僅當剪貼簿中有文字時,才可執行此類轉碼。

 

1)利用「剪貼簿轉碼」面板進行轉碼

 

執行

執行「轉碼」功能表下的「剪貼簿轉碼」指令,可開啟此面板。快速鍵是 Ctrl+J。開啟後的面板見圖 UG-1-6。

 

功能及說明

源碼和目的碼可分別為

 

    * 簡體中文(GBK)

    * 簡體中文(UTF-8)

    * 簡體中文(Unicode)

    * 簡體中文(Unicode BE)

    * 繁體中文(Big5)

    * 繁體中文(GBK)

    * 繁體中文(UTF-8)

    * 繁體中文(Unicode)

    * 繁體中文(Unicode BE)

 

中的任一種。所以您有 9*8=72 種剪貼簿轉碼方向可供選擇。

 

2)利用功能表和工具列上的剪貼簿轉碼指令執行常用剪貼簿轉碼操作

 

參圖 UG-1-1。您可利用轉碼功能表最底下的二級功能表,執行多項常見剪貼簿轉碼操作。另外,上下工具列上的 G->U(即 GBK->Unicode)、U->G(即 Unicode->GBK、B->U(即 Big5->Unicode)和 U->B(即 Unicode->Big5)按鈕也是剪貼簿轉碼指令。當某編輯區的編碼為 GBK 時,U->G 和 G->U 按鈕可用,當某編輯區的編碼為 Big5 時,U->B 和 B->U 按鈕可用。

 

如圖 UG-1-3,和編輯區轉碼一樣,如要轉的字元數超過 100 KB,《簡繁大師》將彈出一個進度欄即時顯示轉碼進度。

 

1.2.3 檔案/網頁/資料夾/網站轉碼

 

 

圖 UG-1-7 「檔案/網頁/資料夾/網站轉碼」對話方塊

 

 

圖 UG-1-8 正在進行站台轉碼。進行站台轉碼時,主程式標題將會即時顯示轉碼狀態。如果您對一個大型網站進行轉碼時,就可以一邊做其他工作,一邊可從工作列上看見轉碼狀態。如您想終止轉碼,可按一下轉碼對話方塊中白圈所示按鈕。

 

檔案/網頁轉碼和資料夾/網站轉碼使用同一個對話方塊。您可以從轉碼功能表下找到「檔案/網頁/資料夾/網站轉碼」指令,也可以透過上工具列上的「檔案/網頁/資料夾/網站簡繁體轉碼」按鈕(圖 UG-1-2 右邊圈中的按鈕)開啟這個對話方塊。當選擇進行檔案/網頁轉碼時,對話方塊中的選項和提示資訊是針對檔案/網頁轉碼的選項和提示資訊;選擇進行資料夾/網站轉碼時,對話方塊中的選項和提示資訊則為針對資料夾/網站轉碼的選項和提示資訊。無論您選擇哪種轉碼方式,源碼和目的碼可分別為

 

    * 簡體中文(GBK)

    * 簡體中文(UTF-8)

    * 簡體中文(Unicode)

    * 簡體中文(Unicode BE)

    * 繁體中文(Big5)

    * 繁體中文(GBK)

    * 繁體中文(UTF-8)

    * 繁體中文(Unicode)

    * 繁體中文(Unicode BE)

 

中的任一種。所以您有 9*8=72 種轉碼方向可供選擇。

 

1. 檔案/網頁轉碼

 

如您將「轉換物件」設為「一個檔案/網頁」時,您看到的是針對檔案/網頁轉碼的設定資訊。

 

如您選擇「轉換結果另存新檔/網頁」,目的檔案必須與原始檔不同,這種選項可以保護您的原始檔不會被無意中覆寫。如果不選擇「轉換結果另存新檔/網頁」,轉換結果將寫入原始檔。

 

如果轉換的檔案是網頁,並帶有網頁語言標記,轉換時也會自動對語言標記進行轉換,轉換後的網頁可自動按指定語言正確顯示。

 

您可以按一下右邊的檔案圖示檢視原始檔或轉換結果。

 

2. 資料夾/網站轉碼

 

當您將轉換物件設為「一個資料夾/網站」時,對話方塊將顯示針對資料夾/網站轉碼的選項和提示資訊。

 

如您選擇「轉換結果另存新檔新網站」,目的網站必須為一個不存在的待建資料夾,或一個沒有內容的空資料夾。這樣可以確保您不會無意破壞一個現有資料夾中的內容。

 

進行資料夾/網站轉碼時,《簡繁大師》將自動辨識一個檔案是否是文字檔,如果是文字檔則進行轉換,如果不是則不轉換。如您將轉換結果另存新檔新網站的話,可以選擇讓《簡繁大師》將無需轉換的非文字檔同時複製到新資料夾下的相應位置。這些非文字檔往往也是網站的必要組成部分,如圖片、壓縮檔案或其他網頁中提供了連結的資源。

 

新網站下全部網頁檔案的語言編碼內容將被自動改為目的碼。如圖 UG-1-7 中進行的站台簡體(GBK)轉繁體(UTF-8),轉換完成後,"F:\lanlib1\UTF-8"資料夾下網頁檔案的語言編碼內容將自動由原來的簡體中文(GB2312)改為 UTF-8。

 

按一下路徑編輯方塊右側的資料夾圖示,可以檢視源網站或轉換結果(轉碼完成後可檢視)的資料夾結構。

 

1.2.4 批量檔案/資料夾簡繁轉換

 

此功能相當於由多個轉換/設定指令組成的批量簡繁轉換巨集,每個巨集稱之為一個批量簡繁轉換包,可一次性對一批檔案、資料夾進行連續轉換。您可在轉換流程的任意一步或多步中單獨指定轉換包,可對每一輪檔案、資料夾轉換單獨設定源/目的位置、轉換方向及轉換選項。此功能極大地方便了經常需要分別按不同組態進行多輪檔案、資料夾簡繁轉換的使用者。

   * 此功能可在「轉碼」功能表下找到,快速鍵為 Ctrl+Shift+B。

   * 每個巨集(批量簡繁轉換包)包括巨集內容(名稱、作者、版本、說明、路徑...等)和指令清單集。共有「設定轉換包」、「轉換檔案/資料夾」和「檔案系統協助功能」三類指令。您可以透過選項指定巨集執行結束後復原原來的簡繁轉換包設定。

   * 您可以在「轉換檔案/資料夾」指令中進一步指定轉換的物件是檔案還是資料夾。如轉換物件為資料夾,可以補充指定可覆寫現有資料夾,此選項有助於包中包含大批量指令時能流暢執行。

   * 您可以在清單中逐個或成批管理指令,如新增、移除、變更、剪下、複製、貼上、上移、下移指令,或設定/取消指令的「套用」狀態(如未套用,則此指令仍保留在指令清單中,但不會執行)。除新增、編輯指令只能逐個操作外,其餘指令均支援多選成批操作。

   * 支援檔案/資料夾拖曳,您可以一次性將多個檔案/資料夾拖入指令清單中。拖入轉換包檔案即自動新增設定轉換包指令,拖入其他文字檔和資料夾即自動新增檔案、資料夾的原路徑轉換指令;您也可以在編輯單個指令時將一個轉換包檔案或其他文字檔或資料夾拖入達到同樣效果。此功能要求 Windows 2000、XP、2003。如您使用 Windows Vista、7 則不支援,原因是 Windows Vista、7 本身不支援檔案拖曳。

   * 介面上有一個「編輯原始檔」按鈕,開啟後可以直接編輯原始檔,儲存後即自動提示更新。此功能便於您大批量、自由、精細修訂指令集。

   * 功能介面可拉伸縮放,縮放時介面控制項的佈局、表列寬及表中顯示的描述文字的長度也會自動適應調整到最佳,便於大顯示屏使用者檢視及操作。

   * 您可以將組態滿意的包儲存為純文字檔,也可以隨時呼叫以前儲存的包。

   * 「檔案系統協助功能」指令集包括執行程式、開啟、新增、剪下、複製、貼上、建立捷徑、移除、重新命名/移動、內容等指令。此組指令可以幫助電腦玩家級使用者執行批量轉換時作一些協助性檔案系統操作,對電腦操作不熟悉的普通使用者不需要使用這些功能。

 

1.3 如何利用《簡繁大師》實現 Word、Excel、PowerPoint、Access、Trados TM...等多種其他格式文件的簡繁轉換?
 

《簡繁大師》專注於 GBK、Big5、UTF-8、Unicode 等關鍵內碼格式文字或檔案的專業品質轉換,並不直接操縱 Word、Excel、PowerPoint、Access、Trados TM 等特殊檔案格式,但《簡繁大師》也整理了間接,但仍很方便的流程,指導使用者在《簡繁大師》的幫助下實現這些特殊格式檔案的專業品質整體簡繁轉換。熟悉這些流程後,除去基本轉換必須要花的時間,您只需多花 1 分鐘,即可實現多種特殊格式檔案的專業品質整體簡繁轉換。

 

這類轉換的基本原理
 

1)將這些特殊格式檔案匯出為 XML(即 UTF-8)等《簡繁大師》辨識的格式(匯出時也自動保留了完整或基本完整的格式資訊)。

2)由《簡繁大師》對匯出的 XML 等可辨識格式進行專業品質簡繁轉換。

3)如有必要,透過批量取代等方式,對轉換結果進行一定處理(這一步經常可省略)。

4)將以上 2、3 兩步的結果重新匯入相關軟體,另存新檔指定格式。

5)如有必要,進行簡單後期處理(這一步經常可省略)。

 

進一步細節

 

關於 Word、Excel、PowerPoint 簡繁轉換,以及特殊格式檔案簡繁轉換的一般性說明,請參閱 FAQ 中的「如何轉換 Word、Excel、PowerPoint、Access...等其他格式文件?」。

關於 Access 簡繁轉換,請參閱 FAQ 中的「我要轉換一個 Access 資料庫」。

關於 Trados TM 簡繁轉換,請參閱 FAQ 中的「我是一位翻譯人員,我有一個 Trados 的英譯簡體 TM 庫,想轉換成英譯繁體庫,請問如何實現?」。

 

1.4 即時/動態簡繁轉換、指令行介面、批量轉碼
 

即時/動態簡繁轉換、指令行介面

 

有些開發級使用者、網站站長和喜歡指令行操作的資深電腦玩家希望《簡繁大師》 能提供可透過協力廠商程式即時、動態呼叫的簡繁轉換介面,為此,我們開發了指令行功能。您可以透過指令行功能即時呼叫《簡繁大師》進行檔案、資料夾簡繁轉換。指令行功能僅在《標準大師》標準版中提供,其他版本《簡繁大師》不提供此功能。關於指令行功能的具體細節請參考:

 

附錄 3. 指令行指南(《簡繁大師》標準版專屬功能)

 

批量轉碼

 

1)用資料夾轉換代替「批量轉換」

 

有些不明真相的使用者希望我們能提供批量轉碼功能,原因是有些檔案需要轉換,還有些檔案不需要轉換,一個個挑出來轉換太麻煩。實際上這些使用者之所以提出此類要求,往往是因為對資料夾轉 碼的強大功能瞭解不足所致。

 

請注意,我們提供的資料夾轉碼功能可以對資料夾下所有各級子資料夾進行轉換,而且轉換時會自動辨識文字檔,該轉換將只轉換文字檔,您可以選擇將 Word、圖片、壓縮檔案等非文字檔複製到目的資料夾下的相同位置。這樣,如果您有一個簡體網站(一個網站一般就是一個資料夾)需要轉換成繁體,或有一個繁體網站需要轉換成簡體,只需要對這個資料夾實施資料夾轉換即可,轉換完成後,所有連結關係都可以正確保留,而非文字檔也直接複製到相關位置。既然一次性什麼都搞定了,還要「批量轉換」有什麼必要?

 

如果您有多個檔案或多個資料夾下的內容需要轉換,只需要將它們複製到一個資料夾下,然後對這個資料夾進行資料夾轉換,也可以一次就解決了。

 

所以大多數普通使用者並不需要特別的批量轉換功能,現有的資料夾轉換功能就已經足夠方便了。

 

2)用指令行介面實現批量轉換

 

有些使用者出於某些特殊的原因,仍需要專門的「批量轉換」功能,建議這些使用者購買《簡繁大師》標準版。您可以利用標準版支援的指令行功能實現批量轉換。您只需要參照我們提供的樣本批次檔(以下連結的最後有樣本批次檔的下載網址),將樣本批次檔中的原始檔+目的檔案或源資料夾+目的資料夾的路徑換成您指定的檔案或資料夾路徑即可。每條指令為一行,一個批次檔可包含任意多行。您可以為每行轉換設定不同轉換參數,可以即時更換轉換包。

 

進一步細節請參考:

 

附錄 3. 指令行指南(《簡繁大師》標準版專屬功能)

 

1.5 Unicode 相關轉換 - 在 Unicode/Unicode BE 和 GBK/Big5/UTF-8 之間轉碼


如果您在 NT/2000/XP/2003/Vista 等系統下從網頁上複製文字,或在 Windows XP 下用 Notepad 編輯文字,您所處理的資料是 Unicode 格式的資料。有時您在這類系統下貼上到簡繁大師或其他傳統軟體編輯方塊上的文字變成了????,就是因為您貼進來的不是 GBK 或 Big5,而是 Unicode 格式的文字。

 

如您需直接對 Unicode 格式的文字進行簡繁轉換,可以使用《簡繁大師》剪貼簿轉碼功能,從中選擇簡體(Unicode)->繁體(Unicode)或繁體(Unicode)->簡體(Unicode)。

 

如果您需要編輯剪貼簿中的 Unicode 文字,可以用上下工具列中的 U->G 或 U->B 按鈕將其轉為 GBK 或 Big5 編碼,再貼入編輯區中進行編輯。編輯完成後,可以用工具列上的 A->U 或 AA->U 按鈕將編輯區中的全部或選中文字複製到剪貼簿中,再用 G->U 和 B->U 按鈕將其轉成 Unicode 格式。如您在某編輯區中的語言編碼為 GBK,則 U->G 和 G->U 可用,如語言編碼為 Big5,則 U->B 和 B->U 按鈕可用。如您想在 U->G / G->U 和 U->B / B->U 之間進行切換,您只需切換該編輯區的語言編碼即可。

 

如果有需要,您也可以利用剪貼簿轉碼功能在 Unicode/Unicode BE 和 GBK、Big5、UTF-8 之間轉碼。

 

1.6 智慧詞彙修正
 

《簡繁大師》提供智慧詞彙修正功能,可以進一步提高轉碼精度。

 

經過詞彙修正的轉碼效果要比沒有經過詞彙修正的轉碼效果好得多。

1. 部分簡體字如「製」-「制度」、「複製」,在繁體中文中根據使用環境不同,可將對映到不同的繁體字,如「制度複製

從繁體向簡體轉碼時也時有這樣的情況出現。如繁體中的「」-「你看著我著作,在簡體中文裡就是你看著我著作

2. 現代漢語中的一些新名詞和日常用法,在簡繁體中也往往有所不同。如英文的 modem(上網用的「貓」),在簡體中文中的正式名稱是「數據機」,在繁體中文中,則稱之為「資料機」。

透過詞彙修正技術可以實現以上轉碼要求。除實際的詞彙差異外,您也可以合理利用詞彙修正技術在合適的時間對您想改的任何內容進行調整。

 

 

圖 UG-1-9 按一下「轉碼」子功能表下「詞彙修正」指令,可以開啟詞彙修正主介面。頂端的清單和按鈕組可用於詞彙修正包的管理(新增、移除、編輯、套用等)。左下角說明按鈕旁的 4 個按鈕可用於實現詞彙修正庫的融合、有效性檢查/錯誤自動修正,及在一個或所有庫中搜尋指定詞彙。右下角的按鈕組可用於詞彙修正庫的管理。當你把滑鼠放在任何一個元件上時,最底端的狀態列中可以顯示相關說明。

 

 

圖 UG-1-10 編輯詞彙修正庫。您可以在此編輯語彙修正庫。只有當您選擇「套用本庫」時,轉碼時才會呼叫這個庫。如果此詞庫內碼與當前作業系統內碼不一致時,可能無法正確顯示,但選中項目的兩個詞可以在清單上的編輯方塊中正確顯示出來。如果您不喜歡這樣一個詞一個詞進行編輯,您可以按一下清單右側圈中的檔案圖示,新開一個《簡繁大師》對這個庫內的內容進行全文編輯。全文編輯應在本對話方塊開啟時進行,全文編輯結束並儲存變更結果後,《簡繁大師》會提示您可用全文編輯的結果取代當前庫。和圖 UG-5-11 所示一樣,您也可以在此對話方塊中對進行有效性檢查,只不過這裡僅對當前庫檢查/修正。打勾的按鈕可幫助您發現錯誤時自動修正錯誤,或指導您修正錯誤。

 

詞彙修正庫共有兩組 - 一組繁體庫用於簡轉繁時的修正,一組簡體庫用於繁轉簡時的修正。

 

《簡繁大師》安裝後,將為每組庫提供 6 套系統庫,另加幾個自訂專業庫。

 

您不能移除系統庫,但可以編輯它們。不過如果您不是這一行的專家,建議您不要動 系統庫。如果您有自訂詞條的需要,可以建立自己的修訂包並在其中維護一個或幾個自訂修正庫,詳情請參考附錄 2. 詞彙修正引擎自訂攻略。以下為系統庫和一些常見自訂庫的簡要說明。

 

精致工作室對《簡繁大師》簡繁轉換引擎的改進一直在持續不斷地進行,可能為了提供更好的轉換效果而隨時更新系統庫和自訂庫,恕不另行通知。

 

系統庫:

基礎庫:基礎庫對不同語境下的單字進行修正。本庫是 GBK 和 Big5 碼表間詞彙修正的核心。基礎庫對簡繁體間一對多的問題進行修正。

習慣用語修正基本庫:由於幾十年的分隔和缺乏交流,兩岸對一些相同或相似的事物或行為採用了不同的詞彙加以描述。如大陸所稱的「軟體」,「硬體」,在港台一般稱之為「軟體」,「硬體」。本庫收錄這種存在差異的詞彙中的常見詞。它提供簡繁體間不同習慣用語的對應表。

習慣用語修正基本庫 2:對習慣使用者修正基本庫未能修正的詞彙進行補充修正。

最終修正庫:同時使用多個庫時,理論上可能存在極少量意想不到的情況————可能某一庫中一個待修正詞,或它的一部分在修正前已經被另一個庫,或本庫前面的一個詞取代了;或修正後又被本庫後面的詞或後面庫中的某一詞取代或取代了一部分,致使少量修正要求未能正確實現。請把本庫放在庫清單的最後,並在其中新增相關項目,對你發現的這種意外情況進行最終修正。

最終修正庫 2:對最終修正庫未能修正的詞彙進行補充修正。

最終修正庫 3:對最終修正庫 2 未能修正的詞彙進行補充修正。

 

自訂庫:

IT 庫:提供 IT 行業專業詞彙的修正。

IT2-4 庫:對 IT 庫未能修正的詞進行補充修正。

Windows 庫:對 Microsoft Windows 中特有的詞進行修正。

Windows2 庫:對 Windows 庫未能修正的詞進行補充修正。

Network 庫:對網路相關的詞進行修正。

Network2 庫:對 Network 庫未能修正的詞進行補充修正。

 

自訂最終修正庫:

HongKong 庫:香港地區繁體使用者的語言習慣與台灣略有不同,本庫針對香港使用者的習慣提供附加修正。

 

使用者需要注意的一點是,詞彙修正庫的應用順序是按表 UG-5-10 中所示從上向下順序套用。如您發現某一個庫引發了什麼問題,您可以在它下面的庫中進行更正。

 

關於詞彙修正的進一步資訊,請參考附錄 2. 詞彙修正引擎自訂攻略

 

1.7 如何利用《簡繁大師》實現完美品質轉碼


透過合理利用包管理功能,即可輕鬆實現完美或基本完美的簡繁體轉碼。

 

一般性建議

 

1。請熟悉《簡繁大師》所提供的詞彙修正包及詞彙修正庫清單。合理利用現有庫或包將有助於您為自己的項目實現高品質轉碼。

2。一般情況下,建議不要變更系統庫或我們提供的其他修正庫。如您需要新增自訂修正詞條,建議新增在自訂最終庫中,這樣《簡繁大師》的引擎升級後,您的庫不會受到影響,並便於於維護。

 

普通轉碼工作

 

對於普通的轉碼工作,請套用「預設庫」。對於與 IT 相關的轉碼工作,請套用 IT 庫。即可對大多數轉碼工作實現專業品質轉碼。

 

專業轉碼工作

 

實現完美品質轉碼的關鍵在於兩點:

1。為每一項重要的轉碼工作特別建立一個私人修正包。利用此包將您為此工作所做的庫選配和修正設定儲存下來,統一管理。調配好這個包後,您需要為此工作進行轉碼時,只需套用此包即可實現專業品質的轉碼。

2。在此包內,針對您的工作為 GBK 和 Big5 轉碼需求分別組態 1-2 級自訂最終修正庫。

 

其他建議:

3。熟悉併合理利用《簡繁大師》《簡繁大師》安裝套件中提供的系列修正庫:

a) 瞭解這些庫(分 GBK 和 Big5 兩組,每組包括 6 個系統庫,幾個主題自訂庫,幾個主題最終修正庫)是做什麼的。

b) 一般情況下,請套用全部 6 個系統庫。預設情況下它們都被設為套用,不要隨意關掉它。

c) 如果您要對 IT 類的文獻進行轉碼,請套用簡體 IT 庫和繁體 IT 庫。IT 庫的的詞彙均經過仔細調研,可以較好地對 IT 類檔案進行修正。如果轉碼的物件不是 IT 類文獻,沒有必要套用 IT 類庫。

d) 安裝套件中還有幾個自訂最終修正庫,如有需要,也可選用。

4。合理利用您的自訂最終修正庫:

a) 您可在此存放您為您的工作特別修訂的修正詞對。如果一級修正未能達到目的,可以在二級庫中進行補充修正。

b) 可以自訂字串對對簡繁體站台中的不同連結進行修正。如簡體庫中的許多連結是"...\gb2312\abc.htm",而到了繁體中變成"...\big5\abc.htm",您可以在您的自訂修正庫中加一條"\gb2312\"->"\big5\",即可以在轉碼過程中直接對其進行變更,而不必在轉碼結束後再手工調整。

 

關於詞彙修正的進一步資訊,請參考附錄 2. 詞彙修正引擎自訂攻略

 

1.8 背景知識:簡體中文、繁體中文、GBK、GB2312、Big5、UTF-8、Unicode 和 Unicode BE
 

簡體中文和繁體中文

 

在 20 世紀上半葉,當時的國民政府就曾考慮過要精簡漢字,讓漢字的學習、書寫更容易,以利於國民教育的普及。但由於時局不穩,這一計畫未能最終實施。

 

1949 年以後,兩岸政局相對穩定,在大陸的中華人民共和國政府組織了專家委員會,在 50 年代到 70 年代期間基本完成了漢字的簡化工作。簡化的主要是高頻字,大部分簡化漢字或偏旁都是將兩個或幾個相近字/偏旁合併為其中一個較簡單的,其他被簡化的漢字/偏旁,也往往在古漢語(很多來自草書)中有所依據,憑空造出的漢字或偏旁只佔簡化字中的很少一部分。而在台灣的政府一直未進行漢字簡化工作。從此就有了簡繁漢字的區別。

 

由於進行漢字簡化時往往會將兩個、三個甚至更多漢字合併為一個漢字(採用的漢字一般書寫相對簡單些)的情況,所以在簡體字和繁體字的對應關係中,經常有多繁對一簡的關係。另外,由於兩岸從 1949 年以來社會文化的隔閡,在 1949 年以來產生的新詞中,有相當比例在簡繁中文中以不同方式表述,這是簡繁中文的另一重要區別。

 

現在,中國大陸、新加坡和馬來西亞都採用簡體中文作為官方中文加以普及,而台灣、香港、澳門則採用繁體中文。在其他國家/地區的海外華人中,老一輩華人用繁體字較多,新生代,尤其是不少近年來從大陸移民出去的華人,也有很多用簡體中文的。由於最近二三十年來的頻繁文化交流,大多數中文使用者都能同時辯認簡繁中文,但書寫和閱讀習慣上的差異並非輕易可以改變。對於簡體中文起主導作用的主要是中國大陸,對於繁體中文起主導作用的主要是台灣。另外,香港在繁體中文的使用習慣上也有一定自己的特點,但其影響明顯小於台灣繁體的影響。最近幾年來,繁體在台灣經常被稱為正體中文,表示這種未經簡化的中文是「正宗原版」的中文。

 

GBK/GB2312/Big5

 

電腦字元編碼在 20 世紀末至 21 世紀初經歷了從單位元組(即 ANSI 編碼)向雙位元組(Unicode)編碼的轉變。Windows 9x 以前的 MS 作業系統都主要採用單位元組(ANSI)編碼儲存、傳輸、處理檔案和其他資料,其一個位元組的長度為二進位 8 位元,共有 2 的 8 次方,總計 256 種基本字元。而早期的 Windows NT 和後來的 Windows 2000 以後的作業系統則以雙位元組為內核。在單位元組的簡體中文系統中,中文以 GBK 編碼表示。而在單位元組的繁體中文系統中,中文以 Big5 編碼表示。這是兩套分別由不同人編訂的編碼,相互之間沒有什麼直接關係。

 

在單位元組系統中,一個漢字由兩個值為 1-255 的 ANSI 字元表示,該漢字以哪兩個 ANSI 字元表示,這兩個字元就是這個字的編碼。GBK 編碼的標準是中國大陸審訂的,共收有 約 2.2 萬漢字,其中既包括簡體中文字,也包括了基本完整的繁體中文字,所以 GBK 實際上是一個簡繁中文的合集。Big5 編碼是台灣審訂的,共有約 1.3 萬中文,只收錄繁體中文中有的字,很多隻出現在簡體中文中的簡化字未被 Big5 編碼標準收錄。

 

GB2312 可以說是 GBK 的前身,它是一個 6000 多字的簡體中文高頻字集,早期在一定範圍內被採用過。在一篇日常的簡體中文文章中,在不計重複的情況下,可能其中 98%-99.5% 的漢字屬於 GB2312 字集。隨著資料字數的增加,總會有一些不屬於 GB2312 字集的漢字出現,所以在絕大多數系統中,它早已被收字更全的 GBK 字集全面取代了。GBK 字集並沒有改變 GB2312 中出現的漢字的編碼,只是另外補充收錄了大量其他漢字和符號。GBK 對 GB2312 的擴充主要包括三方面:(1)全面收錄了 Big5 字集中的漢字;(2)補充收錄了一些其他偏冷漢字;(3)補充收錄了一些標點符號。由此可見,GBK 字集包含,也全面相容 GB2312 字集。由於這一原因,也許也有 GB2312 先出現,先入為主的原因,今天我們仍能在各種電腦資料中大量看見 GB2312 的名稱,但現在出現 GB2312 的地方,實際上所用字集基本已經清一色採用了 GBK 字集。GB2312 只是延用了過去的名稱。

 

Windows NT 和 2000 以後的雙位元組系統除了支援雙位元組檔案/資料格式,也相容支援單位元組資料。在 2000 以後的簡體中文系統中,資料經常也可以以單位元組的 GBK 編碼儲存,而繁體中文系統中的資料也經常可以以單位元組的 Big5 編碼儲存。

 

Unicode/Unicode BE/UTF-8

 

Windows 2000 以後的雙位元組 Windows 作業系統採用了 Unicode 編碼。Unicode 是一種雙位元組(或說寬字元)編碼,一個 Unicode 字元有原來單位元組字元的兩個字元那麼長,共有 256*256=65536 種 Unicode 字元。由於 Unicode 容量較大,它在制訂時也經過了各國語言專家聯合商議,Unicode 編碼在制訂完成時就收錄了所有主流語言的所有字元(當然也包含了簡體中文和繁體中文中的所有字元),它可以算地球上所有主流語言各種各樣字元的合集。如果一個漢字同時存在於簡體中文和繁體中文中(如果一個常用漢字在簡體中文中沒有被簡化,就會出現這種情況),它在 GBK 和 Big5 中具有不同的編碼,但在 Unicode 中則只有一個編碼。實際上由於 GBK 包含了幾乎所有 Big5 字元,Unicode 基本是參照 GBK 收錄中文字元的。

 

Unicode BE 是 Unicode 的另一種編碼形式,簡單地說,一個 Unicode BE 字元就是把相對應的 Unicode 字元的前一半和後一半換個位置重新組裝形成的。

 

由於很多 Unicode 字元不被 ANSI 系統辨識(比如,值為 0 的 ANSI 字元在 ANSI 系統的檔案和字串中都表示終結符,所以 0 值不能出現在檔案或文字資料塊的中間,但如果把一個 Unicode 寬字元簡單地從中點斷開拆成兩個 ANSI 字元,就會拆出很多 X+0 或 0+X 的組合來,會出現很多不合法的 0 字元),所以並非所有 Unicode 字元可以簡單地直接前後拆開儲存為兩個 ANSI 編碼字元。UTF-8 應運而生,它是與 Unicode 對應的相容 ANSI 的檔案/文字儲存形式,Unicode 轉換為 UTF-8 時,透過一定規則,將一個雙位元組 Unicode 字元儲存成 1 個或 2 個或 3 個單位元組字元,這樣就可以將 Unicode 資料完整無缺地儲存為相容 ANSI 的單位元組編碼資料。

 

所以 UTF-8 的本質就是 Unicode 編碼,但它可以同時相容單位元組和雙位元組系統。UTF-8 是雙位元組時代最重要的檔案儲存格式。