《簡繁大師》使用者指南
8.
調整介面佈局 內容表 附錄 1.
快速鍵清單
9. 實用工具
9.1
簡繁英文字、檔案、資料夾字詞統計
1)
編輯區文字字數統計
2) 檔案/資料夾字詞統計
3) 簡繁大師與 Word
在字詞統計上的差異
9.2 字頻統計
9.3
文字差異檢查
9.4 行排序
9.5
冗餘行管理
9.6
中英文詞彙表管理 - 詞條合併、分割、交換等
9.7 從 GBK/Big5/Unicode 漢字轉換為十進位/十六進位 Unicode 程式碼
9.8 簡繁英頁面清理
9.9 術語管理系統
9.1 簡繁英文字、檔案、資料夾字詞統計
此功能可在「工具」功能表下找到。
1)
編輯區文字字數統計
您可以使用工具功能表下的「字數統計」指令統計當前編輯區中文字的字數,如當前活動編輯區是上區,則將統計上區文字,如當前活動編輯區是下區,則將統計下區文字。如該編輯區中有文字被選中,則將只統計選中部分的資料。
統計的封包括:
1)檔案資訊:檔案位置、建立時間/變更時間/存取時間、各種檔案內容(唯讀/隱藏/存檔/系統);
2)字、詞、段落、行統計:字元數(全部/ANSI,即檔案/文字長度)、字元數(全部,每個全形字元算作一個字元)、字元數(不含空白)、字元數(含空白)、字數(全部)、字數(非中文單字/半形字元)、字數(中文字元和韓文單字)、段落數(指非空自然段的數目)、行數(指所有自然段的數目,包括空行)。
統計完成後,使用者可以按對話方塊右下角的「文字報告」,檢視純文字格式的統計報告。
2)
檔案/資料夾字詞統計
按此指令後,將彈出一個檔案/資料夾
統計對話方塊。您最近統計過的檔案或資料夾將顯示在路徑清單中。您從清單中選擇的路徑或輸入路徑編輯方塊中的路徑如果近期統計過,其統計結果將直接顯示在統計資訊方塊中。軟體自動保留一定天數以內的統計資訊,您可以在軟體的「工具
> 選項」對話方塊中設定設定下拉清單中路徑數的最大值以及統計資料保留的天數。
您可以手工輸入、貼上進路徑,可以透過檔案/資料夾開啟對話方塊選擇路徑,也可以從檔案總管中拖入一個或多個路徑進行統計。如您輸入的路徑已經統計過,則統計資料將會自動顯示在統計資料方塊中,不必再次統計。如您輸入的路徑為有效路徑,輸入後,軟體會即時偵測該檔案的編碼、語言、檔案大小和上次變更時間,並顯示在下面的狀態列中。
採用拖曳方式時,可以一次性拖入多個檔案或資料夾進行統計,多個檔案統計完成後,您可以在檔案清單的頂部找到這些檔案位置,選擇任一路徑後,相關統計資料即會在下面的統計資料方塊中顯示出來。
如果您提交統計的是一個文字檔,將統計該檔案,如果提交統計的是一個資料夾,將統計整個資料夾下(包括所有各級子資料夾下)的所有文字檔。非文字檔將被自動略過。
統計完成後,將彈出統計結果報告。報告包括每一檔案偵測到的檔案編碼、語言、ANSI 字元數(即檔案長度)、總字元數(計入歸位字元的總字元數,一個中文字元按一個字元統計)、字元數(不含空白)、字元數(含空白)、總字數(即單字數)、字數(非中文單字/半形字元)、字數(中文字元和韓文單字)、段落數(非空自然行)和行數(所有自然行,包括空行)。報告最後提供以上這些統計資料的總計資料。
當偵測到的語言編碼為簡體中文(GBK)或英文時,該檔案的統計結果將與 Word 簡體中文版統計結果一致,而當偵測到的語言編碼為繁體中文(Big5)時,統計結果將與 Word 繁體中文版統計結果一致。如軟體未能偵測出語言編碼(如檔案為 GBK
格式的繁體中文,或簡繁體共存,有時會偵測不出),將當作簡體中文編碼(GBK)檔案進行統計。
如您需要統計的檔案分佈在硬碟的不同位置,可以將它們複製到同一個指定資料夾下,統一進行統計。
3) 簡繁大師與
Word 在字詞統計上的差異
項目 |
簡繁大師 |
MS
Word |
說明 |
字元數(檔案長度)
字元數(總字元數,包括歸位)
|
有統計 |
未統計 |
|
字元數(不含空白)
字元數(含空白)
字數(全部)
字數(非中文單字/半形字元)
字數(中文字元和韓文單字) |
有統計
(結果一致) |
簡繁大師與相應語言版本 Word 的統計結果一致。
噹噹前編輯區編碼為簡體中文時,這些資料與簡體中文版 MS Word 的統計結果一致,而在當前編輯區編碼為繁體中文時,這些項上的統計結果與繁體中文版 MS
Word 的統計結果一致。
|
段落數 |
有統計
(結果一致) |
「段落數」指未計入空行(僅有空白字元的行也算空行)的自然段落的數目。 |
行數 |
簡繁大師統計的「行數」指所有自然行,即自然段落(包括空行)的數目。
該「行數」與「段落數」的差別在於「段落數」未計入空行(僅有空白字元的行也算空行),而「行數」則計入了空行。 |
MS Word 中統計的行數指螢幕上實際顯示的行數,即使文字未有任何變化,只要改變顯示字型大小或頁寬,Word
統計出的行數也會變化。 |
|
其他差異 |
有時,「同樣的」文字在簡繁大師和 MS
Word 中的統計資料不同。 |
有時將文字從簡繁大師複製到 MS Word 或從 MS Word
複製到簡繁大師中,由於兩個編輯器編碼不同,在這兩個方向上的複製+貼上都可以引起部分字元變化(比如全形變半形,或半形變全形),變化的一般都是些不重要的字元的形態。
由於文字發生了細微的變化,所以統計值不同。
如您來回各複製+貼上一次,則一般這些差異變化就到了頭,此時再統計,你會發現簡繁大師和
Word 在字元數、字數和段落數上的統計值是一樣的。 |
9.2 字頻統計
此功能可在「工具」功能表下找到。
可以用它分析出一篇文字中出現過的所有字元及每個字元出現了多少次(字頻)。字頻資料可按自然順序(即以字元在 Unicode
字集中的值排序)或按字頻正向或倒向排序。
字頻統計對於經常需要對中文件案進行編輯、校對,高度關注文字品質的人士具有重大說明。一般中文件案中用到的漢字不到4000個。如選擇按自然順序排序,半形英文的數字、字母和標點率先出現,其後是全形中文,其中字元、常用簡體字、繁體字和罕見字又會分區列出。如果您的檔案是純中文件案,如果其中出現半形英文字元或不常用字元、亂碼,一眼就能看出。另外,如果透過字頻排序,從低頻字中很容易發現一些不該出現的字元,錯別字往往就在其中。發現可能存在的問題後,可以透過全文尋找功能定位錯誤並加以變更。
您可藉此指令對照檢查上下區中文字內容的差異,檢查結果中將顯示有差異行的行號和內容。
本功能統計的物件是當前編輯區中的文字。如果游標在上編輯區,統計針對的就是上編輯區中的文字;而如果游標在下編輯區,統計的物件就是下編輯區中的文字。
9.3 文字差異檢查
此功能可在「工具」功能表下找到。
您可藉此指令對照檢查上下區中文字內容的差異,檢查結果中將顯示有差異行的行號和內容。
使用此功能時,上下區語言及字型應一致。如您使用較小的字型,介面調到較寬,可以很容易找出有差異的行。如您將介面調得較窄,則可方便找出具體不同之處。
9.4 行排序
此功能可在「工具」功能表下找到。
使用此指令,可分別對上下編輯區、上下編輯區中的選中內容或剪貼簿中的內容按行正向或反向排序。
9.5 冗餘行管理
此功能可在「工具」功能表下找到。
本指令可用於分析或移除完全一樣的冗餘行。
作用物件:上下編輯區、上下編輯區中的選中內容,或剪貼簿中的內容。
操作:1。分析重複行;2。移除重複行。
得到分析結果後,點「詳細」,可檢視重複行的具體內容和每組重複行中多餘行的數目。
選擇移除冗餘行的結果,是對同一組重複行保留第一次出現的行,以後出現的完全一樣的行將被移除。
9.6 中英文詞彙表管理
- 詞條合併、分割、交換等
本指令有助於按不同形式整理中英文詞彙表。
作用物件:上下編輯區、上下編輯區中的選中內容,或剪貼簿中的內容。
整理前的中英文詞條可為以下形式:
1)一組中英文詞彙排為上下緊鄰的兩行,可以中文在上英文在下,也可以英文在上中文在下。
2)一組中英文詞彙排一行,可以中文在左英文在右,也可以英文在左中文在右。
3)同一行有多組中英文詞彙連續排列。
整理的結果,也可以是以上幾種形式之一。當然,相對於整理前,整理結果可以是以上幾形式中不同形式。如整理前是中英文在同一行中連續排列,整理後改為每一組單列一行。也可能整理前一組中英文詞彙為一行,其中中文在左,英文在右,而整理後變成英文在左,中文在右等。
軟體中提供了空白、英文逗號、分號、冒號等幾種分隔符號。如您所用分隔符號與此不同,只需在整理前或整理後進行取代處理即可。
9.7 從 GBK/Big5/Unicode 漢字轉換為十進位/十六進位 Unicode 程式碼
此功能可以在「工具」功能表下找到,名稱是「漢字轉十進位/十六進位 Unicode 程式碼」。
此功能以前稱為「百度發帖助手」,用於在百度貼吧發表繁體字貼。由於百度後來取消了相關功能介面,原功能取消。不過可能有些使用者在某些其他特定套用中仍需要將 GBK/Big5/Unicode
漢字轉入十進位/十六進位 Unicode 程式碼的功能,故改用現名並相應做了少許最佳化。
使用本功能時,您可以將 GBK 或 Big5 編碼漢字貼入「漢字源文字」編輯方塊中並自動轉換,也可以以事先複製到 Windows 剪貼簿中的
Unicode 格式文字作為源文字,然後手動轉換。
將轉換結果貼入網頁程式碼,在網頁顯示時可以顯示相關漢字。例如,漢字「街道」轉換出的十進位和十六進位程式碼分別為「街道」和「街道」,如將其貼入網頁程式碼中,該網頁正常顯示時將在相應位置顯示「街道」。
轉換「漢字源文字」編輯方塊中的文字
當您在「漢字源文字」編輯方塊右上的下拉清單方塊中選擇前三項「GBK(自動轉換)」、「Big5(自動轉換)」和「自動偵測編碼(自動轉換)」時,轉換時採用的源文字將是「漢字源文字」編輯方塊中的文字,該編輯方塊中的編碼相應分別為
GBK、Big5
和由軟體自動偵測。採用此模式的好處是所見即所得,您可以在「漢字源文字」編輯方塊中根據自己的需要視覺化編輯最終需要顯示的文字。您編輯時,下面的程式碼方塊中將同步自動生成相應的程式碼。編輯檢查完成後,按一下下面的「複製」按鈕複製程式碼,然後貼入百度貼吧或知道發出即可。
轉換剪貼簿中的 Unicode 格式文字
當您在「源文字」編輯方塊右上的下拉清單方塊中選擇最後一項「使用剪貼簿中的 Unicode
格式文字」時,轉換時採用的源文字將是剪貼簿中的文字,該文字的格式應為 Unicode 格式。只要您使用的不是古老的 Windows 98/Me,而是
Windows 2000 以後的各種作業系統,您從 Windows 的記事本等自帶軟體介面、Office 和網頁上直接複製來的文字都是 Unicode
格式文字。
採用此模式時,您需要手工點一下程式碼方塊上方的「轉換」按鈕才會進行轉換。
採用「漢字源文字」編輯方塊中的文字為源文字時,源文字只支援 GBK 和 Big5 字集中的字元,而採用剪貼簿中的 Unicode
格式文字做為源文字時,可以支援整個 Unicode 字集,可轉換的字元將更多更全。
「十進位」和「十六進位」
如您選左下角的「十進位」,輸出程式碼將顯示為 5 位長十進位碼。如果您選擇了「十六進位」,輸出程式碼的形式將是 4 位長十六進位程式碼。預設格式為
十進位。
9.8 簡繁英頁面清理
執行
頁面清理功能並不位於「工具」功能表下,而是隨附於「批量取代」功能中。執行方法是:
1)開啟上編輯區的「尋找/取代」對話方塊(可透過「編輯」功能表中的相應指令或上工具列上的相應按鈕開啟)。上編輯區中需要有文字,才可開啟此對話方塊,如果上編輯區中沒有文字,可以自己貼一些進去。
2)按「批量取代」按鈕,開啟「批量取代」對話方塊。
3)按「開啟」按鈕,會彈出一個路徑下拉清單,對於新安裝的軟體,這裡會有 3 個預設清理巨集,分別是 page clean.txt(英文頁面清理巨集「Page Cleaning」)、page
clean-GBK.txt(GBK 格式中文頁面清理巨集「Page Cleaning for GBK」)、page clean-Big5.txt(Big5 格式繁體中文頁面清理巨集「Page
Cleaning for Big5」)。需要哪個,選用哪個即可。
功能
英文頁面清理巨集「Page Cleaning」用於清理純英文文字,另兩個分別用於清理和規範 GBK 和 Big5 編碼的中文文字,適用於整理基本為全中文的文章段落內容(不推薦採用中文巨集清理英文或中英混合文字)。三種巨集在製作時分別參考了英文和中文語系專家的專業意見,針對三種語言(編碼)使用相應清理巨集,可使雜亂、不規範的的英中文字在標點、空白、段落佈局上迅速變得規範、整潔。
自訂私人清理巨集
如果您有特殊頁面清理要求,可以在相應標準清理巨集的基礎上,製作供自己私人的自訂清理巨集。
您只需變更巨集路徑並加以儲存,就可以將標準巨集另存新檔自己的私人巨集。然後您就可以在此基礎上修訂巨集名稱、描述及此批次巨集中的各項操作,經數次測試修正,使其達到自己的特殊清理要求。這樣做成了您自己的私人清理巨集。
9.9 術語管理系統
本軟體的詞彙修正系統(「轉換」->「詞彙修正」)本身就是一個一流的術語表管理系統。
可實施項目包管理,每個轉換包就是一個術語項目包,包下可管理多個術語庫。每個項目包自成體系,僅由一個簡單的文字格式項目包管理檔案(後置詞為.stcp)和一個或多個文字格式庫(詞彙表)檔案構成,便於移轉、共用
。在檔案總管中按兩下 .stcp 即可載入此項目包。也可以在詞彙修正主介面上部的包清單中選擇它。
可以方便地新增、變更、移除、尋找/搜尋、剪下、複製、貼上詞條。新增、修訂詞條時會自動查重,保證不會在同一庫中重複新增。術語在庫(即詞彙表)中已自動排序,與庫(詞彙表)對應的源文字即是一個排序好的
詞彙表文字檔。
每一詞條可包括術語、解釋和註釋三部分。「編輯詞條」對話方塊針對術語表詞條的編輯進行過專門最佳化,介面大小可調整,可以顯示或隱藏註釋部分,介面最小時只顯示幾行,精巧玲瓏,最大時解釋部分可以完全顯示
1000 個漢字或 300 個英文單字。
術語庫可以方便合併(兩個原始檔簡單地拼起來即可),合併完成再開啟後會自動整理,如有重複,會彈出詞條合併精靈,指導您逐條合併。
|