標籤歸檔:漢語信息處理

漢字字頻表

這是我整理出來的一份漢字字頻表。 包含漢字10029個。文件採用utf-8編碼,換行符為LF,每個漢字一行, 數字是對應漢字在文庫中出現的次數。漢字和數字由一個空格分隔。

語料文庫是我自己從網絡整理而來的,包含小說,雜誌,科普圖書,論壇帖子等,共計1億多個字符(文本大小300M)。由於語料原自網絡,受中國網站普遍採用GB2312,GBK,GB18030等漢字編碼影響,這些編碼表內的漢字字頻可能會普遍偏高。

字頻表文件下載點這裡。 大家可免費使用, 引用請用鏈接註明來源。 謝謝。

以下為出現概率最高的50個漢字(漢字字頻表 樣本):
繼續閱讀

發表在 信息處理 | 標籤為 , , , | 4 條評論