這是我整理出來的一份漢字字頻表。 包含漢字10029個。文件採用utf-8編碼,換行符為LF,每個漢字一行, 數字是對應漢字在文庫中出現的次數。漢字和數字由一個空格分隔。
語料文庫是我自己從網絡整理而來的,包含小說,雜誌,科普圖書,論壇帖子等,共計1億多個字符(文本大小300M)。由於語料原自網絡,受中國網站普遍採用GB2312,GBK,GB18030等漢字編碼影響,這些編碼表內的漢字字頻可能會普遍偏高。
字頻表文件下載點這裡。 大家可免費使用, 引用請用鏈接註明來源。 謝謝。
以下為出現概率最高的50個漢字(漢字字頻表 樣本):
繼續閱讀