這是我整理出來的一份漢字字頻表。 包含漢字10029個。文件採用utf-8編碼,換行符為LF,每個漢字一行, 數字是對應漢字在文庫中出現的次數。漢字和數字由一個空格分隔。
語料文庫是我自己從網絡整理而來的,包含小說,雜誌,科普圖書,論壇帖子等,共計1億多個字符(文本大小300M)。由於語料原自網絡,受中國網站普遍採用GB2312,GBK,GB18030等漢字編碼影響,這些編碼表內的漢字字頻可能會普遍偏高。
字頻表文件下載點這裡。 大家可免費使用, 引用請用鏈接註明來源。 謝謝。
以下為出現概率最高的50個漢字(漢字字頻表 樣本):
的 3297023 一 1457301 是 1351322 不 1180802 了 1101932 我 884389 人 882330 在 796515 有 755533 這 728119 他 701933 來 544986 個 520640 上 481779 說 458096 中 449878 大 449758 為 419182 到 407893 也 395184 道 394611 你 393258 們 379450 出 367683 就 367473 時 352665 以 345967 之 339852 那 333349 和 324230 子 324078 地 319636 得 318594 自 315037 要 313208 着 306309 下 304634 可 292302 而 290081 學 289069 過 288254 生 287163 會 279275 對 277443 么 275780 然 275628 她 270942 國 261907 去 258723 里 254783
轉載請註明: 轉自船長日誌, 本文鏈接地址: http://www.cslog.cn/Content/word-frequency-list-of-chinese/zh-hant/
字頻表有什麼特別的用處么?
對少部分人有用吧。
感謝提供!
謝謝分享。