汉字字频表

这是我整理出来的一份汉字字频表。 包含汉字10029个。文件采用utf-8编码,换行符为LF,每个汉字一行, 数字是对应汉字在文库中出现的次数。汉字和数字由一个空格分隔。

语料文库是我自己从网络整理而来的,包含小说,杂志,科普图书,论坛帖子等,共计1亿多个字符(文本大小300M)。由于语料原自网络,受中国网站普遍采用GB2312,GBK,GB18030等汉字编码影响,这些编码表内的汉字字频可能会普遍偏高。

字频表文件下载点这里。 大家可免费使用, 引用请用链接注明来源。 谢谢。

以下为出现概率最高的50个汉字(汉字字频表 样本):

的 3297023
一 1457301
是 1351322
不 1180802
了 1101932
我 884389
人 882330
在 796515
有 755533
这 728119
他 701933
来 544986
个 520640
上 481779
说 458096
中 449878
大 449758
为 419182
到 407893
也 395184
道 394611
你 393258
们 379450
出 367683
就 367473
时 352665
以 345967
之 339852
那 333349
和 324230
子 324078
地 319636
得 318594
自 315037
要 313208
着 306309
下 304634
可 292302
而 290081
学 289069
过 288254
生 287163
会 279275
对 277443
么 275780
然 275628
她 270942
国 261907
去 258723
里 254783
此条目发表在 信息处理 分类目录,贴了 , , , 标签。将固定链接加入收藏夹。

汉字字频表》有 4 条评论

  1. shzh01 说:

    字频表有什么特别的用处么?

  2. npwjm 说:

    感谢提供!

  3. jixue li 说:

    谢谢分享。

发表评论