这是我整理出来的一份汉字字频表。 包含汉字10029个。文件采用utf-8编码,换行符为LF,每个汉字一行, 数字是对应汉字在文库中出现的次数。汉字和数字由一个空格分隔。
语料文库是我自己从网络整理而来的,包含小说,杂志,科普图书,论坛帖子等,共计1亿多个字符(文本大小300M)。由于语料原自网络,受中国网站普遍采用GB2312,GBK,GB18030等汉字编码影响,这些编码表内的汉字字频可能会普遍偏高。
字频表文件下载点这里。 大家可免费使用, 引用请用链接注明来源。 谢谢。
以下为出现概率最高的50个汉字(汉字字频表 样本):
的 3297023 一 1457301 是 1351322 不 1180802 了 1101932 我 884389 人 882330 在 796515 有 755533 这 728119 他 701933 来 544986 个 520640 上 481779 说 458096 中 449878 大 449758 为 419182 到 407893 也 395184 道 394611 你 393258 们 379450 出 367683 就 367473 时 352665 以 345967 之 339852 那 333349 和 324230 子 324078 地 319636 得 318594 自 315037 要 313208 着 306309 下 304634 可 292302 而 290081 学 289069 过 288254 生 287163 会 279275 对 277443 么 275780 然 275628 她 270942 国 261907 去 258723 里 254783
转载请注明: 转自船长日志, 本文链接地址: http://www.cslog.cn/Content/word-frequency-list-of-chinese/
字频表有什么特别的用处么?
对少部分人有用吧。
感谢提供!
谢谢分享。