【更新】对不起大家qwq之前的正则表达式提取汉字和删人名的部分有点问题!!!现在已经修复过来了!!!口语语料库总有效字数10***62字!中国人说的“是”字最多。
不是“的”也不是“了”。
“的”仅仅排第三,“了”字甚至没有进前十。
这个问题不能直接照搬现有的字频数据啦。
既然题主问的是“中国人 说哪个字最多”,那么我们不能统计书面语语料,必须统计口语语料,甚至使用聊天记录都会有一定的偏差,因为我们打下的字不一定…。
{dede:pagebreak/}
一个人在周末做什么最享受?
在武汉,你们的找对象标准是怎样的?
手机存储器为什么会出现速度倒挂的现象,外存比内存快?
以色列为什么突然敢打伊朗了?不怕被报复?
docker真的好难用啊,为什么说它移植性好啊?
为什么小男孩小时候要比小女孩难养好多?
男医生在给年轻靓丽的女性检查时会是什么心态?
谁能解释一下到底什么叫“***努力”?
如果世界是虚拟的,当两个镜子对面放,将会无限反射,会不会将 cpu 算力耗光?
非计算机专业,好奇为什么会出现“程序依赖bug运行”的情况?
Rust使用?多次传播错误后,怎么定位最开始发生error的地方?
国产数据库有什么坑?
Node.js是谁发明的?
PHP现在真的已经过时了吗?
雷军为什么不愿意用性价比打法进军NAS?
汤姆·克鲁斯在国外算几线?