2007年9月17日星期一

The Porter Stemming Algorithm


    一个词根还原算法,作者在这个网上给出了不同语言版本的实现。原来这个算法这么古老啊。1979年就有了,最先用的那个语言BCPL,也已退出业界很多年了。1979年,中国刚开过78年的某次会议,在拨乱反正吗?我不知道,我得再等4年才来到这个世界。
相比中文,那些英语的it工作者还是相当幸福的,不用这么痛苦地去处理中文分词,也没有那些乱七八糟的乱码问题。

没有评论: