这本书由来已久,中文自然语言处理不可绕过的一本著作。但它是一个大概的脉络,一个骨架,血肉部分需要额外的补充。在学习完成了《Natural Language Processing with Python》之后,我们可以会看到这本书里面一些重复出现的主题,比如统计方面的知识,基于概率统计,规则,经验主义的一些理论。这些理论回答了部分问题,而不是整个问题。消除歧义,是我们面临最困难的问题。
这本书比较符合我们的思维模式,先充分地介绍数学理论知识,然后逐渐介绍字词句,短篇章,围绕自然语言处理的基本任务展开讨论.在介绍的同时分别引入了不同的模型.但是如果专注于理论知识,我们会发现,其实包含的数学知识很少。统计学方面的知识,加上香农的熵以及衍生的数学工作基本上涵盖了大部分工作。