从图片中提取文字曾经是个手艺活,也是名副其实的脏活,OCR(Optical character recognition)引擎各有所长,一类是借助网络API来实现,例如调用 Google OCR 接口的 RoogleVision 包,当然 API 用多了你得付费;另一类则是本地使用原生训练好的开源模型,Tesseract 就是一个支持多国语言识别的 OCR 引擎,同名的 R 包可配合 magick 包进行图片文字的提取,进一步配合分类神器 taxize 包,你可以逐步实现基于图片文本的分类。这篇文章就展示了读取鸟类手绘图片然后通过文字识别进行自动分类识别的过程。
链接:https://ropensci.org/blog/2018/08/28/birds-ocr/