ocr + api любой ллмки. немного не понимаю, что тебе конкретно нужно, но при желание это всё можно через omni-модели сделать. как пример документация gpt: https://platform.openai.com/docs/guides/images-vision#analyze-images