Microsoft открыла исходный код Python-либы для преобразования файлов в Markdown MarkItDown — идеальное решение для конвертации файлов и офисных документов в Markdown. Подойдёт для анализа, индексации или упорядочивания данных. Что поддерживает: — PDF, PowerPoint, Word, Excel. — Изображения (EXIF и OCR). — Аудио (метаданные и транскрипция речи). — HTML (включая специальную обработку Wikipedia). — Text-based форматы: CSV, JSON, XML и другие. Плюсом можно прикрутить LLM для описания изображений. GitHub: https://github.com/microsoft/markitdown?tab=readme-ov-file