微软发布了一个工具,可以把各种格式的文件转换成Markdown:markitdown。
支持格式:PDF、Word(.docx)、Excel(.xlsx)、PowerPoint(.pptx)、音频文件、YouTube视频链接。一键安装,npx getdesign@latest add XXX风格的命令走法。
核心价值:Markdown是AI大语言模型最青睐的格式,没有自定义解析器、没有损坏的布局、没有混乱的文本,只有干净、结构化的标记。
微软发布了一个工具,可以把各种格式的文件转换成Markdown:markitdown。
支持格式:PDF、Word(.docx)、Excel(.xlsx)、PowerPoint(.pptx)、音频文件、YouTube视频链接。一键安装,npx getdesign@latest add XXX风格的命令走法。
核心价值:Markdown是AI大语言模型最青睐的格式,没有自定义解析器、没有损坏的布局、没有混乱的文本,只有干净、结构化的标记。
文档格式转换是个看起来小但实际很痛的需求。大多数AI工具的输入层都要求Markdown,但企业的历史文档90%是PDF和Word。这工具如果稳定,就是RAG pipeline前处理层的最佳拍档。