核心代码
VikParuchuri/marker 的核心是使用https://github.com/VikParuchuri/surya的 pdf 模型,注意不仅仅是ocr,在marker的代码里面有标注ocr 是option的。强制OCR 要设置:OCR_ALL_PAGES=true
核心代码就是convert.py
def convert_single_pdf(
fname: str,
model_lst: List,
max_pages: int = None,
start_page: int