金融界2024年12月25日消息,国家知识产权局信息显示,上海笛量智能科技有限公司申请一项名为“一种面向大模型应用的PDF识别与预处理方法”的专利,公开号CN 119169651 A,申请日期为2024年9月。
专利摘要显示,本发明公开了一种面向大模型应用的PDF识别与预处理方法,包括如下步骤:S1、文件读取与初步处理:读取并处理PDF文件的内容;S2、文档内容替换:使用LLamaIndex进行文本段的识别与提取,并将其替换为PDFPlumber提取的文本内容;S3、页与页之间内容的重叠处理:从第二页开始,将上一页的内容尾部与当前页的内容头部进行拼接;S4、节点制作与处理;S5、初步分割;S6、向量化处理:计算嵌入向量余弦相似度,并转化为余弦距离;S7、阈值设定与语义分割:设置距离阈值,将文本分割成多个段落;S8、文本段总结与存储;S9、表格的处理;S10、图片的处理。本发明采用PDFPlumber库、OCR及语义分割技术,实现PDF内容高效预处理,具备数据准确性高、处理效率高及应用范围广的优点。
本文源自:金融界
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.