山西金蝉电子商务有限公司童禹臻获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山西金蝉电子商务有限公司申请的专利用于文件的数据处理方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116010547B 。
龙图腾网通过国家知识产权局官网在2026-05-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211654256.5,技术领域涉及:G06F16/31;该发明授权用于文件的数据处理方法及系统是由童禹臻;程常清;刘福娟;邓洁芃设计研发完成,并于2022-12-22向国家知识产权局提交的专利申请。
本用于文件的数据处理方法及系统在说明书摘要公布了:本发明提供一种用于文件的数据处理方法及系统,所述用于文件的数据处理方法包括:判断一份文件是否能够直接进行文本提取,若能,则进入下一步;对所述文件进行文本提取,获取所述文件的文本内容;对所获取的文本内容利用正则匹配技术定位目标页面;将所定位的目标页面提取为图像文件;利用图像处理技术去除图像文件的页面水印;采用计算机视觉识别技术提取图像文件的页面数据,并利用版面识别技术提取页面数据的数据排布结构;以及对所提取的页面数据进行格式修正操作,完善数据排布结构。根据本发明实施例的用于文件的数据处理方法及系统,相较于单纯的文本提取法和图像提取法,能够大大提升提取效率和提取精度,并能生成结构化的页面数据。
本发明授权用于文件的数据处理方法及系统在权利要求书中公布了:1.一种用于文件的数据处理方法,包括: 步骤1:判断一份文件是否能够直接进行文本提取,若能,则进入下一步; 步骤2:对所述文件进行文本提取,获取所述文件的文本内容; 步骤3:对所获取的文本内容利用正则匹配技术定位目标页面; 步骤4:将所定位的目标页面提取为图像文件; 步骤5:利用图像处理技术去除图像文件的页面水印; 步骤6:采用计算机视觉识别技术提取图像文件的页面数据,并利用版面识别技术提取页面数据的数据排布结构;以及 步骤7:对所提取的页面数据进行格式修正操作,完善数据排布结构; 其中,所述步骤1,还包括:判断一份文件是否能够直接进行文本提取,若不能,则将所述文件的每个页面均提取为图像文件,再进入步骤5; 其中,所述步骤1还包括: 步骤8:提取所述文件前n页文本内容,n为正整数;以及 步骤9:判断所提取的前n页文本内容中是否包含m个以上字符,若是,则判定能对所述文件采用文本提取技术,若否,则判定不能对所述文件采用文本提取技术。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山西金蝉电子商务有限公司,其通讯地址为:030000 山西省太原市综改示范区太原学府园区晋阳街发展路88号华顿大厦裙楼1层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励