金融界2024年4月17日消息,据国家知识产权局公告,万兴科技集团股份有限公司取得一项名为“文本表格提取方法、系统、计算机设备及存储介质“,授权公告号CN112651331B,申请日期为2020年12月。
专利摘要显示,本发明实施例公开了文本表格提取方法、系统、计算机设备及存储介质,方法包括:获取文本页面中的表格结构,并确定所述表格结构中的单元格;获取所述单元格中包含有文本数据的内容块对象,并对所述内容块对象进行划分,获得行对象列表;对所述行对象列表中的行对象进行Y轴排序,并将在Y轴方向上重叠度大于预设阈值的相邻所述行对象进行合并,并将合并后的行对象保存至所述行对象列表内;关联所述内容块对象与合并后的行对象,并获取所述单元格中文本数据并进行提取。本发明实施例通过将表格结构中的内容块对象与行对象进行关联,使每一个单元格与文本数据一一对应,更加精确的获取了表格结构,提高了转换精度。
来源:金融界