基本介绍:

1. 前言

随着大数据、云计算、区块链和人工智能等前沿技术的不断迭代和适用革新,金融科技已经开始赋能传统金融产业的业务转型,借助金融科技优化现有商业模式效率、改善客户体验已成为全球商业社会的大趋势。 复杂排版表格的自动分析作为人工智能的一项重要技术分支,可以实现从海量的数据文档中,提取有线框表格及复杂排版表格的功能,大大提高金融分析师的工作效率,该技术支持智能投研、智能风控等细分垂直领域场景的应用。

2. 产品特点、核心优势

PDFlux 是由北京庖丁科技有限公司独立研发的人工智能产品,主要功能包括金融类文档有线框表格及复杂排版表格的抽取,即从金融类文档中,抽取内含的所有表格,包括有线框表格和复杂排版的表格,并可进行复制与下载。 PDFlux 表格提取的准确率达到 99% 以上。复杂排版的表格提取是众所周知的技术难题,当前市场上已有的各类业务产品或技术解决方案,其底层技术实现方式基本分为依赖数百人团队的纯手工复制粘贴和运用半自动化工具进行表格提取再辅以人工效验。这也是现有各类金融投研或数据提供商只能提供金融文档内较常用的表格或数据更新速度滞后的原因。此类表格通常没有完整的线框,只能根据数段线条、色块以及句意,判断该表格的结构。本产品运用人工智能及深度学习技术,训练机器达到有效识别复杂排版表格的结构,从金融类文档中抽取各类结构的表格,大幅减少非结构化数据转化中的损耗,颠覆性的提高抽取表格类结构化数据的有效性。 目前 PDFlux 提供私有化部署服务及 SaaS 私有云服务(toB),以及 PDFlux 客户端、Web 版、小程序版(toC、供客户体验为主)。