下载文档
  • 数据格式说明

    除下载接口外,系统接口返回数据格式一般为 json

    http 请求提交数据时,如未特殊说明,也使用 json 格式

    接口均需要添加验证参数:_timestamp-时间戳 、_token-令牌

    请求成功
    {
      status: true,
      errcode: 0,
      msg: null,
      data: {},
    }
    请求异常
    {
      status: false,
      errcode: 1,
      msg: 'No File Found',
      data: null,
    }
  • token生成方法

    使用python3运行Get_Token.py + 对应url

    示例
    python3 Get_Token.py http://saas.pdflux.com/api/v1/saas/upload?user=####&force_updata=true
  • 页数和时间信息

    接口地址
    GET /api/v1/saas/usage?user=####
    请求参数
    参数名类型说明
    userstring用户名,必填
    返回字段
    参数名类型说明
    restnumber已使用页数
    totalnumber总页数
    trial_startstring起始时间
    trial_endstring截止时间
    示例 - 获取Token
    python3 Get_Token.py http://saas.pdflux.com/api/v1/saas/usage?user=pdflux
    示例 - 结果
    {
      data: {
        rest: 99952, // 已使用页数
        total: 100001, // 总页数
        trial_start: "2020-10-01 00:00:00", // 起始时间
        trial_end: "2020-10-31 00:00:00", // 截止时间
      },
      errcode: 0,
      msg: null,
      status: true
    }
  • 上传文件

    接口地址
    POST /api/v1/saas/upload?user=####
    请求参数
    参数名类型说明
    filefile待分析文档,必填
    返回字段
    参数名类型说明
    uuidstring文件 id,后续用于获取结果
    checksumstring文件hash
    filenamestring文件名
    filepathstring文件路径
    parsedint-1=解析异常、0=待解析、1=解析中、2=解析完毕
    created_utcint创建时间
    updated_utcint修改时间
    示例 - 获取Token
    python3 Get_Token.py http://saas.pdflux.com/api/v1/saas/upload?user=pdflux&force_updata=true
    示例 - 请求上传
    POST http://saas.pdflux.com/api/v1/saas/upload?_timestamp=1590560297&_token=bf5bd348e4a414be0aa57899878bd66c&user=pdflux
    示例 - 结果
    {
      status: true,
      data: {
        uuid: 'b75487ae-09d6-4948-bac5-7924d24bedbb',
        checksum: 'dbc325d09eb6c8af234a57fe62ae6a20',
        filename: '第二次公开募股.pdf',
        filepath: '1672345948/f6f8e0b7df6188cd30b37004bbaa2b6d_1816579.pdf',
        parsed: 1,
        created_utc: 1508467057,
        updated_utc: 1508467057,
      },
    }
  • 获取文档处理状态

    接口地址
    GET /api/v1/saas/document/<uuid>?user=####
    返回字段
    参数名类型说明
    created_utcint创建时间
    deletedint删除,0代表未删除、1代表已删除
    filenamestring文件名
    parsedint-1=解析异常、0=待解析、1=解析中、2=解析完毕
    updated_utcint修改时间
    uuidstring文件 id,后续用于获取结果
    示例 - 获取Token
    python3 Get_Token.py http://saas.pdflux.com/api/v1/saas/document/<uuid>?user=pdflux
    示例 - 请求获取
    GET http://saas.pdflux.com/api/vl/saas/document/<uuid>?_timestamp=1590560297&_token=bf5bd348e4a414be0aa57899878bd66c&user=pdflux
    示例 - 结果
    {
      data: {
        created_utc: 1534819038,
        deleted: 0,
        filename: 'xxx.pdf',
        id: 8,
        parsed: 1,
        updated_utc: 1534820149,
        uuid: 'b5a95e7a-a4ed-11e8-8a4f-8c8590cb4e8f',
      },
      errcode: 0,
      msg: null,
      status: true,
    }
  • 获取文档解析结果

    接口地址
    GET /api/v1/saas/document/<uuid>/pdftables?user=####
    解析结果中的部分字段含义
    参数名类型说明
    paragraphsstring段落元素块
    tablesstring表格元素块
    imagesstring图片元素块
    page_headerstring页眉元素块
    page_footerstring页脚元素块

    *更多字段说明见结果示例及注释

    示例 - 获取Token
    python3 Get_Token.py http://saas.pdflux.com/api/v1/saas/document/<uuid>/pdftables?user=pdflux
    示例 - 请求获取
    GET http://saas.pdflux.com/api/v1/saas/document/<uuid>/pdftables?_timestamp=1590562575&_token=bc62219c497be230697368b87930eb33&user=pdflux
    示例 - 结果
    {
        pdf_elements: [
          {
            page: 0, // 页码
            elements: [
              {
                data: '...', // 图片内容:以base64字符串体现
                page: 0, // 页码
                index: 0, // 在页面中出现的顺序
                element_type: 'images', // 类型:图片
              },
              {
                page: 0,
                text: '证 券 研 究 报 告', //内容
                index: 1, // 在当前页中出现的顺序
                element_type: 'paragraphs', // 类型:段落
              },
              ...
              {
                page: 0,
                text: '3Q19,公司营业收入 2,940...', //文本内容
                index: 5, // 在页面中出现的顺序
                element_type: 'paragraphs', // 类型:段落
              },
              ...
              {
                unit: '', // 表格单位
                cells: {
                  // 表格里的单元格
                  '0_0': {
                    value: '',
                  },
                  '0_1': {
                    // 单元格位置信息:第一个“0”代表的是行数,第二个”0“代表的是列数,”0_0"代表第一个单元格
                    value: '2018A', // 单元格内容
                  },
                  ...
                },
                index: 14,
                title: '主要财务指标', // 表格标题
                merged: [], // 单元格合并情况
                element_type: 'tables', // 类型:表格
              },
              ...
            ],
          },
          {
            page: 1, // 页码
            elements: [
              ...
              {
                unit: '',
                cells: {
                  // 单元格信息
                  '0_0': {
                    value: '(人民币,百万)',
                  },
                ...
                },
                index: 3,
                title: '图表 1、公司 2019Q3 业绩摘要', // 表格标题
                merged: [],
                element_type: 'tables', // 类型:表格
              },
              ...
              {
                page: 1, // 页码
                text: '证监会审核华创证券投资咨询业务资...', // 文本内容
                index: 5,
                element_type: 'page_footers', // 类型:页脚
              },
            ],
          },
          ...
          {
            page: 4,
            elements: [
              ...
              {
                unit: '',
                cells: {
                  '0_0': {
                    value: '地区',
                  },
                  '0_1': {
                    value: '姓名',
                  },
                  '0_2': {
                    value: '职务',
                  },
                  '0_3': {
                    value: '办公电话',
                  },
                  '0_4': {
                    value: '企业邮箱',
                  },
                  '1_0': {
                    value: '北京机构销售部',
                  },
                  '1_1': {
                    value: '张昱洁',
                  },
                  ...
                },
                title: '华创证券机构销售通讯录',
                merged: [
                  [
                    [1, 0],[2, 0],[3, 0],[4, 0],[5, 0],[6, 0],[7, 0],[8, 0]
                  ], // 表示这8个单元格合并
                  ...
                ],
                element_type: 'tables',
                index: 3,
              },
              {
                page: 4,
                text: '证监会审核华创证券投资咨询...',
                index: 4,
                element_type: 'page_footers',
              },
            ],
          },
          ...
        ],
      }
  • 下载结果 - Excel

    接口地址
    GET /api/v1/saas/document/<uuid>/excel?user=####
    请求参数
    参数名类型说明
    uuidstring文件 uuid
    返回字段

    返回内容为 excel 文件

    示例 - 获取Token
    python3 Get_Token.py http://saas.pdflux.com/api/v1/saas/document/<uuid>/excel?user=pdflux
    示例 - 请求下载
    GET http://saas.pdflux.com/api/v1/saas/document/<uuid>/excel?_timestamp=1590562650&_token=1a014dbd2c719cea3ed04f249b50e39e&user=pdflux
  • 下载结果 - HTML

    接口地址
    GET /api/v1/saas/document/<uuid>/html?user=####
    请求参数
    参数名类型说明
    uuidstring文件 uuid
    返回字段

    返回内容为 html 文件

    示例 - 获取Token
    python3 Get_Token.py http://saas.pdflux.com/api/v1/saas/document/<uuid>/html?user=pdflux
    示例 - 请求下载
    GET http://saas.pdflux.com/api/v1/saas/document/<uuid>/html?_timestamp=1590562650&_token=1a014dbd2c719cea3ed04f249b50e39e&user=pdflux
  • 报错信息说明

    目前报错信息分为三类:

    解析错误(Parsing Error)

    模型预测失败(Model Error)

    OCR 调用错误(OCR Error)

    结果示例
    {
      data: {
        created_utc: 1600080922,
        deleted: 0,
        filename: "1.pdf",
        id: 1977,
        parsed: -1,
        updated_utc: 1600080953,
        uuid: "c9689c8a-f678-11ea-a10a-00163e055917", 
        exceptions: {
            error_type: "model_error",
            description: "grpc predicts failure!(pdflux saas exception test!)"
        }
      },
      errcode: 0,
      msg: null,
      status: true
    }