一、基础信息
数据集名称:发票关键信息检测数据集
数据规模:
- 训练集:44张发票图片
- 验证集:14张发票图片
- 测试集:7张发票图片
关键字段类别:
- 买方信息:buyerName(买方名称)、buyerTaxId(买方税号)
- 卖方信息:sellerName(卖方名称)、sellerTaxId(卖方税号)
- 票据属性:invoiceNumber(发票号)、issueDate(开票日期)
- 金额信息:netValue(净值)、grossValue(总值)、currency(货币类型)
- 交易详情:deliveryDate(交付日期)、dueDate(到期日)、paymentMethod(支付方式)
标注格式:YOLO格式,包含字段位置边界框及类别标签
数据来源:真实电子邮件场景中的多类型商业发票
二、适用场景
1. 财务自动化系统开发:
集成至企业报销流程,自动提取发票关键字段(如金额、税号),减少人工录入错误
1. 集成至企业报销流程,自动提取发票关键字段(如金额、税号),减少人工录入错误
1. 智能税务审计工具:
快速识别发票真伪核心要素(买卖方税号、发票号码),辅助合规性验证
1. 快速识别发票真伪核心要素(买卖方税号、发票号码),辅助合规性验证
1. 文档智能处理引擎:
构建OCR后处理模型,精准定位并结构化电子发票中的交易数据
1. 构建OCR后处理模型,精准定位并结构化电子发票中的交易数据
1. 企业流程优化应用:
嵌入AP/AR系统,实现采购对账、付款提醒等场景的自动化处理
1. 嵌入AP/AR系统,实现采购对账、付款提醒等场景的自动化处理
三、数据集优势
真实场景覆盖:
- 数据源自实际电子邮件附件发票,涵盖多国票据模板(如苹果、Atlassian等企业发票)
- 包含复杂版式样本(表格、文字混排),模拟真实业务环境挑战
精细化标注设计:
- 12个关键字段全维度覆盖发票核心要素,支持细粒度文档理解任务
- YOLO标注精准定位字段位置,可直接用于目标检测模型训练
任务适配性强:
- 字段类别设计契合金融、税务等垂直领域需求,提供开箱即用的业务价值
- 兼容主流检测框架(YOLOv5/v8等),支持迁移学习与模型微调
1