Skip to content

核心功能

DSLIGHTING 提供了完整的数据科学工作流自动化能力,采用分层架构设计。

📊 数据层

数据准备与处理

支持的数据源

  • MLE-Bench: OpenAI机器学习评估基准数据集
  • 自定义任务: 支持用户自定义数据集和任务

数据布局结构

data/competitions/
  <竞赛ID>/
    config.yaml           # 竞赛配置文件
    prepared/
      public/            # 公开数据(训练集、样本提交)
      private/           # 私有数据(测试标签,用于评分)

数据预处理能力

  • 自动数据清洗和格式转换
  • 缺失值处理和异常值检测
  • 特征编码和数据标准化
  • 数据集自动分割(训练/验证/测试)

🤖 Workflow 层

DSLighting 支持多种智能体工作流,可根据任务类型灵活选择:

已支持的 Agent

🔄 AIDE

迭代式代码生成和审查

  • 持续的代码改进和优化
  • 自动代码审查和质量检查
  • 性能驱动的迭代策略

🎯 DSAgent

结构化操作符流程

  • 清晰的任务分解和执行
  • 灵活的操作符组合
  • 确定性的执行流程

⚡ Data Interpreter

快速代码执行和调试

  • 快速代码迭代和测试
  • 自动错误检测和修复
  • 实时代码调试

🔄 AFlow

元优化工作流

  • 自动选择最优工作流
  • 性能评估和策略优化
  • 多工作流组合

🔬 DeepAnalyze

深度分析工作流

  • 数据和模型深入分析
  • 性能瓶颈识别
  • 优化建议生成

📈 评估层

自动化评估系统

评估指标

  • 分类任务: accuracy, F1-score, AUC, precision, recall
  • 回归任务: RMSE, MAE, R², MAPE
  • 排名任务: NDCG, MRR, Hit Rate

模型选择

  • 自动模型比较
  • 超参数优化
  • 性能基准测试
  • A/B测试支持

日志与追踪

  • 完整的执行轨迹记录
  • 所有中间产物保存
  • 详细的性能报告
  • 结果复现支持

日志结构

runs/benchmark_results/
  <workflow>_on_<benchmark>/
    <model_name>/
      <task_id>/
        config.json          # 任务配置
        trace.json           # 执行轨迹
        submission.csv       # 提交文件
        report.md            # 实验报告
        artifacts/           # 中间产物

🔧 系统特性

交互式 Web 界面

  • 基于 Next.js + FastAPI 构建
  • 实时任务进度监控
  • 可视化结果展示
  • 支持自定义任务配置

可扩展架构

  • 灵活的任务注册机制
  • 支持自定义工作流
  • 可插拔的Agent系统
  • 易于添加新的Benchmark

🚧 待更新

更多功能和特性正在开发中:

  • [ ] 更多 Agent 工作流支持
  • [ ] 分布式任务执行
  • [ ] 模型 ensemble 功能
  • [ ] 自动特征工程优化
  • [ ] 更多数据格式支持
  • [ ] 实时协作功能

查看快速开始来体验这些功能!

基于 AGPL-3.0 许可证发布