用 Transformer 构建中文文本分类模型

用 Transformer 构建中文文本分类模型

Transformer 架构在 NLP 领域的革命性影响已经无需多言。本文从零实现一个基于 Transformer 的中文文本分类模型,涵盖分词、词嵌入、多头注意力到分类头的完整流程。

Pandas 高效数据清洗的 20 个技巧

Pandas 高效数据清洗的 20 个技巧

数据清洗占据了数据分析 80% 的时间。本文总结了 20 个实用的 Pandas 数据清洗技巧,从缺失值处理到字符串规范化,帮你大幅提升数据预处理效率。

PyTorch 实战:图像分割从入门到部署

PyTorch 实战:图像分割从入门到部署

图像分割是计算机视觉的核心任务之一。本文使用 PyTorch 实现 U-Net 分割模型,从数据增强到模型训练,再到 ONNX 导出和 TensorRT 部署,覆盖完整工程链路。

特征工程的艺术:从业务理解到自动化

特征工程的艺术:从业务理解到自动化

好的特征工程往往比模型选择更重要。本文结合金融风控场景,系统介绍特征工程的思路和方法,包括时序特征、交叉特征和自动化特征生成。

Matplotlib 与 Seaborn 数据可视化进阶

Matplotlib 与 Seaborn 数据可视化进阶

一图胜千言。本文深入 Matplotlib 和 Seaborn 的高级用法,包括自定义主题、多子图布局、动画可视化和交互式图表,让你的数据分析报告更专业。

时间序列预测:从 ARIMA 到 Prophet

时间序列预测:从 ARIMA 到 Prophet

时间序列预测在业务决策中至关重要。本文对比传统统计方法和现代机器学习方法,详细介绍 ARIMA、Prophet 和 LSTM 在不同场景下的表现。

推荐系统实战:协同过滤到深度学习

推荐系统实战:协同过滤到深度学习

推荐系统是互联网产品的核心引擎。本文从经典的协同过滤出发,逐步过渡到基于深度学习的推荐模型,包括 Wide&Deep、DIN 和双塔模型。

Spark 大规模数据处理最佳实践

Spark 大规模数据处理最佳实践

当数据量超过单机处理能力时,Spark 是首选方案。本文分享 Spark 在生产环境中的调优经验,包括内存管理、数据倾斜处理和广播变量优化。