数据拾遗

用 Transformer 构建中文文本分类模型

📅 2026-06-22 📁 自然语言处理 ⏱ 约 1 分钟

Transformer 架构在 NLP 领域的革命性影响已经无需多言。本文从零实现一个基于 Transformer 的中文文本分类模型，涵盖分词、词嵌入、多头注意力到分类头的完整流程。

PythonTransformerNLP深度学习

📅 2026-06-04 📁 数据分析 ⏱ 约 1 分钟

数据清洗占据了数据分析 80% 的时间。本文总结了 20 个实用的 Pandas 数据清洗技巧，从缺失值处理到字符串规范化，帮你大幅提升数据预处理效率。

PythonPandas数据清洗

📅 2026-05-17 📁 深度学习 ⏱ 约 1 分钟

图像分割是计算机视觉的核心任务之一。本文使用 PyTorch 实现 U-Net 分割模型，从数据增强到模型训练，再到 ONNX 导出和 TensorRT 部署，覆盖完整工程链路。

PyTorchCNN图像分割部署

📅 2026-04-29 📁 机器学习 ⏱ 约 1 分钟

好的特征工程往往比模型选择更重要。本文结合金融风控场景，系统介绍特征工程的思路和方法，包括时序特征、交叉特征和自动化特征生成。

特征工程Scikit-learn模型调优

📅 2026-04-11 📁 数据可视化 ⏱ 约 1 分钟

一图胜千言。本文深入 Matplotlib 和 Seaborn 的高级用法，包括自定义主题、多子图布局、动画可视化和交互式图表，让你的数据分析报告更专业。

PythonMatplotlibSeaborn数据可视化

📅 2026-03-24 📁 数据分析 ⏱ 约 1 分钟

时间序列预测在业务决策中至关重要。本文对比传统统计方法和现代机器学习方法，详细介绍 ARIMA、Prophet 和 LSTM 在不同场景下的表现。

时间序列ARIMAProphetPython

📅 2026-03-06 📁 机器学习 ⏱ 约 1 分钟

推荐系统是互联网产品的核心引擎。本文从经典的协同过滤出发，逐步过渡到基于深度学习的推荐模型，包括 Wide&Deep、DIN 和双塔模型。

推荐系统协同过滤深度学习

📅 2026-02-16 📁 数据分析 ⏱ 约 1 分钟

当数据量超过单机处理能力时，Spark 是首选方案。本文分享 Spark 在生产环境中的调优经验，包括内存管理、数据倾斜处理和广播变量优化。

SparkPython大数据性能调优