机器学习特征系统在伴鱼的演变

在伴鱼，我们在多个在线场景使用机器学习提高用户的使用体验，例如：在伴鱼绘本中，我们根据用户的帖子浏览记录，为用户推荐他们感兴趣的帖子；在转化后台里，我们根据用户的绘本购买记录，为用户推荐他们可能感兴趣的课程等。

特征是机器学习模型的输入。如何高效地将特征从数据源加工出来，让它能够被在线服务高效地访问，决定了我们能否在生产环境可靠地使用机器学习。为此，我们搭建了特征系统，系统性地解决这一问题。目前，伴鱼的机器学习特征系统运行了接近 100 个特征，支持了多个业务线的模型对在线获取特征的需求。

下面，我们将介绍特征系统在伴鱼的演进过程，以及其中的权衡考量。

特征系统 V1

特征系统 V1 由三个核心组件构成：特征管道，特征仓库，和特征服务。整体架构如下图所示：

机器学习特征系统在伴鱼的演进

特征管道包括流特征管道和批特征管道，它们分别消费流数据源和批数据源，对数据经过预处理加工成特征（这一步称为特征工程），并将特征写入特征仓库。批特征管道使用 Spark 实现，由 DolphinScheduler 进行调度，跑在 YARN 集群上。出于技术栈的一致考虑，流特征管道使用 Spark Structured Streaming 实现，和批特征管道一样跑在 YARN 集群上。

特征仓库选用合适的存储组件（Redis）和数据结构（Hashes），为模型服务提供低延迟的特征访问能力。之所以选用 Redis 作为存储，是因为：

伴鱼有丰富的 Redis 使用经验。

包括 DoorDash Feature Store 和 Feast 在内的业界特征仓库解决方案都使用了 Redis。

热点

机器学习特征系统在伴鱼的演变

由 dawei

发表回复取消回复

您错过了

MySQL Workbench图形化管理快速指南

网络编程基础：TCP/IP协议原理与实战应用

Unix高效开发工具集配置实战指南

提升顾客满意度：服务优化与经营推广的双赢策略

机器学习特征系统在伴鱼的演变

由 dawei

相关文章

深入站长百科：网站安全与高效防护策略解析

站长百科：常用网站管理工具与资源速查指南

站长百科：掌握搜索引擎算法更新的核心价值

发表回复 取消回复

您错过了

MySQL Workbench图形化管理快速指南

网络编程基础：TCP/IP协议原理与实战应用

Unix高效开发工具集配置实战指南

提升顾客满意度：服务优化与经营推广的双赢策略

发表回复取消回复