🛡️风控系统架构梳理
type
status
date
slug
summary
tags
category
icon
password
Status

从搜广推系统引入风控

业务风控系统和搜推广系统的不同(是什么)

问题域不同 一般意义上的搜推广系统从最顶层来看是“要在最小请求-响应时长内解决一个Top K问题”(RT Critical 重时效,毫秒级),而业务风控系统是“要在风险暴露前对风控对象进行风险分类”(Recall Critical 重召回,秒至分钟级)。虽然表面上看起来都是“来一条请求返回一个模型或策略结果”,但前置条件不同、所解决的问题不同,导致两者系统的建设思路和要应对的核心问题都是截然不同的。搜推广系统为了维护用户的产品体验,需要设计多层的降级兜底,底线是“宁可不搜/不推/不广,也不能不显示内容”而风控系统的底线是“决不能放过一个出现底线风险的对象进入业务链路” 系统实现不同 风控系统有比搜推广系统更充足的时间去发现对象中的潜在风险,但同样也必须收集比搜推广系统更广泛的数据来定位风险,虽然重召回,但也不能不顾精度造成误杀,降低广告主投放体验和效率。所以搜推广系统都被设计为 oneline learing &online predict,而一个风控系统一般都被设计为和主链路(比如广告创编投放主链路.广告展现主链路等)用MQ解耦的近线或离线侧链路(nearline/offline predict)。 业务驱动方式不同 搜推广系统迭代一般都是收益效果做后验驱动(从现象反推原因),一个模型或策略需要经过长期AB实验小流量实验一步一步的验证对收益指标的提升效果后才会上线,一个新模型或策略可能历时几个月来进行效果观测和打磨。而风控系统很多应急场景都是由当前风控政策、业务决策做先验驱动(从原因来避免现象出现),需要在非常有限的时间内对新出现的各类风险进行冷启动的管控。在推理阶段,搜推广系统对于时延有极高要求但在略上线或模型训练阶段正好反过来风控系统对管控手段的上线速度有极高要求(比如某个明星突然塌房)

一、通用风控系统的核心架构与组件

任何一个成熟的风控系统,无论其具体应用场景如何,通常都会包含以下几个核心的组成部分。这部分可以详细拆解风控系统的通用“骨架”。

1. 统一接入与协议层 (Ingestion/Access Layer)

功能定位与重要性:
统一接入与协议层是整个风控系统的“门户”,它承担着接收所有外部请求、原始数据流以及与业务系统进行交互的关键职责。这一层的设计好坏直接影响到风控系统的易用性、可扩展性、稳定性以及接入效率。其核心目标是为异构的上游业务系统提供一个标准、安全、高效的入口点,以进行风险评估。
核心职责详述:
  • 请求接收与分发:
    • 接收来自不同业务系统(如交易、注册、登录、内容发布等)的风险评估请求。
    • 根据请求类型、业务场景或其他路由规则,将请求分发到后续相应的处理单元(如特定的规则引擎集群、特征计算服务等)。
    • 处理同步请求(需要实时返回风险评估结果)和异步请求(风险评估结果后续通过回调或消息通知)。
  • 协议转换与适配:
    • 支持多种通信协议,如常见的 HTTP/HTTPS (RESTful APIs, GraphQL)、GRPC,以及消息队列协议 (如 Kafka, RabbitMQ, RocketMQ, Pulsar )。
    • 对不同业务系统可能采用的异构协议进行统一转换,适配风控系统内部的标准协议,降低内部模块的复杂性。
  • 请求参数校验与标准化:
    • 对接入的请求参数进行基础的格式校验、类型校验、完整性校验,确保数据的有效性,防止无效数据流入后端系统造成处理异常。
    • 将不同业务传入的参数(可能存在大量公共参数及业务差异化参数 )进行标准化处理,提取风控所需的核心字段,映射为风控系统内部能够理解的统一数据模型。
  • 身份认证与权限校验:
    • 对调用风控接口的业务系统或用户进行身份认证,确保请求来源的合法性。
    • 根据预设的权限策略,校验调用方是否有权限访问特定的风控场景或数据。
  • 流量控制与过载保护:
    • 实施限流策略(如基于 QPS、并发数、调用方 IP/ID 等),防止单个业务系统的突发流量冲击整个风控系统,保障系统稳定性。风控 系统有场景级限流的设计 。
    • 在后端服务过载时,可以进行熔断或降级处理,例如快速失败、返回默认安全结果等。
  • 初步数据处理与丰富:
    • 可能会进行一些轻量级的初步数据处理,例如从请求头、Cookie 中提取基础信息 (IP, User-Agent 等)。
    • 根据请求上下文,初步关联一些基础的上下文信息。
  • 日志记录与链路追踪:
    • 详细记录所有接入请求的元数据、参数、时间戳等,作为审计、问题排查和数据分析的基础。
    • 集成分布式链路追踪系统 (如 OpenTelemetry, Jaeger, Zipkin),对每个请求进行追踪,方便定位性能瓶颈和故障点。
常见实现方式与技术选型:
  • API 网关:
    • 使用成熟的 API 网关产品 (如 Kong, Nginx+Lua, Spring Cloud Gateway, APISIX) 或自研网关。
    • API 网关天然具备协议转换、路由、认证、限流、监控等能力。
    • 标准化演进:风控接入的标准化是一个重要方向。风控 系统就经历了从 Open API 到 Golang SDK,再到 APIGW 风控插件的演进,目标是实现低代码甚至零代码接入,提升效率 。APIGW 平台风控插件允许通过配置勾选接入风控,大幅提升了服务端接入体验和效率 。
  • SDK (Software Development Kit):
    • 为主要业务调用方提供多语言的 SDK,封装风控接口的调用逻辑、参数构造、签名认证、数据加解密等细节。
    • 降低业务方接入风控系统的复杂度和成本。风控 提供了 Golang 客户端 SDK,屏蔽风控细节,支持业务后端开箱即用 。
  • 消息队列接入:
    • 对于需要异步处理或对海量事件进行风险评估的场景(如用户行为日志分析),通过消息队列进行数据接入。
    • 实现生产者和消费者之间的解耦,提高系统的峰值处理能力和韧性。风控 的接入层明确提到负责 MQ 流量接入 。
  • 负载均衡:
    • 在接入层之后通常会部署负载均衡器 (如 Nginx, HAProxy, F5 或云厂商提供的 LB 服务),将流量分发到多个后端风控服务实例

2、特征工程与计算引擎 (Feature Engineering & Computation Engine) 🧠

功能定位与重要性:
如果说接入层是风控系统的“门户”,那么特征工程与计算引擎就是整个风控系统的“大脑”和“中枢神经系统”。它的核心任务是将海量的、多维度的原始数据(来自业务请求、用户行为、设备信息、三方数据等)加工、提炼、转换为对风险识别有价值的特征(Factors),并基于这些特征执行预设的规则(Rules)或机器学习模型(ML Models),最终输出风险评估结果。这一层的设计和实现直接决定了风控系统的智能程度、准确性和响应能力。
核心职责详述:
  • A. 特征工程 (Feature Engineering):
    • 原始数据获取与整合:
      • 从接入层获取实时请求参数。
      • 连接并查询内部数据源,如用户画像系统 、名单库服务 、设备指纹库 、交易历史、行为日志等。
      • 对接外部三方数据源,如征信数据、IP地理位置库、黑产情报等。
    • 特征提取与衍生:
      • 原子特征/参数因子 (Parameter Factors): 直接映射或简单转换原始输入参数,是所有计算的基础单位 。例如,请求中的用户ID (mid)、IP地址、设备ID (buvid) 等。
      • 统计类特征/累计因子 (Cumulative Factors): 对一段时间内的行为数据进行统计聚合。这是风控中非常重要的一类特征,用于刻画频率、次数、总和等。
        • 时间窗口累计: 例如,用户X在过去1小时/24小时/7天内的登录次数、交易金额、发帖频率等 。风控 系统中,这类因子通常基于 Redis 实现,支持单场景和跨场景累计 。
        • 计数统计 (Count): 如IP下关联设备数、设备上登录账号数。风控 的非去重累计最初基于 String,后重构为 HashCount,性能提升15%以上 。
        • 去重计数 (Distinct Count): 如用户在周期内登录的不同设备数。风控 通过 Zset 实现,利用时间戳作为 score 。
        • 求和/平均值/最大/最小值等。
      • 组合特征/表达式因子 (Expression Factors): 通过对原子特征或统计特征进行逻辑运算、数学运算、函数调用等方式生成的更复杂的特征 。例如,交易金额 > 平均客单价 * 3 AND 异地登录标记 = true。风控 系统中,这类因子用于编写表达式并承载计算结果 。
      • 序列特征: 捕捉用户行为的先后顺序和模式,例如短时间内连续操作失败、异常的页面跳转路径等。
      • 图特征: 基于用户关系网络、设备关联网络等构建图结构,提取社群风险、团伙欺诈等特征。
    • 特征加工与转换:
      • 数据清洗: 处理缺失值、异常值、噪声数据。
      • 数据类型转换: 例如将字符串类型的IP地址转换为数值型,或将接口类型数据转换为特定类型,如 风控 中的 Interface2I(mid)
      • 离散化/分箱: 将连续型特征转换为离散型,如年龄分段。
      • 编码: 如 One-Hot 编码、Label Encoding 等。
      • 标准化/归一化。
    • 特征存储与管理 (Feature Store):
      • 对于计算成本较高或需要复用的特征,可以将其结果存储起来,供后续快速查询。
      • 提供特征的元数据管理、版本控制、血缘追踪、监控等能力。
      • 实时特征通常缓存在内存或高速 KV 存储 (如 Redis) 中,离线特征可能存储在数据仓库或湖中。
  • B. 计算引擎 (Computation Engine):
    • 规则/模型加载与解析:
      • 从配置中心或数据库中加载已定义的风控规则或编译好的机器学习模型。
      • 规则解析: 将规则描述(通常是自定义的DSL或基于因子和逻辑运算符的表达式)解析成可执行的内部表示。风控 引擎的核心就是将自定义字符串(规则、因子)通过词法分析器 (Lexer) 和解析器 (Parser) 生成 AST (Abstract Syntax Tree) 抽象语法树 。AST 以树状形式表现语言的语法结构,是编译器和解释器常用的内部表示 。
    • 执行调度与运算:
      • 任务分解: 将一个复杂的风险评估请求分解为多个特征计算任务和规则/模型评估任务。
      • 依赖分析与执行计划: 分析任务间的依赖关系(例如,规则依赖于某些因子的计算结果,某些因子又依赖于其他因子或外部数据源的调用),生成优化的执行计划。
      • 并行计算与优化: 为了提高处理效率,计算引擎通常会采用并行计算策略。
        • 运行时并行: 风控 引擎采用了运行时并行的方式优化规则计算 。在场景规则编译时,规则被抽象成 DAG (有向无环图) 。引擎按照拓扑序计算节点,实时更新节点入度,并将入度为0的节点(区分为本地和远程)进行并行计算 。本地节点(通常计算快、消耗低)会先串行计算,并可能基于结果短路掉不需要计算的远程节点 。
        • 目标是达到理论最大并行度,同时避免不必要的计算 。
      • 结果聚合与裁决:
        • 聚合所有执行单元(规则、模型)的输出结果。
        • 根据预设的裁决逻辑(如规则优先级、投票机制、加权评分等)得出最终的风险评分或风险等级。风控 系统中,对于场景内的多条规则,会并行计算所有需要计算的规则,并按照规则优先级(0->99)确定一条最高优先级的决策返回 。
    • 用户自定义函数 (UDF) 执行:
      • 支持在规则或特征计算过程中调用预先注册的 UDF。
      • 本地 UDF: 通常是无状态的、计算开销较小的函数,如数据类型转换、字符串处理、数学运算等 。风控 的 IfThen(cond, A, B) UDF 经过重构,A/B 不会预计算,而是基于 cond 选择分支计算,避免了不必要的远程调用等损耗 。
      • 远程 UDF: 涉及到调用外部服务或数据源的函数,如获取账号信息、查询名单库、调用设备指纹服务等 。这些通常是 I/O 密集型操作。
    • 短路机制 (Short-circuiting):
      • 在逻辑运算(如 AND, OR)或条件判断中,如果部分条件已经能够确定最终结果,则跳过剩余不必要的计算,以提升效率。风控 的运行时并行计算中,本地节点计算结果可以短路远程节点 。
常见实现方式与技术选型:
  • 规则引擎技术:
    • 基于表达式的引擎: 使用如 MVEL, OGNL, Aviator, CEL (Common Expression Language) 等表达式语言。
    • 基于产生式规则系统 (Production Rule Systems): 如 Drools。
    • 自研 DSL 和 AST 解析执行: 如 风控 系统,基于 Golang AST 结构进行了精简化,实现了一套风控语言语法(类似 Golang 的子集)。
  • 特征计算框架:
    • 流处理平台 (Flink, Spark Streaming): 用于实时/准实时计算流式数据特征。
    • 批处理平台 (Spark, MapReduce): 用于离线批量计算复杂特征。
    • 内存计算/KV 存储 (Redis, Hazelcast): 用于快速存取和计算累计因子、名单等。风控 的累计因子大量依赖 Redis 。
  • 机器学习模型服务:
    • TensorFlow Serving, TorchServe, ONNX Runtime, Seldon Core, KServe (KFServing) 等。

3. 决策与处置中心 (Decision & Action Center) 🎯

功能定位与重要性:
决策与处置中心是风控流程的“执行者”和“终点站”。它接收来自特征工程与计算引擎的风险评估结果(如风险评分、命中的规则、模型输出等),并基于这些评估结果,结合预设的业务策略、阈值和上下文信息,做出最终的、可操作的风险决策。随后,该中心负责选择、触发或协调执行一个或多个相应的处置动作(Actions/Dispositions),以应对识别出的风险。这一层的有效性和效率直接关系到风险事件的实际控制效果和用户体验。
核心职责详述:
  • A. 风险决策制定 (Decision Making):
    • 接收与解读风险评估: 从计算引擎获取量化的风险指标,如风险评分、概率、命中规则的严重等级等。
    • 应用决策逻辑/策略:
      • 将风险评估结果与预定义的决策阈值进行比较(例如,风险评分 > 80 则判定为高风险)。
      • 根据命中规则的优先级、组合条件或决策表来确定最终决策。风控 系统中,规则命中后会返回对应的决策 。
      • 考虑决策上下文信息,如业务场景、用户分层、历史行为等,以实现更精细化的决策。风控 支持在返回静态决策的同时,通过“决策上下文”返回动态生成的凭证或相关特征值
    • 生成标准决策结果: 输出标准化的决策结果,如“通过 (Allow)”、“拒绝 (Reject)”、“人工审核 (Review)”、“验证 (Verify/Challenge)”等。风控 系统将决策扩展为多类型的通用决策,如通过、拒绝、验证和其他定制化决策 。
    • 处理决策冲突与优先级: 当多个评估维度或规则产生不同甚至矛盾的指示时,需要有明确的机制(如优先级、投票、加权等)来解决冲突,得出统一决策。
  • B. 处置动作选择与编排 (Action Selection & Orchestration):
    • 映射决策至动作: 将标准化的决策结果映射到一个或多个具体的处置动作。例如,“拒绝”决策可能映射到“阻断交易”、“临时冻结账户”等动作。
    • 同步与异步处置管理:
      • 同步处置 (Synchronous Actions): 对于需要立即生效且直接影响当前业务流程的动作,如实时拒绝一笔交易,决策结果会同步返回给调用方,由调用方执行。风控 将这类决策称为“同步决策”,例如 reject,在风控请求中实时返回 。
      • 异步处置 (Asynchronous Actions): 对于不需要立即中断业务流程,或处理耗时较长、依赖外部系统协同的动作,如将用户加入观察名单、发送告警通知、启动复杂的账户调查流程等,会通过异步机制执行。风控 将这类决策称为“异步决策”或“内部决策”,通过异步链路消费后实际执行,如账号管控、加名单等 。
    • 动作参数化与上下文传递: 某些处置动作可能需要额外的参数(例如,封禁时长、发送通知的内容模板等),决策中心需要将这些参数以及相关的上下文信息传递给动作执行单元。
    • 条件化与动态处置: 支持根据更细致的条件(如风险等级细分、用户历史、当前系统负载等)动态调整处置的强度或方式。
    • 集成与调用执行单元: 与内部或外部的动作执行系统进行集成和通信,如调用账户系统接口、消息通知服务、工单系统等。
  • C. 验证与挑战机制集成 (Verification & Challenge Integration):
    • 触发验证流程: 当决策为“验证”或“挑战”时,负责启动相应的用户身份验证或行为挑战流程。
    • 与验证服务协同: 集成并调用各种验证服务,如:
      • 验证码服务(图形验证码、滑块验证码、极验等)。
      • 多因素认证 (MFA/2FA) 服务(短信验证码、OTP、生物识别等)。
      • 人脸识别、实名认证等更强的身份验证服务。
      • 自研验证机制(如 风控 的“真爱验证”)。
    • 管理验证凭证与状态: 生成、传递和校验验证过程中的凭证 (如 风控 的 v_voucherv_token) 。
    • 根据验证结果更新决策: 接收验证服务的反馈结果,并据此更新原始的风险判断或触发后续流程。风控 设计了风控验证网关和验证 SDK,完整封装了从生成验证决策到用户验证的全流程 。
  • D. 人工审核与案件管理联动 (Manual Review & Case Management Linkage):
    • 触发人工审核: 对于某些高风险、高价值或机器难以准确判断的场景,决策结果可能是“转人工审核”。
    • 创建与分派案件: 自动在案件管理系统中创建审核工单,并将相关的风险信息、用户资料、交易详情等上下文数据打包传递,供审核人员参考。
    • 接收审核反馈: 接收人工审核的结果,用于更新风险模型、规则,或作为最终处置的依据。
  • E. 通知与告警 (Notification & Alerting):
    • 实时告警: 对于严重风险事件或系统异常,立即通过短信、电话、即时通讯工具等方式通知相关的风险运营团队或技术支持团队。风控 的异步决策中包括发送企业微信通知的类型 。
    • 风险事件推送: 将特定的风险事件信息推送给下游系统或数据分析平台,如 风控HitReport 。
  • F. 日志记录与审计追踪 (Logging & Audit Trail):
    • 全面记录: 详细记录每一个决策的产生依据(输入评估结果、命中的规则/模型、时间戳等)、最终决策、选择的处置动作、动作执行状态及结果。
    • 审计支持: 提供完整的审计追踪能力,满足合规要求,并支持事后分析、问题排查和效果复盘。
常见实现方式与技术选型:
  • 策略引擎/决策引擎:
    • 除了规则引擎(如 Drools,也可用于复杂的决策逻辑),还有专门的策略引擎如 Open Policy Agent (OPA)。
    • 很多系统的决策逻辑也可能是硬编码或通过数据库配置(决策表、评分卡)结合代码实现。
  • 工作流引擎/BPMN (Business Process Model and Notation) 工具:
    • 对于涉及多个步骤、条件分支或人工干预的复杂处置流程(如复杂的调查、多级审批),可以使用 Camunda, Activiti, jBPM 等工作流引擎进行编排和管理。
  • 消息队列 (Message Queues):
    • 如 Kafka, RabbitMQ, RocketMQ, Pulsar 等,广泛用于异步处置任务的派发、解耦和削峰填谷。风控 的异步决策通过异步链路消费 。
  • API 与 Webhook:
    • 通过标准化的 API 接口调用内部或第三方的服务执行具体动作(如调用支付接口进行退款、调用账户服务进行冻结)。
    • 通过 Webhook 机制接收外部系统对处置动作的执行反馈。
  • 集成平台/企业服务总线 (ESB):
    • 在大型复杂系统中,可能通过集成平台来管理不同系统间的交互和数据同步。
关键设计考量:
  • 决策的准确性与一致性: 决策逻辑需要严谨,确保在相同情况下产生一致的决策结果。风控 通过从自定义枚举值向通用决策的演进,提高了决策的准确性和可维护性 。
  • 处置的及时性与有效性:
    • 同步处置必须在极短的时间内完成。风控 的同步决策默认超时250ms 。
    • 异步处置也需要在风险窗口期内完成,以有效控制风险。
  • 灵活性与可配置性:
    • 能够方便地调整决策阈值、修改处置动作映射、新增处置类型,而无需频繁修改代码。
    • 支持针对不同场景、不同风险等级配置差异化的处置策略。
  • 可靠性与幂等性: 处置动作的执行需要可靠,对于可能重试的异步动作,需要保证幂等性,避免重复执行导致错误。
  • 用户体验(尤其在验证环节): 验证挑战等用户交互环节,应在保证安全性的前提下,尽可能减少对正常用户的打扰。风控 的验证 SDK 设计了自动降级等机制以保障验证体验 。
  • 闭环与反馈: 处置动作的执行结果应能反馈回风控系统,用于效果评估、模型优化和策略调整。
  • 可追溯性与审计: 所有的决策和处置行为必须有详细的日志记录,支持审计和事后分析。
  • 扩展性: 能够方便地集成新的处置手段和验证服务。风控 验证 SDK 的插件式设计,基于策略设计模式封装不同验证手段的 handler,使得扩展更多验证方式变得容易 。
 

4. 数据平台与存储 (Data Platform & Storage) 💾

功能定位与重要性:
数据平台与存储是风控系统的“记忆中枢”和“燃料库”。它负责风控系统运行过程中产生和依赖的各类数据的持久化、管理、查询和分析。这包括了配置数据(如规则、策略、场景定义)、状态数据(如用户风险画像、累计因子、黑白名单)、日志数据(操作日志、系统日志、风险事件日志)、以及用于分析和模型训练的历史数据。一个健壮、高效的数据平台是风控系统实现准确判断、持续优化和满足合规要求的基石。
核心职责详述:
  • A. 配置数据管理 (Configuration Data Management):
    • 存储与版本控制: 持久化存储风控场景定义、规则集、因子表达式、决策逻辑、策略参数、模型文件等核心配置信息。
    • 支持配置的版本控制,方便回滚和审计。
    • 提供高效的配置读取接口,供计算引擎、决策中心等模块在运行时加载。风控 系统中,规则、因子、场景等信息会存储在数据库中,并有相应的管理平台 风控-admin
  • B. 状态与特征数据存储 (State & Feature Data Storage):
    • 名单库管理 (List Management): 存储和管理各类名单,如黑名单、白名单、灰名单、关注名单等。
      • 支持名单的快速增删改查。
      • 处理名单的有效期和自动过期。
      • 风控 系统有专门的“名单库管理平台”和“名单库”特征服务 。
    • 用户/实体画像存储 (Profile Storage): 存储用户或实体的风险画像、行为标签、历史风险记录等。
      • 支持画像数据的实时更新和查询。
      • 风控 系统有“用户画像平台”和“用户画像”特征服务 。
    • 累计因子/统计特征存储 (Cumulative Factor Storage): 对于需要跨请求、跨时间窗口进行累计计算的特征(如用户X在24小时内的交易次数),需要持久化存储其当前值和相关元数据。
      • 通常使用高性能的 KV 存储(如 Redis)来实现。风控 的累计因子主要基于 Redis 实现 。
    • 会话/上下文状态存储 (Session/Context State Storage): 存储短期内有效的会话信息或与特定请求上下文相关的状态数据。风控 的 Taishan 集群用于存储风控准实时日志请求上下文等详情 。
  • C. 日志数据持久化与管理 (Log Data Persistence & Management):
    • 请求/响应日志: 记录接入层接收到的每一个请求及其对应的风控处理结果和决策。
    • 特征计算日志: 记录特征计算的过程、中间值和最终结果,用于调试和分析。
    • 规则/模型执行日志: 记录规则的命中情况、模型的输出得分等。
    • 决策与处置日志: 详细记录最终决策、执行的处置动作及其结果。
    • 系统运行日志与审计日志: 记录系统各模块的运行状态、错误信息、以及管理员或运营人员的操作日志。
    • 数据存储选型: 根据日志类型和查询需求,可能选用不同的存储方案。
      • 实时/准实时查询: Elasticsearch (ES)、ClickHouse (CK) 等。风控 使用 ES 和新增的 CK 存储风控准实时日志,CK 的高压缩率解决了 ES 日志流量过大带来的存储问题 。
      • 离线分析/归档: HDFS/Hive、对象存储等。风控 使用 Hive/Lancer 进行风控离线数据的上报和后续离线任务 。
  • D. 监控与告警数据存储 (Monitoring & Alerting Data Storage):
    • 存储从系统各组件采集的性能指标 (QPS, RT, 错误率等)、资源使用情况 (CPU, 内存)、业务指标 (规则命中率, 风险拦截率等)。
    • Prometheus 是常用的监控数据存储和查询系统,风控 系统也使用 Prometheus 进行监控告警 。
  • E. 数据集成与同步 (Data Integration & Synchronization):
    • 内部数据同步: 确保不同存储系统之间(如数据库与缓存、实时系统与离线系统)的数据一致性和及时性。
      • 例如,名单库更新后需要同步到缓存。
      • 风控 使用 Canal 订阅 MySQL binlog 进行增量数据同步到 APIGW 配置等 。
    • 外部数据接入: 从外部数据源(如三方征信、公共黑名单库等)拉取数据并整合到风控系统的数据视图中。
    • 数据输出与共享: 将风控产生的数据(如风险标签、处置结果)安全地共享给其他业务系统或数据分析平台。
  • F. 数据生命周期管理 (Data Lifecycle Management):
    • 定义不同类型数据的存储周期、归档策略和清除策略。
    • 例如,实时日志可能存储较短时间(如7天),而归档日志可能长期保存。风控 的 CK 支持多表多生命周期管理 。
    • 定期清理过期数据,控制存储成本。
 

5. 运营管理与监控平台 (Operational & Management Platform) dashboards

功能定位与重要性:
运营管理与监控平台是风控系统的“指挥中心”和“眼睛”。它为风控策略分析师、运营人员、数据科学家以及系统管理员提供了一系列工具和界面,用以配置、管理、监控、评估和优化整个风控系统的运作。一个功能完善、易于使用的运营管理与监控平台,对于提升风控效率、快速响应风险变化、保障系统稳定性和透明度至关重要。负责配置管理、客诉/画像/名单库查询等,并有详细的监控体系 。
核心职责详述:
  • A. 策略与配置管理 (Policy & Configuration Management):
    • 场景管理: 定义和管理风控应用的具体业务场景(如注册、登录、交易、内容发布等) 。
    • 规则管理:
      • 提供规则编辑器,允许运营人员或策略分析师创建、编辑、测试和部署风控规则 。
      • 支持规则的版本控制、审批流程、灰度发布和一键上线/下线。风控 系统支持规则的空跑、灰度、上线等状态 。
      • 规则的逻辑通常基于因子和预定义的运算符、函数(UDF)进行组合 。
    • 因子管理:
      • 定义和管理系统中的各类因子(参数因子、表达式因子、累计因子等) 。
      • 配置因子的计算逻辑、数据来源、更新频率、生命周期等。
      • 风控 系统有专门的因子管理页面 。
    • 决策管理:
      • 定义和管理各类决策类型(如通过、拒绝、验证、人工审核)及其参数(如拒绝原因、验证方式、审核队列等) 。
      • 配置决策与规则的关联关系 。风控 系统支持通用决策的全局定义和管理,以及在场景规则中绑定决策 。
    • 名单库管理: 提供界面对黑、白、灰等各类名单进行增、删、改、查操作,并管理名单的有效期 。
    • 模型管理: (如果系统使用机器学习模型)提供模型的上传、部署、版本控制、A/B测试等功能。
    • 系统参数配置: 管理系统的全局参数、各模块的运行参数、阈值等。风控 系统可以通过后台管理页面进行一系列调度配置,如日志采集、资源调度、流量转发等 。
  • B. 监控与告警 (Monitoring & Alerting):
    • 实时监控大盘:
      • 业务指标监控: 实时展示各场景的QPS、风险事件的拦截率、误伤率、规则命中分布、决策分布、欺诈损失金额等 。
      • 系统性能监控: 监控各服务模块的CPU、内存使用率,接口响应时间 (RT),错误率,队列积压情况,数据库连接池状态等 。风控 引擎的监控面板分为工程服务监控和场景策略监控两大类 。
      • 数据质量监控: 监控输入数据的完整性、准确性、覆盖度,以及特征值的分布和稳定性 。
    • 告警系统:
      • 基于预设的阈值或异常检测算法,在关键指标出现异常(如流量突增/突降、打击率异常、系统错误率飙升、依赖服务故障等)时,通过邮件、短信、即时通讯工具等方式及时通知相关人员 。
      • 支持告警规则的灵活配置和告警等级划分。
      • 风控 的告警体系非常完善,区分为策略告警(如流量告警、打击告警、误伤告警等12类)和工程告警(如应用告警、依赖告警、消费告警等) 。
    • 日志查询与分析: 提供便捷的界面查询详细的请求日志、特征计算日志、决策日志、系统错误日志等,用于问题排查和深入分析。
    • 链路追踪可视化: 对接分布式链路追踪系统,可视化请求在风控系统各模块间的调用路径和耗时。
  • C. 效果评估与分析 (Effectiveness Evaluation & Analysis):
    • 报表系统: 定期生成风控报告,展示风险趋势、策略效果、ROI等关键信息。
    • A/B 测试与实验平台: 支持对新规则、新模型或策略调整进行小流量A/B测试,对比分析不同版本的表现,为决策提供数据支持。
    • 规则/因子有效性分析: 评估单个规则或因子的覆盖度、准确率、PSI(群体稳定性指标)等,及时发现失效或效果不佳的策略组件。
    • 误伤/漏过分析: 提供工具或流程来分析误判(误伤正常用户)和漏判(未能识别风险)的案例,挖掘原因,持续优化策略。
  • D. 案例管理与人工审核 (Case Management & Manual Review):
    • 风险案件队列: 对于需要人工介入处理的风险事件(如高风险交易、可疑账户),自动生成案件并分配到相应的审核队列。
    • 审核工作台: 为审核人员提供包含案件详情、相关风险信息、用户资料、历史行为等上下文信息的工作界面,辅助审核决策。
    • 审核结果反馈: 审核结果可以反馈到系统中,用于更新名单、调整用户风险等级,甚至作为样本数据反哺模型训练。
    • 客诉处理: 整合客诉信息,对用户反馈的疑似误伤情况进行核查和处理 。
  • E. 用户与权限管理 (User & Permission Management):
    • 管理平台自身用户的账号、角色和权限。
    • 实现细粒度的权限控制,确保不同角色的用户只能访问其职责范围内的功能和数据。风控 计划进行分场景权限控制,为后续开放给运营、业务开发自主配置提供基础 。
  • F. 自助服务与工具 (Self-Service & Tools):
    • 自助接入/测试平台: 允许业务方或开发者在一定权限范围内自助接入风控服务、配置测试场景、调试规则等,提高接入和迭代效率 。风控 正在进行风控自助接入平台的建设,支持场景自助测试 。
    • 数据查询工具: 提供便捷的工具查询名单库、用户画像、风险事件历史等数据 。
 
 
如何写好prompt广告事件聚合系统设计笔记
Loading...