海王出海去重规则怎么设置

海王出海的去重规则通过设置主键字段、匹配策略、优先级和时间窗来识别重复记录。用户可按邮箱、手机号、社媒ID等字段配置精确或模糊匹配,结合规则优先级和合并策略,实现覆盖、保留或合并数据,并可预览与回滚,确保去重安全可靠。可按时间优先、来源权重或人工标注保留主记录,支持字段合并、冲突策略及批量实时校验回滚

海王出海去重规则怎么设置

先说最简单的理解(费曼方式开场)

去重,本质上就是“认人”。想象你有一大堆名片,有同一个人用不同名字、邮箱或社媒账号来找你。你要做的,是定义“什么情况下认为是同一个人”,然后决定“合并后保留哪些信息”。海王出海的去重功能,就是在系统里把这个流程工具化:定义匹配规则、指定优先级、选择合并策略、预览并执行。

总体流程——我通常会怎么做(一步步)

  • 确认数据来源与字段:哪些渠道会产生客户(邮箱订阅、Messenger、WhatsApp、Instagram、TikTok、表单、API导入等),每个渠道可用的标识字段有哪些(邮箱、手机号、社媒ID、姓名、订单号等)。
  • 选定主键与匹配策略:为不同渠道或场景选择主键(例如B2C以手机号/邮箱为主,B2B以公司名+邮箱或公司税号为主),以及匹配方式(精确、模糊、正则、多字段组合)。
  • 设置优先级与时间窗:确定当两条记录冲突时,哪条数据更可信(例如订单来源优先于表单、最近更新优先于旧记录),是否只在一定时间窗内认为是重复(比如30天内的会话合并)。
  • 选择合并与冲突策略:字段级合并、覆盖(新覆盖旧)、保留(旧优先)或人工干预;设置当关键字段冲突时的处理方式。
  • 测试、预览、回滚:先在小样本或“预览模式”运行,检查匹配结果,确认后再批量执行;保留回滚机制和日志。

关键概念详解(要弄清楚的术语)

主键字段(Primary Key)

主键并不是数据库的自增ID,而是你用来断定“这是同一人的那个字段或字段组合”。常见的有邮箱、手机号、社媒账户ID、第三方平台的用户ID。可以单一字段,也可以组合(邮箱+姓名、手机号+国家码)。

匹配策略(Match Strategy)

常见有:

  • 精确匹配:值完全相同(适合邮箱、平台ID)。
  • 模糊匹配:字符串相似度(用于姓名、地址)。常用Levenshtein或相似度阈值。
  • 正则/规则匹配:手机号不同格式但都能归一化后匹配(+86 138-0000-0000 vs 13800000000)。
  • 组合匹配:必须同时满足多个字段(如邮箱相同或手机号相同、且国家一致)。

优先级与权重(Priority & Weighting)

当两条记录匹配时,优先级决定保留哪条为主记录。优先级可以基于来源(订单>表单>社媒消息)、时间(最新优先)或人工标注(管理员标记为主)。也可以给不同来源赋权重,按权重综合评分决定主记录。

时间窗(Time Window)

时间窗用来控制“重复”的时间范围,比如把30天内的会话看作同一人,超过则认为可能为新会话。对去重影响很大,尤其在营销场景中要与业务节奏匹配。

在海王出海里如何配置(按步骤,实操风格)

下面是一个通用的配置步骤,我会把每一步尽量写得像在后台点操作那样——嗯,方便你照着做:

  1. 收集并映射字段:先整理好各渠道能提供的字段,做一个字段映射表,将渠道字段统一映射到平台字段(比如把不同格式的手机号统一到mobile字段)。
  2. 规范化输入:在去重前先做格式化:邮箱小写化、手机号删除非数字字符并加国家码、姓名去重空格与常见前缀。
  3. 新增去重规则:在平台的去重规则管理页面创建新规则,给规则命名并填写说明(便于复查)。
  4. 定义匹配条件:选择要匹配的字段(如邮箱|手机号|社媒ID),为每个字段选择匹配类型(精确/模糊/正则)与阈值。
  5. 设定优先级与合并策略:为规则设置权重或优先级,定义合并行为(覆盖/保留/字段级合并)。比如:联系方式用最新覆盖,备注与标签做并集。
  6. 时间窗与来源限制:如果需限定匹配有效期,设置时间窗;可选择仅对某些来源生效。
  7. 启用预览与测试:运行预览用若干最近数据检验匹配结果,人工核查命中样例,调整阈值。
  8. 启用并监控:确认后启用规则,观察日志和匹配率,定期复检并优化。

一些现实场景与推荐配置(直接好用)

  • B2C电商(手机号与邮箱主导)
    • 主键:手机号、邮箱
    • 匹配:手机号正则归一化后精确;邮箱小写后精确;姓名做模糊备用
    • 优先级:订单数据>客服会话>导入
    • 合并策略:联系方式用最新,地址做字段级合并,订单历史聚合
  • B2B/外贸(公司/邮箱/税号)
    • 主键:公司名+联系人邮箱或税号
    • 匹配:公司名模糊(词干/同义替换),邮箱精确
    • 优先级:合同/订单>销售手动录入>表单
  • 社媒导流(多渠道ID)
    • 主键:社媒账号ID为首选,若缺失则使用手机号/邮箱
    • 匹配策略:社媒ID精确;手机号归一化后精确;启用跨平台合并策略

示例规则表(可以直接照着填)

规则名称 匹配字段 匹配类型 优先级 合并策略 时间窗
电商-手机号优先去重 mobile 正则归一化后精确 100 联系方式最新覆盖,标签并集 365天
社媒账号合并 platform_id, email 平台ID精确/邮箱小写精确 80 社媒信息保留,备注合并 无(永久)
B2B-公司合并 company_name, email 公司模糊+邮箱精确 90 联系人列表合并,合同信息保留 730天

碰到的常见问题(以及怎么解决)

手机号格式多样导致误匹配或漏匹配

解决方法:统一归一化(去空格、去符号、补国家码),再做匹配。对中国号码强制+86标准化,对其他国家用国家码规则库。

不同平台同一用户使用不同邮箱/手机号

解决方法:建立跨渠道用户画像,使用软链接(alias)机制,把不同标识聚合到同一用户ID下,保留来源链路以便溯源。

合并后信息丢失或覆盖误伤

解决方法:启用字段级合并、保留历史快照与回滚功能。合并前先开启预览模式,由人工确认高风险样例。

一些实施建议(小心思,总结式提示但不是结尾)

  • 先做少量规则与小样本测试,观察误判率,再放量。
  • 日志一定要打开——去重操作要可审计,方便回滚和复盘。
  • 把合并策略写成可配置的“模板”,不同业务线可以套用或微调。
  • 定期跑质量检查脚本(比如每月统计合并率、误判样本),并和销售/客服做对账。
  • 保持字段的标准化流程在数据入口处执行,能把后续去重工作省很多力。

我自己用过的一套快速检查清单(上手就能用)

  • 字段映射完成并保存?(是/否)
  • 手机号与邮箱已归一化?
  • 已配置至少一条“预览模式”的去重规则并运行?
  • 是否为高风险合并配置了人工复核?
  • 回滚与审计日志是否开启?

嗯,好吧,我把能想到的要点都写进来了——做去重其实没有魔法,关键是把规则体系化并且留住审计痕迹。按上面的步骤去做,先测再放量,遇到特殊场景再细化规则,就稳得多了。