海王出海的去重规则通过设置主键字段、匹配策略、优先级和时间窗来识别重复记录。用户可按邮箱、手机号、社媒ID等字段配置精确或模糊匹配,结合规则优先级和合并策略,实现覆盖、保留或合并数据,并可预览与回滚,确保去重安全可靠。可按时间优先、来源权重或人工标注保留主记录,支持字段合并、冲突策略及批量实时校验回滚

先说最简单的理解(费曼方式开场)
去重,本质上就是“认人”。想象你有一大堆名片,有同一个人用不同名字、邮箱或社媒账号来找你。你要做的,是定义“什么情况下认为是同一个人”,然后决定“合并后保留哪些信息”。海王出海的去重功能,就是在系统里把这个流程工具化:定义匹配规则、指定优先级、选择合并策略、预览并执行。
总体流程——我通常会怎么做(一步步)
- 确认数据来源与字段:哪些渠道会产生客户(邮箱订阅、Messenger、WhatsApp、Instagram、TikTok、表单、API导入等),每个渠道可用的标识字段有哪些(邮箱、手机号、社媒ID、姓名、订单号等)。
- 选定主键与匹配策略:为不同渠道或场景选择主键(例如B2C以手机号/邮箱为主,B2B以公司名+邮箱或公司税号为主),以及匹配方式(精确、模糊、正则、多字段组合)。
- 设置优先级与时间窗:确定当两条记录冲突时,哪条数据更可信(例如订单来源优先于表单、最近更新优先于旧记录),是否只在一定时间窗内认为是重复(比如30天内的会话合并)。
- 选择合并与冲突策略:字段级合并、覆盖(新覆盖旧)、保留(旧优先)或人工干预;设置当关键字段冲突时的处理方式。
- 测试、预览、回滚:先在小样本或“预览模式”运行,检查匹配结果,确认后再批量执行;保留回滚机制和日志。
关键概念详解(要弄清楚的术语)
主键字段(Primary Key)
主键并不是数据库的自增ID,而是你用来断定“这是同一人的那个字段或字段组合”。常见的有邮箱、手机号、社媒账户ID、第三方平台的用户ID。可以单一字段,也可以组合(邮箱+姓名、手机号+国家码)。
匹配策略(Match Strategy)
常见有:
- 精确匹配:值完全相同(适合邮箱、平台ID)。
- 模糊匹配:字符串相似度(用于姓名、地址)。常用Levenshtein或相似度阈值。
- 正则/规则匹配:手机号不同格式但都能归一化后匹配(+86 138-0000-0000 vs 13800000000)。
- 组合匹配:必须同时满足多个字段(如邮箱相同或手机号相同、且国家一致)。
优先级与权重(Priority & Weighting)
当两条记录匹配时,优先级决定保留哪条为主记录。优先级可以基于来源(订单>表单>社媒消息)、时间(最新优先)或人工标注(管理员标记为主)。也可以给不同来源赋权重,按权重综合评分决定主记录。
时间窗(Time Window)
时间窗用来控制“重复”的时间范围,比如把30天内的会话看作同一人,超过则认为可能为新会话。对去重影响很大,尤其在营销场景中要与业务节奏匹配。
在海王出海里如何配置(按步骤,实操风格)
下面是一个通用的配置步骤,我会把每一步尽量写得像在后台点操作那样——嗯,方便你照着做:
- 收集并映射字段:先整理好各渠道能提供的字段,做一个字段映射表,将渠道字段统一映射到平台字段(比如把不同格式的手机号统一到mobile字段)。
- 规范化输入:在去重前先做格式化:邮箱小写化、手机号删除非数字字符并加国家码、姓名去重空格与常见前缀。
- 新增去重规则:在平台的去重规则管理页面创建新规则,给规则命名并填写说明(便于复查)。
- 定义匹配条件:选择要匹配的字段(如邮箱|手机号|社媒ID),为每个字段选择匹配类型(精确/模糊/正则)与阈值。
- 设定优先级与合并策略:为规则设置权重或优先级,定义合并行为(覆盖/保留/字段级合并)。比如:联系方式用最新覆盖,备注与标签做并集。
- 时间窗与来源限制:如果需限定匹配有效期,设置时间窗;可选择仅对某些来源生效。
- 启用预览与测试:运行预览用若干最近数据检验匹配结果,人工核查命中样例,调整阈值。
- 启用并监控:确认后启用规则,观察日志和匹配率,定期复检并优化。
一些现实场景与推荐配置(直接好用)
- B2C电商(手机号与邮箱主导)
- 主键:手机号、邮箱
- 匹配:手机号正则归一化后精确;邮箱小写后精确;姓名做模糊备用
- 优先级:订单数据>客服会话>导入
- 合并策略:联系方式用最新,地址做字段级合并,订单历史聚合
- B2B/外贸(公司/邮箱/税号)
- 主键:公司名+联系人邮箱或税号
- 匹配:公司名模糊(词干/同义替换),邮箱精确
- 优先级:合同/订单>销售手动录入>表单
- 社媒导流(多渠道ID)
- 主键:社媒账号ID为首选,若缺失则使用手机号/邮箱
- 匹配策略:社媒ID精确;手机号归一化后精确;启用跨平台合并策略
示例规则表(可以直接照着填)
| 规则名称 | 匹配字段 | 匹配类型 | 优先级 | 合并策略 | 时间窗 |
| 电商-手机号优先去重 | mobile | 正则归一化后精确 | 100 | 联系方式最新覆盖,标签并集 | 365天 |
| 社媒账号合并 | platform_id, email | 平台ID精确/邮箱小写精确 | 80 | 社媒信息保留,备注合并 | 无(永久) |
| B2B-公司合并 | company_name, email | 公司模糊+邮箱精确 | 90 | 联系人列表合并,合同信息保留 | 730天 |
碰到的常见问题(以及怎么解决)
手机号格式多样导致误匹配或漏匹配
解决方法:统一归一化(去空格、去符号、补国家码),再做匹配。对中国号码强制+86标准化,对其他国家用国家码规则库。
不同平台同一用户使用不同邮箱/手机号
解决方法:建立跨渠道用户画像,使用软链接(alias)机制,把不同标识聚合到同一用户ID下,保留来源链路以便溯源。
合并后信息丢失或覆盖误伤
解决方法:启用字段级合并、保留历史快照与回滚功能。合并前先开启预览模式,由人工确认高风险样例。
一些实施建议(小心思,总结式提示但不是结尾)
- 先做少量规则与小样本测试,观察误判率,再放量。
- 日志一定要打开——去重操作要可审计,方便回滚和复盘。
- 把合并策略写成可配置的“模板”,不同业务线可以套用或微调。
- 定期跑质量检查脚本(比如每月统计合并率、误判样本),并和销售/客服做对账。
- 保持字段的标准化流程在数据入口处执行,能把后续去重工作省很多力。
我自己用过的一套快速检查清单(上手就能用)
- 字段映射完成并保存?(是/否)
- 手机号与邮箱已归一化?
- 已配置至少一条“预览模式”的去重规则并运行?
- 是否为高风险合并配置了人工复核?
- 回滚与审计日志是否开启?
嗯,好吧,我把能想到的要点都写进来了——做去重其实没有魔法,关键是把规则体系化并且留住审计痕迹。按上面的步骤去做,先测再放量,遇到特殊场景再细化规则,就稳得多了。