如何保证mongodb和数据库双写数据一致性？

来源：未知编辑：天选资讯时间：2023-03-14

　　最近在我的技术群里，有位小伙伴问了大家一个问题：如何保证Mongodb和数据库双写的数据一致性？

　　其实我在实际工作中的有些业务场景，也在使用，也遇到过双写的数据一致性问题。

　　很多小伙伴看到双写数据一致性问题，首先会想到的是和的数据双写一致性问题。

　　有些小伙伴认为，和的数据双写一致性问题，跟和的数据双写一致性问题，是同一个问题。

　　一般情况下，如果有用户请求过来，先查缓存，如果缓存中存在数据，则直接返回。如果缓存中不存在，则再查数据库，如果数据库中存在，则将数据放入缓存，然后返回。如果数据库中也不存在，则直接返回失败。

　　是一个高可用、分布式的，用于大容量数据存储。文档存储一般用类似的格式存储，存储的内容是文档型的。

　　用户写数据的请求，会被写入数据库，json格式的，可能会写入MongoDB。

　　用户读数据的请求，会先读数据库中的数据，然后通过文档的id，读取MongoDB中的数据。

　　Redis和MongoDB在我们实际工作中的用途不一样，导致了它们双写数据一致性问题的解决方案是不一样的。

　　该方案最简单，先在数据库中写入核心数据，再在MongoDB中写入非核心数据。

　　如果有些业务场景，对数据的完整性要求不高，即非核心数据可有可无，使用该方案也是可以的。

　　当数据库刚保存了核心数据，此时网络出现异常，程序保存MongoDB的非核心数据时失败了。

　　但MongoDB并没有抛出异常，数据库中已经保存的数据没法回滚，这样会出现数据库中保存了数据，而MongoDB中没保存数据的情况，从而导致MongoDB中的非核心数据丢失的问题。

　　在该方案中，先在MongoDB中写入非核心数据，再在数据库中写入核心数据。

　　关键问题来了：如果MongoDB中非核心数据写入成功了，但数据库中的核心数据写入失败了怎么办？

　　这时候MongoDB中非核心数据不会回滚，可能存在MongoDB中保存了数据，而数据库中没保存数据的问题，同样会出现数据不一致的问题。

　　答：我们忘了一个前提，查询MongoDB文档中的数据，必须通过数据库的表中保存的。但如果这个在数据库中都没有保存成功，那么，在MongoDB文档中的数据是永远都查询不到的。

　　也就是说，这种情况下MongoDB文档中保存的是垃圾数据，但对实际业务并没有影响。

　　我之前聊的先写MongoDB，再写数据库，这套方案中的流程图，其实主要说的是新增数据的场景。

　　但如果在用户修改数据的操作中，用户先修改MongoDB文档中的数据，再修改数据库表中的数据。

　　如果出现MongoDB文档中的数据修改成功了，但数据库表中的数据修改失败了，不也出现问题了？

　　这就需要把流程调整一下，在修改MongoDB文档时，还是新增一条数据，不直接修改，生成一个新的mongo id。然后在修改数据库表中的数据时，同时更新mongo id字段为这个新值。

　　这样如果新增MongoDB文档中的数据成功了，但修改数据库表中的数据失败了，也没有关系，因为数据库中老的数据，保存的是老的mongo id。通过该id，依然能从MongoDB文档中查询出数据。

　　在之前的流程中，修改完数据库，更新了mongo id为新值，接下来，就把MongoDB文档中的那条老数据直接删了。

　　该方案可以解决用户修改操作中，99%的的垃圾数据，但还有那1%的情况，即如果最后删除失败该怎么办？

　　我们可以使用或者进行重试，优先推荐使用mq增加重试功能。特别是想，自带了失败重试机制，有专门的，我们可以设置。

　　将之前删除MongoDB文档中的数据操作，改成发送mq消息，有个专门的mq消费者，负责删除数据工作，可以做成共用的功能。它包含了失败重试机制，如果删除5次还是失败，则会把该消息保存到中。

　　还有一种垃圾数据还没处理，即在用户新增数据时，如果写入MongoDB文档成功了，但写入数据库表失败了。由于MongoDB不会回滚数据，这时候MongoDB文档就保存了垃圾数据，那么这种数据该如何清理呢？

　　我们可以使用job定时扫描，比如：扫描一次MongoDB文档，将mongo id取出来，到数据库查询数据，如果能查出数据，则保留MongoDB文档中的数据。

　　如果在数据库中该mongo id不存在，则删除MongoDB文档中的数据。

　　如果MongoDB文档中的数据量不多，是可以这样处理的。但如果数据量太大，这样处理会有性能问题。

　　比如：扫描MongoDB文档数据时，根据创建时间，只查最近24小时的数据，查出来之后，用mongo id去数据库查询数据。

　　如果直接查最近24小时的数据，会有问题，会把刚写入MongoDB文档，但还没来得及写入数据库的数据也查出来，这种数据可能会被误删。

　　这样可以解决大部分系统中，因为数据量过多，在一个定时任务的执行周期内，job处理不完的问题。

　　但如果根据时间缩小范围之后，数据量还是太大，job还是处理不完该怎么办？

　　当然我们还可以将job的执行时间缩短，根据实际情况而定，比如每隔12小时，查询创建时间是13小时前到1小时前的数据。

　　不知道你了解过删除数据的吗？它在处理大批量数据时，为了防止使用过多的CPU资源，用了一种的策略。

　　有另外一个job，每隔500ms获取10条数据进行批量处理，当然获取的数据也是根据时间缩小范围的。