PRTS:关于8月10日服务器数据库回滚及近期计划

来自PRTS
跳到导航 跳到搜索

背景介绍

在几个月前,为了应对日益增长的性能需求,运维人员已经对服务器的性能进行了优化升级,包括:

  • 升级常驻实例配置(1台 16c16g ecs.ic5.4xlarge)
  • 分离数据库(1台 2h8g ecs.g5.large)
  • 建立负载均衡组
  • 配置弹性伸缩策略
  • 提升常驻回源带宽为15Mbps
  • ......

当晚情况

在8月10日FGO开启五周年庆典之际,由于人气卫星的落地,Mooncell迎来了建站以来最大的流量,在当晚18时,CDN瞬时带宽峰值达到了799.84Mbps,回源带宽最高63.84Mbps。

为了更好地应对即将到来的超高流量,运维人员热备了4台12c16g服务器加入负载均衡组,并临时提升回源带宽至60Mbps,解决了第一波涌入的流量。

但是由于后续升级带宽回落,服务器在当晚8时出现无法访问的情况。并且于当晚出现了数据库异常崩溃的情况。经运维人员检查,是由于实例硬盘存储空间耗尽所导致的异常,但由于数据库日志文件损坏,无法对异常数据进行恢复,于次日凌晨1时左右先行使用了8月9日 上午6时02分的备份对数据库进行回滚。

无法恢复的自备份起到当晚的所有数据包括且不限于:

  • 编辑记录
  • 编辑版本
  • 评论区评论及其状态(被举报、被标记为垃圾评论、被删除等)
  • 日志 包括上传日志(文件索引)、封禁日志、评论日志等
  • 封禁记录及状态

后续处理

截至本公告发表时(2020年8月13日 (四) 00:27),由于所有编辑的共同努力,站内大部分页面已恢复正常并更新至数据库回滚前版本。如果您发现仍然有遗漏的页面,欢迎自行对内容进行补充/修正或前往PRTS:反馈与建议进行反馈。

未来的更新计划

网站主程序

在八月下旬MediaWiki LTS版本1.35发布后,我们将进行停机维护以更新本站MediaWiki至该版本,更新预计于凌晨时段进行,在更新结束后将恢复访问。 受本站上游依赖适配影响,更新本站MediaWiki到1.35版本可能出现兼容性问题。维护时间将在上游依赖适配问题解决后另行通知。

服务器配置

后续会针对现有的站点架构进行优化,主要集中于弹性伸缩及负载均衡配置、缓存服务器配置及各项参数调优。

其他计划

建立类似Github Status的监控系统,提供前端服务器状态查询。