当前位置：主页 > 查看内容

扩展 GRTN：云原生趋势下的 RTC 架构演进

发布时间：2021-04-24 00:00| 有位朋友查看

简介：后端传输网络是 RTC 系统的核心能力比如阿里云的 GRTN、声网的 SD-RTN 等。本文介绍了阿里云视频云如何不断改进 RTC 架构扩展 GRTN 网络并基于云原生技术获得云的强大能力。个人介绍大家好我是杨成立忘篱目前在阿里云负责 RTC 的传输网络之前在蓝汛……

后端传输网络是 RTC 系统的核心能力比如阿里云的 GRTN、声网的 SD-RTN 等。本文介绍了阿里云视频云如何不断改进 RTC 架构扩展 GRTN 网络并基于云原生技术获得云的强大能力。

个人介绍

大家好我是杨成立忘篱目前在阿里云负责 RTC 的传输网络之前在蓝汛 CDN 负责直播的传输网络这十年左右一直在做视频的后端服务也是开源视频服务器 SRS 的作者 SRS 目前是全球 Top1 的开源视频服务器。

后端服务都架构在云上 CDN 的趋势也是边缘云这是因为云计算成为各种服务的基础设施当然也包括视频的后端服务。开发者可以便捷的直接使用云厂商的 SDK 和视频云服务也可以使用开源方案在云上构建自己的系统。

我正好活跃在视频开源和云服务这两个领域一直都有朋友询问这两个的差异借这次机会正好分享下这个话题希望通过这次分享大家可以了解从一个开源服务器到可以提供服务的商业系统到底有哪些路要走。

RTC 服务介绍

因为有些朋友不是做服务器的我还是先介绍下 RTC 服务是什么吧。

直播经过这些年的发展大家都理解需要后端服务比如 OBS 推流是不能直接推给播放器的而是经过 CDN 转发 CDN 就是直播的后端服务了。

RTC 是大不相同的比如 WebRTC 本身设计是通话通话场景大部分时候都是一对一的对话所以 WebRTC 设计了多种传输方式比如直接 P2P、通过 STUN 转发、通过 SFU 或 MCU 转发。

如果只是跑 DEMO 那么不用 RTC 服务器直接 P2P 也是可以跑起来的。真实线上肯定是要经过服务器现在使用最广的是 SFU 转发。主要原因如下

P2P 打不通有些网络是对称 NAT 两个客户端在各自的内网无法通过 P2P 打通就必须使用服务器中转流。

跨网远距离传输比如跨国传输或者跨运营商客户端直接 P2P 就算能连通效果也不好如果经过服务器可以优化传输线路。

会议转直播如果需要对媒体进行处理比如将 RTC 转直播广播给更多观众就需要转码和转协议这也必须要服务器处理。

录制精彩片段目前的录制和剪辑等内容的处理在互联网上还是 RTMP 对接比较多将 RTMP 流送到录制或剪辑系统。

不同客户端网络状况不同有些客户端网络好有些差通过服务器可以精确计算不同客户端的网络情况给客户端传输不同的质量的流。

兼容老客户端和协议线上客户端的版本非常多随着迭代可能支持的协议也不一样需要服务器做兼容处理。

各家云厂商都有自己的后端服务比如阿里云的 GRTN 声网的 SD-RTN 等等。实际上传输网络并不等于传输服务器而是一个传输的系统包括调度、路由、协议处理、发布和维护、问题排查、数据分析等等。

AliRTC 阿里云 RTC 的传输网络传输协议使用 GRTN 除了 GRTN (CDN) 的网络我们还扩展实现了 GRTN (Tenfold) GRTN (Tenfold) 补充了 BGP 专线、ENS、专有云网络、第三方云支持 K8S 的云网络等适应多种不同场景的传输要求。

其中 GRTN (Tenfold) 就是基于 SRS 做的增加了很多能力有些已经反馈给了 SRS 社区。

为何选择 SRS

下面介绍下 SRS 以及我们为何要选择 SRS。

视频服务器的主要问题是门槛高、领域广、更新快开源和云服务不同步。

门槛高由于视频的技术栈很深信号处理、编解码、传输、客户端平台每个方向都有很深的技术栈必须要有专门的视频服务器。业内知名的 Nginx 本质上并不是做视频的 Web 和视频差别非常大。

领域广直播和 RTC 是互联网成规模的应用其实还有监控和 IoT 发展也非常快公有云、专有云、边缘云多个云的情况也不同我们需要一个跨视频领域的服务器。Janus 等专门的会议服务器在超大规模上有结构性的问题或者说这是直播要解的问题所以 Janus 不需要解。

更新快开源和云服务不同步视频比云服务发展更早而云服务的很多要求开源视频服务器并不满足很多开源项目并不考虑云架构因此从基于开源的自建系统迁移到云就非常难。

为什么这个问题很重要

影响视频在各个领域的落地阻碍新场景的发展。新场景一定是跨领域的不会有只做直播或只做 RTC 的情况新领域并不是直播简单的渗透而是互联网视频的渗透只有跨领域的开源项目才能推动新场景的发展和落地。

无法使用云服务能力。云架构最厉害在于弹性而且是标准的跨云的弹性。如果开源项目本身不考虑云架构就无法迁移到云也没有弹性能力。开源的云架构并不是把开源在云主机中运行就是云架构。

多云迁移困难。云的方向是应用上云的标准化 (K8S) 可以在多个云之间无缝迁移这给应用非常高的可靠性。如果开源项目本身不做 K8S 所要求的改造就无法在多个云之间迁移。

SRS 如何解决这个问题 SRS 的定位是云原生的视频服务器应对云原生做了大量改造可以非常方便上云和迁移。

除了云原生的能力 SRS 也是非常高性能的开源服务器。当然性能没有最高只有更高每个大版本都需要做性能优化然后用性能交换功能和用户体验。

特别说明下这里并不是说 Nginx 和 Janus 就做不到 SRS 的并发只是目前的版本压测出来的数据。性能和行业背景是非常相关的比如 2012 年大多是千兆网络时代所以 Nginx 的性能足够能打满带宽了。而 Janus 同类的服务器差不多都是 Janus 这个量级。SRS 之所以一直重视性能是因为互联网很关注成本成本必须使用性能交换。

今年是 SRS 第八个年头去年已经成为开源视频服务器的 Top1 主要还是因为国内的视频行业发展很快另外活跃的视频开源服务器比较少。

这里说点八卦这次疫情给全球经济带来很大影响也带来了互联网视频的大爆发比如直播、教育、会议、云游戏、IoT 等等。大家只能在家活动所以互联网成了大家交流的重要方式各个开源项目也在 20 年初有很大的增长比如 Janus。

很可能这是我们唯一会经历的黑天鹅了我之前一直有个疑问就是疫情结束后是否互联网视频会回到解放前从 Janus 的增长速度看半年后增长的速度回落到疫情前了。这也许也说明了就算是做开源也不能依赖这种事件。

SRS 的快速增长是在 19 年底这个时间点也是 SRS 支持 WebRTC、SRT 和 GB28181。所以也分不清多少是疫情的拉动多少是因为 SRS 自己的努力。好消息是 SRS 的增长并没有回落而且是目前增长最快的开源视频服务器项目。持续的增长和全球 Top1 这不是结束而是一个新的开始。

我们认为只有公众号订阅的开发者超过 100K 才能有机会提升了整个视频行业开发者的创造力。只有达到 100K 的 Star 才能叫互联网视频的标准开源服务器。只有不断推动新场景的 DEMO 和探索才能不断拓展视频的边界。

SRS 是一个雄心勃勃的开源项目十年的 OKR 是个挺大的目标。如果我们看三十年后那么有三代新的开发者进入视频行业而随着视频成为互联网基础设施的一部分那么这个目标也不算是很大最大的问题可能是在于 SRS 能否活够 30 年吧。

什么是云原生

回到今天的主题从开源 SRS 到商业服务还需要解决哪些问题。

长会话 RTC 中最长有 48 小时的会议甚至更长直播有时候也是非常长时间推流比如昨天雷军的视频号直播折叠小米手机的折叠屏连续直播折叠三天。这三天直播服务怎么升级

中心、边缘、专有云 SLA 差异大中心云的网络状况基础设施的完善度很高会话的迁移相对比较容易。而边缘和专有云的 SLA 就差很多不能用同样的机制做迁移。

端口和 IP 复用传统 RTC 一般是内网应用有可以随便使用的 IP 可以分配几万个随机端口这些在云上有安全隐患公网 IPv4 地址不能随意用扩容就很难做。

流多且有关联还有切网问题直播的流之间没有关联性可以在服务器负载高时调度新的会话到其他服务器而 RTC 流之间有关联性有时候不能随意调度导致负载均衡很难做。

性能优化难 RTC 必须加密 UDP 在内核协议栈的性能低下 QoS 算法的不断迭代消耗了性能。这让 RTC 的服务不再是单纯的 IO 密集型服务器性能是整个系统的基础影响其他所有的方面。

客户端版本和算法多很难做回归测试。牵一发而动全身很难知道一次修改是否会导致客户端出问题很难知道是否所有线上的大版本和小版本是否会出问题。

这些问题前四个和云原生是有非常紧密的关系。后面几个问题每个都是很大的话题限于时间关系我们会在以后给大家分享。

云的发展方向不管是中心云、边缘云还是专有云都是云原生方向。云本身就云里雾里云原生更加云山雾罩了我们可以看看云本身的思考。

可以说开源项目如果做了云原生的改造和重新设计具备了云架构的能力就解决了商业化服务一个大问题。我们一起来看需要做哪些改造。

长会话升级难

问题长会话最长有 48 小时会议升级困难。

为何重要真正提供服务的线上系统不是在升级就是在升级的路上一天到晚都是升级。是不可能完全停下来中断服务全量升级后再提供服务。长会话意味着必须支持无中断升级否则就会造成不可用和服务中断的问题严重影响客户体验。

扩缩容也会受到长会话的影响。业务量增长时需要增加机器扩容现有长会话无法迁移到新的机器扩容只能应对新的流量。业务量降低后可以缩容降低成本如果长会话的周期超过了业务周期就无法实现缩容。

直播的业务质量是按百分比计算比如百分之 N 的卡顿是可以接受的。而在 RTC 中会议中有一个人不可用整个会议就无法继续。每个会议都很重要的一个会议的重要性并不一定低于另外一百个会议。

现状和未来开源 SRS 改进了退出逻辑可以做到等待一定时间后退出。SRS 还做不到无状态升级因为要做到无状态化需要依赖存储而开源的 SLA 还不需要那么高。

GRTN (Tenfold) 已经做到无状态化升级可随时升级当然会选择业务低峰期升级。由于可以无状态重启我们也顺便解决了 Crash 后恢复的问题 C 的程序就像移动端的 Crash 率一样的一定会有 Crash。

未来 GRTN (Tenfold) 还会做到状态迁移和 K8S 的滚动升级。

SLA 不同迁移难

问题没有 100% 的 SLA 底层设施一定会出问题迟早会出问题宕机、IO Hang、网络不可用中心、边缘、专有云 SLA 差异大迁移难。

为何重要当底层基础设施出现问题虽然概率不大但一旦出现问题服务就是不可用了。一台服务器不可用时影响的不仅仅是这台服务器的会话而是这个服务器上的所有会议一个会议一般会跨多个服务器。

中心云的迁移可用的基础设施比较完善。边缘云和专有云网络状况和基础设施可靠性不如中心云迁移的难度更大。

现状和未来 SRS 没有支持迁移开源的 SLA 容忍度高一些同类开源服务器也没有迁移能力未来计划使用体验差的重连方案支持迁移。

GRTN (Tenfold) 具备了底层迁移能力预计今年可以支持中心云迁移。未来需要不断优化迁移能力支持边缘云和专有云的迁移还需要考虑计划中的迁移比如流量再均衡。

端口和 IP 复用扩容难

端口和 IP 复用传统 RTC 一般是内网应用有可以随便使用的 IP 可以分配几万个随机端口这些在云上有安全隐患公网 IPv4 地址不能随意用几万个扩容就很难做。

问题安全要求只能开固定的端口企业防火墙只能开特定的端口不能开一定范围端口比如 10000 到 20000 端口。

为何重要不符合安全规范无法通过安全审核。多端口更容易被攻击如果出现安全事故比一台服务不可用还要严重这也是为何 WebRTC 正在做 E2E 端到端加密的原因。

有些用户在企业防火墙后面访问公网时不能访问任意端口必须收敛到某些 IP 和端口。如果不支持端口复用就无法在这些企业场景下使用。

端口本质上是一种状态它是一种对用户的标示比如 IP 端口就可以认为是某个客户端。这也给服务迁移带来问题需要迁移更多的状态。

现状和未来云原生的标准做法是通过 SLB/Service 隐藏服务流量通过 SLB 转发到真实的 Pod 服务器。SRS 已经支持了这种方式。

线上还有移动端切网问题会影响 SLB 定位客户端。SRS 目前使用 ICE 的 PingPong 标示客户端未来和更好的做法是用 QUIC QUIC 协议本身考虑了会话的标示在 SLB 层就可以解决问题。

GRTN (Tenfold) 还支持了 TURN 协议的 SLB 转发。未来还需要解决在边缘云中的端口复用问题和中心云不同边缘云可能是分运营商的客户端切网后需要更换 IP 入口。

流多且关联负载均衡难

问题流有关联性服务的会话数不变负载可能会突增。流的关联性码率的波动以及 QoS 算法的动态变化导致水位评估不准会话数目不增加时消耗的 CPU 和带宽都不同。

为何重要水位如果无法精确评估就只能预留较多资源保持较低的水位运行避免水位突增服务器被打爆。保持较低水位导致整体成本高。

现状和未来 SRS 还没有解决这个问题正在做 QUIC 级联未来会考虑给出服务器的水位但不会做流量调度和负载均衡这个是系统要做的。

GRTN (Tenfold) 已经支持多级级联跨区域级联有粗略的水位评估。正在做精确的水位评估未来会考虑做流量均衡。

SRS 云原生

总结来说云原生解决的都是脏活累活而且还是干不完的脏活累活。云原生往前走了一大步让基础设施可以不断的标准化发展应用只要遵守云原生的规范就可以在多个云上悠然自得。

视频的门槛真的非常非常非常的高还记得十一年前刚开始接触 Flash 和 FFmpeg 仅仅各种概念和协议就让人一头雾水。SRS 希望能让视频的门槛不断降低保持易用性让开发者少一些焦虑和压力保持浓密的头发。

但这不是 RTC 服务的全部挑战。生生不息填坑不止后端服务就没有做完的那一天。

「视频云技术」你最值得关注的音视频技术公众号每周推送来自阿里云一线的实践技术文章在这里与音视频领域一流工程师交流切磋。

本文转自网络，原文链接：https://developer.aliyun.com/article/783743
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：重磅发布 | 阿里云视图计算，边缘计算的主“战”场 下一篇：没有了

随机推荐

PAI-EasyTransfer应用实践

查看精彩回放 https://developer.aliyun.com/live/245530 大纲本文主要围绕实践...
十点详解C++异常处理一文助你全面剖析C+

一，什么是异常处理一句话：异常处理就是处理程序中的错误，比如尝试除以零的操...
助力可观察性统一平台：SLS Trace服务发

背景IT系统演进为了更好的适应商业模式的快速演进 IT核心能力包括开发模式、系...
IoT物联网平台「设备影子」开发实战

致力于实现万物互联的美好世界，为生态合作伙伴提供基于云计算、大数据、人工智...
智稳双全--AnalyticDB如何助力菜鸟运配双

#今年双十一快递有多快#、#双十一快递比外卖还快# 这些话题在今年双十一期间频繁...
服务器租用哪里便宜

服务器租用哪里便宜？市场上提供服务器租用的厂商有很多，目前比较知名的有阿里...
一日一技：可视化分析 Redis Key 资源占

Redis 在日常的开发中，会积累大量的 Key，占用不少内存空间。有时候，我们想知...
tke集群命名空间自动注入服务网格sidecar

通常我们部署了istio，都会配置下集群的哪些命名空间下的服务需要被istio管理，...
专访丨阿里云郝冲：数字孪生为边缘计算带

备受关注的2021全球分布式云大会·北京站于4月7日隆重召开，分布式云是2021年全...
iOS-埋点2021-Aspect的改变

面向切面编程AOP 应用场景： ·参数校验:网络请求数据点参数校验，返回数据格式...

扩展 GRTN：云原生趋势下的 RTC 架构演进

推荐图文

如何构建以数据为中心的架构

60 秒系统安全认证实战

开放搜索教育搜题能力和实践

云上技术 | 混合云多活容灾方案

中国制造商chervon收购美国工具品牌！相关域名skil.

阿里云获2021最佳创新引领边缘解决方案奖

随机推荐

PAI-EasyTransfer应用实践

十点详解C++异常处理一文助你全面剖析C+

助力可观察性统一平台：SLS Trace服务发

IoT物联网平台「设备影子」开发实战

智稳双全--AnalyticDB如何助力菜鸟运配双

服务器租用哪里便宜

一日一技：可视化分析 Redis Key 资源占

tke集群命名空间自动注入服务网格sidecar

专访丨阿里云郝冲：数字孪生为边缘计算带

iOS-埋点2021-Aspect的改变

关于我们