首页
学习
活动
专区
工具
TVP
发布

857-Bigdata

专栏成员
92
文章
107042
阅读量
22
订阅数
探究Modbus TCP:工业自动化中的关键通信协议
Modbus TCP是一种应用于工业自动化领域的通信协议,它是Modbus协议的一个变种,采用TCP/IP协议进行数据传输。Modbus TCP使得Modbus协议可以通过以太网网络运行,允许设备之间在IP网络上交换数据。
857技术社区
2024-05-30
530
设计一套针对熟悉ChatGLM、Llama2、Qwen等大型语言模型及其微调技术
设计一套针对熟悉ChatGLM、Llama2、Qwen等大型语言模型及其微调技术(如Prompt Engineering、P-Tuning v2、LoRA)的面试题目,旨在评估应聘者对这些模型架构的理解、微调方法的掌握程度以及在实际应用中的问题解决能力。以下是一套综合性的面试题设计方案:
857技术社区
2024-05-30
370
入门生成式语言模型(Generative Language Models)
训练策略和模型之间有着密切的联系,尤其是在自然语言处理(NLP)和机器学习领域。以下是训练策略和模型的简要介绍:
857技术社区
2024-05-20
1320
Shell遍历HDFS路径统计层级目录大小
857技术社区
2024-01-10
1360
【nlp-with-transformers】|Transformers中的generate函数解析
今天社群中的小伙伴面试遇到了一个问题,如何保证生成式语言模型在同样的输入情况下可以保证同样的输出。
857技术社区
2023-09-18
1.2K0
【建议收藏】|3分钟让你学会Scala Trait 使用
Scala 是一种强大的静态类型编程语言,其中的 Trait 是一种重要的特性。Trait 可以被看作是一种包含方法和字段定义的模板,可以被其他类或 Trait 继承或混入。在本文中,我们将介绍 Scala Trait 的边界(Boundary)的概念,并展示如何使用它来限制 Trait 的使用范围。
857技术社区
2023-07-26
1740
一文读懂如何处理缓慢变化的维度(SCD)
长期以来,Kimball方法一直是维度数据建模技术的标准。根据Kimball的说法,“时间概念渗透到数据仓库的每个角落”。这在数据分析的背景下意味着什么?在较高的层面上,现代分析可以被视为随着时间的推移不断变化的数据的聚合。问题在于,不断变化的数据不仅包括新的添加,还包括对先前数据集的更改。
857技术社区
2023-07-26
3750
Flink 遇见 Apache Celeborn:统一的数据 Shuffle 服务
我们非常高兴的宣布 Apache Celeborn(Inclubating)[1]正式支持 Flink,Celeborn 于去年 12 月份正式进入 Apache 软件基金会 (ASF) 的孵化器,一直致力打造统一的中间数据服务,助力引擎全方位提升性能、稳定性和弹性,最新发布的 0.3.0 版本新增对 Flink 批作业 Shuffle 的支持,从此 Flink、Spark 可以同时使用统一的数据 Shuffle 服务,更大程度节省资源、降低运维成本。
857技术社区
2023-07-26
4240
Flink+StarRocks 实时数据分析实战
摘要:本文整理自 StarRocks 社区技术布道师谢寅,在 Flink Forward Asia 2022 实时湖仓的分享。本篇内容主要分为五个部分:
857技术社区
2023-07-26
8660
聊聊数据仓库建设步骤
预计到2025年,全球数据量将增长至180ZB,企业必须处理两个主要问题——在哪里存储数据以及如何使用数据。数据仓库自20世纪80年代以来就已经存在,并且其功能不断扩展,可以帮助应对这两个挑战。然而,根据独立市场研究公司VansonBourne的研究,无论技术成熟度如何,而且数据仓库通常由专家开发,失败项目的比例仍然高居不下。
857技术社区
2023-07-26
3570
Flink CDC 2.4 正式发布,新增 Vitess 数据源,更多连接器支持增量快照,升级 Debezium 版本
Flink CDC [1] 是基于数据库的日志 CDC 技术,实现了全增量一体化读取的数据集成框架。配合 Flink 优秀的管道能力和丰富的上下游生态,Flink CDC 可以高效实现海量数据的实时集成。
857技术社区
2023-07-26
4050
浅析 Apache DolphinScheduler 工作流实例的生命周期
大家好,我是蔡顺峰,白鲸开源的数据工程师,同时也是Apache DolphinScheduler项目的committer和PMC成员。今天我想和大家分享的主题是工作流实例的生命周期。
857技术社区
2023-07-26
4890
一文读懂 Kappa 和 Lambda架构【CDGP重要参考】
在大数据处理领域,两种突出的数据架构已成为处理大量数据的流行选择:Lambda 架构和 Kappa 架构。这些架构为实时和批处理提供了强大的技术解决方案,使组织能够从其数据中获得有价值的见解。在本文中,我们将深入研究 Lambda 和 Kappa 架构,研究它们的主要特征、优点和注意事项。
857技术社区
2023-07-26
1.1K0
Flink 流批一体在 Shopee 的大规模实践
摘要:本文整理自 Shopee 研发专家李明昆,在 Flink Forward Asia 2022 流批一体专场的分享。本篇内容主要分为四个部分:
857技术社区
2023-07-26
4990
谈谈企业需要什么样的数据架构
在大数据和数据科学的新时代,企业拥有一个与业务流程保持一致的集中式数据架构至关重要,该架构可以随着业务增长而扩展,并随着技术进步而发展。一个成功的数据架构可以清晰地展示数据的各个方面,从而使数据科学家、数据分析师、业务人员能够高效地处理可信赖的数据并解决复杂的业务问题。它还使组织能够通过利用新兴技术快速应对新的商业机会,并通过管理整个企业的复杂数据和信息交付来提高运营效率。
857技术社区
2023-07-26
1740
【建议收藏】|Hybrid Shuffle 测试分析和使用建议
摘要:Apache Flink 社区在 1.16 版本引入了 Hybrid Shuffle Mode [1],它是传统的 Batch Shuffle 和 Pipelined Shuffle 的结合,让 Flink 批处理具备了更强大的能力。Hybrid Shuffle 的核心思想是打破调度约束,根据可用资源的情况来决定是否需要调度下游任务,同时在条件允许时支持全内存不落盘的数据传输。
857技术社区
2023-07-26
1500
【建议收藏】|某大型金融集团内部数据治理实战总结
对于你喜欢的事想去做的事,你必须付出百分之一千的努力你知道这一路可能会有很多困难,会有坚持不下去想要放弃的时候也有时候,你不一定会得到你想要的结果,但你—定要相信。
857技术社区
2023-05-23
3260
基于ray 多进程调度管理能力优化networks节点最短路径的并行计算
原生的networkx实现的只能在节点介数度量性任务上达到单核心100的cpu利用率。通过对源码的几行改造我们可以实现多核心的100的利用率。接下来要我们来一起看看是如何实现的多核心100的利用率。
857技术社区
2023-05-23
2770
5分钟入门数据湖IceBerg
随着大数据存储和处理需求的多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析成了企业构建大数据生态的一个重要方向。Netflix 发起的 Apache Iceberg 项目具备 ACID 能力的表格式成为了大数据、数据湖领域炙手可热的方向。
857技术社区
2023-05-23
4.3K0
5万字长文!搞定Spark方方面面
今天给大家分享一篇小白易读懂的 Spark 万字概念长文,本篇文章追求的是力求精简、通俗易懂。希望能为新手的入门学习扫清障碍,从基础概念入手、再到原理深入,由浅入深地轻松掌握 Spark。
857技术社区
2023-05-23
1.1K0
点击加载更多
社区活动
AI代码助手快速上手训练营
鹅厂大牛带你玩转AI智能结对编程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com