大数据架构说明
目前Hadoop分三种 ,cdh,Apache hadoop,Hortonwork hadoop hadoop原生态包括hdfs,hbase,yarn,MR,zookeeper, 其中现在 hbase可以用kudu代替,yarn可以用k8s代替,MR可以用spark
hive,lmpala 是sql引擎,可以把非结构化或者半结构化数据映射成数据表用sql语句查询
大数据包括几个组件:sql查询引擎框架,计算框架,存储框架,数据仓库
hue:提供Web查询页面
solr:分布式查询引擎(类似es)
sqoop:是cdh里面的将非结构化数据转化成关系数据的工具
spark:代替hive做ETL工作,spark 是一个生态,也包括流处理和sparkSQL,(还有一个开源的etl工具叫Kettle)
个人理解:数据通过flume或airflow采集,或者通过kafuka高速落地后,如果需要ETL或者流处理,那么需要使用spark或hive进行清洗 或者用flink和spark string进行实时处理后,在存入hbase或者kudu里面,通过lmpala进行查询或者sparkSql查询(有必要的话 用hue实现UI查询),还可以用sqoop把清洗的数据导入到关系数据库或者别的数据仓库中
组件
组件描述
版本
Hadoop
可靠的,可扩展的,分布式的存储和计算平台
v3.0.0
HBase
实时读写访问的可扩展的记录和表的存储
v2.1.1
Hive
具备类SQL接口和ODBC/JDBC驱动的元数据知识库连接BI应用和Hadoop
v2.1.1
Hue
遵循Apache许可协议的基于浏览器的桌面Hadoop接口
v3.9.0
Impala
遵循Apache许可协议的、针对存放在HDFS和HBase数据的实时SQL查询引擎
v3.1.0
Kafka
高度可扩展的、容错的发布订阅制消息系统
V2.0.0
Mahout
Hadoop的机器算法的库
v0.9
Yarn
Hadoop各组件资源协调
V3.0.0
Flume
收集和聚合日志和事件数据,实时流写入HDFS或HBase的分布式框架
v1.8.0
Pig
处理存放在Hadoop里的数据的高级数据流语言
v0.17.0
Solr
文本、模糊数学和分面搜索引擎
v7.4.0
Spark
支持循环数据流和内存计算的高速通用数据处理引擎
v2.4
Sqoop
为集成Hadoop和关系数据库的数据传输引擎
v1.4.7
Zookeeper
高可靠的分布式协同服务
v3.4.5
Kudu
一种新的列式存储
V1.8
1.HDFS:Hadoop分布式文件系统被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。这个项目的地址是http://hadoop.apache.org/core/。
2.HBase:HBase是一个分布式的、非关系型开源数据库。 HBase有如下几个特点: HBase是No-SQL的一个典型实现,提升了系统的可扩展性; HBase支持线性水平扩展,极大提升了系统的可伸缩性和运算能力; HBase和Google的BigTable有异曲同工之妙,底层也是建立在HDFS(Hadoop分布式文件系统)之上,可以搭建在廉价的PC机集群上。
NoSQL(NoSQL = Not Only SQL),意思是不仅仅是SQL的扩展,一般指的是非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,传统的电信行业动辍就千万甚至上亿的数据,甚至有客户提出需要存储相关的日志数据50年以上,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。
关系型数据库难以克服的问题:
l 不能很好处理对数据库高并发读写的需求;
l 不能很好处理对海量数据的高效率存储和访问的需求;
l 不能很好处理对数据库的高可扩展性和高可用性的需求。
SQL语言和关系型数据库(MySQL、PostgreSQL、Oracle等)是通用的数据解决方案,占有绝大多数的市场。但是就像上面提到的,它有很多难以解决的问题。不过在最近兴起的NoSQL运动中,涌现出一批具备高可用性、支持线性扩展、支持Map/Reduce操作等特性的数据产品比如MongoDB、CouchDB、Hbase等,它们具有如下特性:
l 频繁的写入操作、相对较少的读取统计信息的操作;
l 海量数据(如数据仓库中需要分析的数据)适合存储在一个结构松散、分布式的文件存储系统中;
l 存储二进制文件(如mp3或者pdf文档)并且能够直接为用户的浏览器提供下载功能。
使用这些非关系数据库并不是要取代原有的关系数据库,而是为不同的应用场景提供更多的选择。也就是说,在一些特定的情况下如果是关系型的数据库解决不了的问题,那么就可以考虑使用nosql,而不是说完全将应用移植到nosql上,毕竟适合才是最好的。
3.Hive:是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼,查询和分析。Apache Hive起初由Facebook开发,目前也有其他公司使用和开发Apache Hive,例如Netflix等。亚马逊公司也开发了一个定制版本的Apache Hive,亚马逊网络服务包中的Amazon Elastic MapReduce包含了该定制版本。
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
4.Oozie:
(1)Oozie是一个管理Hdoop作业(job)的工作流程调度管理系统。
(2)Oozie的工作流是一系列动作的直接周期图。
(3)Oozie协调作业就是通过时间(频率)和有效数据触发当前的Oozie工作流程。
(4)Oozie是Yahoo针对Apache Hadoop开发的一个开源工作流引擎。用于管理和协调运行在Hadoop平台上(包括:HDFS、Pig和MapReduce)的Jobs。Oozie是专为雅虎的全球大规模复杂工作流程和数据管道而设计。
(5)Oozie围绕着两个核心进行:工作流(Workflow)和协调器(Coordinator),前者定义任务拓扑和执行逻辑,后者负责工作流的依赖和触发。
5.Hue:是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。很早以前就听说过Hue的便利与强大,一直没能亲自尝试使用,下面先通过官网给出的特性,通过翻译原文简单了解一下Hue所支持的功能特性集合:
(1)默认基于轻量级sqlite数据库管理会话数据,用户认证和授权,可以自定义为MySQL、Postgresql,以及Oracle
(2)基于文件浏览器(File Browser)访问HDFS
(3)基于Hive编辑器来开发和运行Hive查询
(4)支持基于Solr进行搜索的应用,并提供可视化的数据视图,以及仪表板(Dashboard)
(5)支持基于Impala的应用进行交互式查询
(6)支持Spark编辑器和仪表板(Dashboard)
(7)支持Pig编辑器,并能够提交脚本任务
(8)支持Oozie编辑器,可以通过仪表板提交和监控Workflow、Coordinator和Bundle
(9)支持HBase浏览器,能够可视化数据、查询数据、修改HBase表
(10)支持Metastore浏览器,可以访问Hive的元数据,以及HCatalog
(11)支持Job浏览器,能够访问MapReduce Job(MR1/MR2-YARN)
(12)支持Job设计器,能够创建MapReduce/Streaming/Java Job
(13)支持Sqoop 2编辑器和仪表板(Dashboard)
(14)支持ZooKeeper浏览器和编辑器
(15)支持MySql、PostGresql、Sqlite和Oracle数据库查询编辑器
6.Impala:是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。
7.Key-Value Indexer:HBase是一个列存数据库,每行数据只有一个主键RowKey,无法依据指定列的数据进行检索。查询时需要通过RowKey进行检索,然后查看指定列的数据是什么,效率低下。在实际应用中,我们经常需要根据指定列进行检索,或者几个列进行组合检索,这就提出了建立 HBase 二级索引的需求。Key-Value Indexer使用的是Lily Hbase NRT Indexer服务,Lily HBase Indexer是一款灵活的、可扩展的、高容错的、事务性的,并且近实时的处理hbase列索引数据的分布式服务软件。它是NGDATA公司开发的Lily系统的一部分,已开放源代码。Lily HBase Indexer使用SolrCloud来存储HBase的索引数据,当HBase执行写入、更新或删除操作时,Indexer通过HBase的replication功能来把这些操作抽象成一系列的Event事件,并用来保证写入Solr中的HBase索引数据的一致性。并且Indexer支持用户自定义的抽取,转换规则来索引HBase列数据。Solr搜索结果会包含用户自定义的columnfamily:qualifier字段结果,这样应用程序就可以直接访问HBase的列数据。而且Indexer索引和搜索不会影响HBase运行的稳定性和HBase数据写入的吞吐量,因为索引和搜索过程是完全分开并且异步的。
8.YARN (MR2 Included):下一代 Hadoop 计算平台,以下名称的改动有助于更好地了解 YARN 的设计:
(1)ResourceManager 代替集群管理器
(2)ApplicationMaster 代替一个专用且短暂的 JobTracker
(3)NodeManager 代替 TaskTracker
(4)一个分布式应用程序代替一个 MapReduce 作业
9.Cloudera Manager:核心是Cloudera Manager Server。Server托管Admin Console Web Server和应用程序逻辑。它负责安装软件、配置、启动和停止服务以及管理运行服务的群集。解释:
(1)Agent:安装在每台主机上。它负责启动和停止进程,解压缩配置,触发安装和监控主机
(2)Database:存储配置和监控信息
(3)Cloudera Repository:可供Cloudera Manager分配的软件的存储库(repo库)
(4)Client:用于与服务器进行交互的接口:
(5)Admin Console:管理员控制台
(6)API:开发人员使用 API可以创建自定义的Cloudera Manager应用程序
(7)Cloudera Management Service:
a、Cloudera Management Service 可作为一组角色实施各种管理功能
b、Activity Monitor:收集有关服务运行的活动的信息
c、Host Monitor:收集有关主机的运行状况和指标信息
d、Service Monitor:收集有关服务的运行状况和指标信息
f、Event Server:聚合组件的事件并将其用于警报和搜索
g、Alert Publisher :为特定类型的事件生成和提供警报
h、Reports Manager:生成图表报告,它提供用户、用户组的目录的磁盘使用率、磁盘、io等历史视图
以下是microstrategy公司对应大数据分析和支持的说明
在商业智能和分析行业中,大数据主要涉及如何消费无法使用传统系统处理的大量数据。大数据需要使用新技术来存储、处理、搜索、分析和可视化大型数据集。
有关更多信息,请参阅以下主题:
新用户:概述—提供大数据的一般介绍
有经验的用户:
在 MicroStrategy 中连接和分析大数据源—讨论如何使用 MicroStrategy 连接到大数据源
连接大数据源的工作流程示例—说明连接配置示例
大数据概述
本部分作为大数据的一般介绍,并概要说明术语和最常见的用例。本部分涵盖以下主题:
大数据的用例
大数据技术支持以前因数据量巨大或分析过程太复杂而不可行的用例。如今,利用在大数据中捕获的信息和见解能够为所有业务类型提供帮助:
零售商希望通过向员工提供有关客户购物行为、当前产品、定价和促销的信息,来提供优质和个性化的客户服务。使用 MicroStrategy 运行大数据分析可以帮助商店人员提供个性化和相关的客户体验。
制造商面临着提高效率、降低价格和维持服务等级的持续需求,这迫使他们降低整个供应链的成本。他们还需要通过查看与消费者人口统计和购物行为相关的产品销售情况来进行消费分析。通过使用 MicroStrategy,制造商可以对不同的数据源运行大数据分析,以实现完美的订单达成率和质量,并深入了解消费模式。
电信公司需要将网络使用情况、用户密度以及流量和位置数据关联起来,以便进行网络容量规划和优化。使用 MicroStrategy 的电信公司可以通过运行分析,来准确监控和预测网络容量、制定计划来有效应对可能出现的断网问题和进行促销。
医疗保健机构希望利用医疗组织拥有的 PB 级患者数据来提高药品销量、改善患者分析和提供更好的付款方解决方案。MicroStrategy 可以高效地构建和运行应用程序,以帮助实现此类用例。
政府部门需要处理安全威胁、人口动态、预算编制和金融等大型任务。利用 MicroStrategy 对大型和复杂数据集的分析能力,政府人员可以获得深入见解,帮助他们做出明智的政策决策、消除浪费和欺诈、识别潜在威胁并为公民未来的需求做好规划。
大数据的特征
大数据带来了新的挑战,因此需要使用新的方法来应对挑战。企业在制定实现大数据用例的计划时,需要考虑大数据的 5V 特征:Volume(规模)、Variety(种类)、Velocity(速度)、Veracity(真实性)和 Value(价值)。
规模是指生成的需要分析的数据内容的大小。
速度是指生成新数据的速度,以及数据移动的速度。
种类是指可以分析的数据类型。以前,分析行业主要关注可以放入表和列的结构化数据,它们通常存储在关系数据库中。但是,现在世界上大部分数据都是非结构化的,难以放入表中。在更广泛的层面上,数据可以分为以下三类。每个类别都需要使用不同的方法来分析数据
结构化数据是结构已知的数据。数据存放在文件或记录的固定字段中。
非结构化数据是没有已定义的数据模型或组织的信息。数据可以是文本形式(电子邮件正文、即时消息、Word 文档、PowerPoint 演示文稿、PDF)或非文本形式(音频/视频/图像文件)。
半结构化数据介于结构化数据和非结构化数据之间。数据并未按照严格的数据模型来构建,例如事件日志数据或键值对字符串。
真实性是指数据的可信度。由于大数据的来源和形式很多,质量和准确性都不太可控。
价值是指将大数据转化为明确的商业价值的能力,这需要通过访问和分析来产生有意义的输出。
采用大数据时面临的挑战
企业在开发解决方案来挖掘大数据系统中存在的信息时,会遇到以下挑战:
性能:希望对大数据进行高级分析的组织需要努力实现交互式性能。
数据联合:在实际应用中,需要跨项目来集成数据。将以不同格式存储并具有不同来源的数据联合起来充满挑战性。
数据清洗:企业发现,如何在分析准备期间清洗各种形式的数据也极具挑战性。
安全:保持海量数据的安全是一项挑战,其中包括正确使用加密、记录数据访问历史以及通过各种行业标准认证机制访问数据。
实现价值的时间:企业渴望缩短从数据中释放价值所需的时间。使用一系列单点解决方案来处理各种类型数据的众多来源通常非常耗时。
Hadoop 组件概述
本部分介绍 Hadoop 生态系统的主要组件。
Apache Hadoop 是一个用于分布式存储和分布式处理的开源软件框架,它使组织能够存储和查询比传统数据库中的数据多出几个数量级的数据,并能在经济高效的集群环境中做到这一点。下图显示 Apache Hadoop 组件的架构示意图。

与业务分析直接相关且与 MicroStrategy 支持的用例相关的元素包括:
HDFS(Hadoop Distributed File System,Hadoop 分布式文件系统)是 Hadoop 应用程序使用的数据存储文件系统,运行在商用计算机集群上。HDFS 集群由管理文件系统元数据的 NameNode 和存储实际数据的 DataNode 组成。HDFS 允许存储从 Hadoop 生态系统之外的应用程序导入的大型文件,还可以暂存导入的文件以供 Hadoop 应用程序处理。
YARN(Yet Another Resource Negotiator,另一种资源协调者)提供资源管理能力,是跨 Hadoop 集群为在 Hadoop 上运行的应用程序提供操作、安全和数据治理工具的中心平台。
MapReduce 是一种分布式数据处理模型和执行环境,运行在大型的商用计算机集群上。它使用 MapReduce 算法将所有操作分解为 Map 和/或 Reduce 函数。
Tez 是一种通用的数据流编程框架,它旨在提供比 MapReduce 更好的 SQL 查询工作流程性能。
Hive 是一个构建在 HDFS 之上的分布式数据仓库,用于管理和组织大量数据。Hive 提供用于存储大量原始数据的框架化数据存储和 SQL 式环境,以便在 HDFS 中对原始数据执行分析和查询任务。Hive 的 SQL 式环境是查询 Hadoop 的最流行方式。此外,Hive 可用于将 SQL 查询引导到各种查询引擎,如 Map-Reduce、Tez、Spark 等。
Spark 是一个集群计算框架。它提供简单而富有表现力的编程模型来支持各种应用,包括 ETL、机器学习、流处理和图形计算。
HBase 是一个面向列的分布式数据库。它使用 HDFS 作为底层存储,并支持使用 MapReduce 的批处理式计算和事务性的点查询(随机读取)。
在 MicroStrategy 中连接和分析大数据源
大数据生态系统有许多 SQL 引擎(Hive、Impala、Drill 等),用户可以使用这些引擎将 SQL 查询传递给大数据源,并像使用传统的关系数据库那样来分析数据。因此,用户可以利用在通过 SQL 访问结构化数据时使用的同一分析框架。
MicroStrategy 支持与多个大数据 SQL 引擎的连接,并对这些连接进行了认证。与传统数据库类似,与这些 SQL 引擎的连接是通过 ODBC 或 JDBC 驱动实现的。
MicroStrategy 还提供一种允许用户直接从 Hadoop 文件系统(HDFS)导入数据的方法。这是通过使用 MicroStrategy Hadoop Gateway 实现的,它允许客户端绕过 SQL 查询引擎将数据直接从文件系统加载到 MicroStrategy 内存中立方体以进行分析。
下图显示用于将数据从 Hadoop 系统传输到 MicroStrategy 的层。

选择数据访问模式
MicroStrategy 允许用户有效地利用协同工作的大数据系统和 BI 系统的资源,为运行分析提供最佳性能。用户可以选择以下模式:
将数据存入内存(内存中方法)—仅从内存中立方体获取用于分析的数据。MicroStrategy 使用户能够将数据子集(可能高达数百 GB)从大数据源提取到内存中立方体,然后从该立方体构建报表/达析报告。通常,立方体设置为定期发布并保存在服务器的主内存中,从而无需耗费大量时间来查询大数据数据库。
直接从源访问数据(实时连接方法)—仅从数据库访问数据。MicroStrategy 提供与各种大数据源的连接,以便动态实时地根据源来运行报表和达析报告。
采用混合方法—根据需要从内存中立方体和数据库获取数据。混合方法通过允许用户根据用户提交的查询在上述两种方法之间无缝切换,有效地利用二者的能力。MicroStrategy 具有动态数据源技术,可自动确定特定查询是否可由立方体或数据库应答,并可相应地引导查询。
下图总结了这三种方法:

虽然内存中方法通常可以产生最快的分析性能,但它可能由于数据量很大而不够实用。以下部分讨论在决定如何访问数据时的设计考虑因素。
内存中方法:这种方法提供更快的性能;但是,数据仅限于可以放入主内存的小型集合,并且根据内存中数据的更新频率,数据可能会过时。此方法适用于下列情况:
最终数据是聚合形式,可以放在 BI 计算机的主内存中
数据库对于交互式分析来说太慢
用户需要卸除事务数据库的负载
用户需要离线
可以在 BI 级别设置数据安全性
实时连接方法:在达析报告数据需要处于最新状态的情况下,或者数据的详细程度使得无法将所有数据都存储在内存中立方体时,使用实时连接选项构建达析报告可能是合适的方法。这允许在每次执行时从数据仓库中获取最新数据。如果在数据库级别设置安全性,并且需要执行数据仓库相关操作以便向每个用户显示他们有权访问的数据,此方法也很有用。此方法适用于下列情况:
数据库快速响应
用户访问在数据库中经常更新的数据
数据量高于内存中限制
用户想在预定的时间传递预先执行的达析报告
数据安全性在数据库级别设置
混合方法:此方法适用于达析报告的启动画面包含高级聚合信息(用户可以从中向下钻取详细信息)的用例。在此类用例中,管理员可以将聚合数据发布到内存中立方体,以便快速显示达析报告的主屏幕,然后在用户向下钻取时依据大数据系统中的较低级别数据来显示达析报告。MicroStrategy 中的动态数据源功能使构建此类应用程序变得非常容易,因为选定的报表可以转换为立方体,而 MicroStrategy 会根据用户请求的数据自动确定是从立方体还是数据库中提取数据。
支持的大数据驱动和供应商
Hadoop SQL 引擎针对特定数据操作进行了优化。根据数据类型以及为访问数据而执行的查询,我们可以将用例分为以下五个组:
批处理 SQL—用于对大数据执行大规模转换
交互式 SQL—启用对大数据的交互式分析
No-SQL—通常用于大规模数据存储和快速事务查询
非结构化数据/搜索引擎—主要使用搜索功能分析文本数据或日志数据
清洗数据并将数据加载到内存/Hadoop Gateway—针对快速发布内存中立方体进行优化并主要用于该用途
下图显示用例与 MicroStrategy 当前支持的引擎之间的映射。

批处理
Hive 是最流行的批处理查询机制。由于它具有容错性,因此建议用于 ETL 类型的作业。所有主要的 Hadoop 发行版(如 Hortonworks、Cloudera、MapR 和 Amazon EMR)都提供 Hive ODBC 连接器。MicroStrategy 与上述所有 Hadoop 供应商合作,并通过 Hive 提供与 Hadoop 的认证连接。
Hive 是一个很好的引擎,可以与 MicroStrategy 中的内存中方法一起使用,或者作为实时连接方法的一部分使用(当它与分发服务配对时),这样数据库延迟不会影响最终用户。由于它使用 MapReduce 来处理查询,因此批处理具有高延迟并且不适用于交互式查询。
下表列出受支持的 Hive 发行版的连接信息。
供应商
连接
用例
驱动名称
工作流程
Cloudera Hive
ODBC
采用 SQL 并将其转换为 Map Reduce 的工具,可用于对数据进行大规模的 ETL 式转换
MicroStrategy Hive ODBC 驱动
通过 MicroStrategy Architect 和 MicroStrategy Data Import 获得支持
Hortonworks Hive
ODBC
采用 SQL 并将其转换为 Map Reduce 的工具,可用于对数据进行大规模的 ETL 式转换
MicroStrategy Hive ODBC 驱动
通过 MicroStrategy Architect 和 MicroStrategy Data Import 获得支持
MapR Hive
ODBC
采用 SQL 并将其转换为 Map Reduce 的工具,可用于对数据进行大规模的 ETL 式转换
MicroStrategy Hive ODBC 驱动
通过 MicroStrategy Architect 和 MicroStrategy Data Import 获得支持
Amazon EMR Hive
ODBC
采用 SQL 并将其转换为 Map Reduce 的工具,可用于对数据进行大规模的 ETL 式转换
MicroStrategy Hive ODBC 驱动
通过 MicroStrategy Architect 和 MicroStrategy Data Import 获得支持
交互式查询
一些 Hadoop 供应商开发了支持交互式查询的快速执行引擎。这些引擎使用特定于供应商/技术的机制来查询 HDFS,但仍然使用 Hive 作为元数据存储。所有这些技术都在快速发展,它们与高级分析功能相结合可加快大型数据集响应速度。Impala、Drill 或 Spark 等交互式引擎可与 MicroStrategy Visual Insights 有效配对,以在 Hadoop 上实现自助式数据发现。这些引擎已通过认证,可以与 MicroStrategy 配合使用。
下表列出受支持的发行版的连接信息。
供应商
连接
用例
驱动名称
工作流程
Cloudera Impala
ODBC
一种开源大规模并行处理(MPP) SQL 查询引擎,适用于存储在运行 Apache Hadoop 的计算机集群中的数据。Impala 使用自己的处理引擎,可以执行内存中操作
MicroStrategy Impala ODBC 驱动
通过 MicroStrategy Architect 和 MicroStrategy Data Import 获得支持
Apache Drill
ODBC
MapR 支持的开源低延迟查询引擎。它具有即时发现框架的能力,能够提供自助式数据探索功能
MicroStrategy Drill ODBC 驱动
通过 MicroStrategy Architect 和 MicroStrategy Data Import 获得支持
Apache Spark
ODBC
一种处理分布式数据集合的数据处理工具,由最大的开源社区之一开发。凭借其内存中处理功能,Spark 比 MapReduce 快几个数量级
适用于 Apache Spark SQL 的 MicroStrategy ODBC 驱动
通过 MicroStrategy Architect 和 MicroStrategy Data Import 获得支持
IBM BigInsights
ODBC
一个丰富的高级分析功能集合,允许企业在 Hadoop 上分析海量的本机格式结构化和非结构化数据
BigInsights ODBC 驱动
通过 MicroStrategy Architect 和 MicroStrategy Data Import 获得支持
Pivotal HAWQ
ODBC
一种并行 SQL 查询引擎,以本机方式在 HDFS 中读取和写入数据。它为用户提供完整的 ANSI 标准兼容 SQL 接口
适用于 Greenplum Wire Protocol 的 MicroStrategy ODBC 驱动
通过 MicroStrategy Architect 和 MicroStrategy Data Import 获得支持
Facebook Presto
JDBC
一种开源分布式 ANSI SQL 查询引擎,用于运行交互式分析查询
Presto JDBC 驱动
通过 MicroStrategy Architect 和 MicroStrategy Data Import 获得支持
Google BigQuery
ODBC
一项基于云的服务,利用 Google 的基础架构使用户能够以交互方式查询数 PB 级数据
MicroStrategy Google BigQuery ODBC 驱动
通过 MicroStrategy Architect 和 MicroStrategy Data Import 获得支持
NoSQL 源
NoSQL 源针对大型信息存储和事务查询而优化。它们可以与 MicroStrategy 中的多源选项或数据混合选项有效配对,使用户能查看传统数据库中的更高级别的信息,而且,它们通过与 NoSQL 源的集成使用 No-SQL 源提供向下钻取最低级别事务数据的功能。
下表列出 MicroStrategy 为其提供认证连接的 NoSQL 源。
供应商
连接
用例
驱动名称
工作流程
Apache Cassandra
JDBC
键值存储,所有数据都包含索引键和值
Cassandra JDBC 驱动
通过 MicroStrategy Data Import 获得支持
HBase
JDBC
一种列存储 NoSQL 数据库,它将数据作为数据列的部分存储在表中,而不是将数据存储在行中。它提供高性能和可扩展的体系结构
Phoenix JDBC 驱动
通过 MicroStrategy Data Import 获得支持
MongoDB
ODBC
一种面向文档的数据库,避免了基于表的传统关系数据库结构,使得某些类型的应用程序中的数据集成变得更容易和更快捷
MicroStrategy MongoDB ODBC 驱动
通过 MicroStrategy Data Import 获得支持
非结构化数据/搜索引擎
搜索引擎是一种有效的工具,允许用户搜索大量的文本数据,并向其达析报告中的数据添加上下文。当与 MicroStrategy 中的数据混合选项一起利用时,此功能很强大,并允许搜索数据与传统企业源配对。
下表列出受支持的 Hive 发行版的连接信息。
供应商
连接
用例
驱动名称
工作流程
Apache Solr
本机
最受欢迎的开源搜索引擎,允许全文搜索、分面搜索和实时索引。MicroStrategy 已经构建了一个与 Solr 集成的连接器。它提供从 Solr 执行动态搜索、分析和可视化索引数据的功能
内置
通过 MicroStrategy Data Import 获得支持
Splunk Enterprise
ODBC
一个广泛使用的专有搜索引擎
Splunk ODBC 驱动
通过 MicroStrategy Data Import 获得支持
MicroStrategy Hadoop Gateway
MicroStrategy 使用 Hadoop Gateway 提供与 HDFS 的本机连接。Hadoop Gateway 绕过 Hive,直接从 HDFS 访问数据。Hadoop Gateway 单独安装在 HDFS 节点上。
Hadoop Gateway 旨在优化在连接到 Hadoop 时创建大型内存中立方体的用例。它采用以下技术高效从 Hadoop 中批量导入数据:
绕过 Hive 直接访问数据:绕过 Hive/ODBC 与作为 Yarn 应用程序运行的 HDFS 进行本机通信。这进一步减少了数据查询和访问时间。
从 HDFS 并行加载数据:通过并行线程将数据加载到 MicroStrategy Intelligence Server 中,从而产生更高的吞吐量并减少加载时间。
为内存中用例启用下推式数据清洗:数据清洗操作在 Hadoop 中执行,从而支持大规模清洗。
Hadoop Gateway 的体系结构概述
Hadoop Gateway 是一个单独的 MicroStrategy 专有安装,需要通过下列方式安装在 HDFS 数据和名称节点上: 1. 在 HDFS 名称节点上安装 Hadoop Gateway 查询引擎 2. 在 HDFS 执行引擎上安装 Hadoop Gateway 执行引擎
MicroStrategy Intelligence Server 将查询发送到 Hadoop Gateway 执行引擎;查询随后被解析并发送到数据节点进行处理。然后,通过查询获取的数据在并行线程中从数据节点推送到 MicroStrategy Intelligence Server,以便发布到内存中立方体。
下图显示位于体系结构图中的 MicroStrategy Hadoop Gateway。

Hadoop Gateway 限制
目前,Hadoop Gateway 具有一些限制:
仅支持文本和 csv 文件
仅对内存中用例支持数据清洗
不支持多表数据导入
对于分析功能,仅支持聚合及筛选不支持 JOIN 操作
使用共享服务用户与特定用户委派支持 Kerberos 安全性
连接大数据源的工作流程示例
本部分包含从 MicroStrategy 连接到大数据源的不同工作流程示例:
最后更新于
这有帮助吗?