资讯频道 - 智享数据科学实验平台

标签：虚拟教研室

15

12月

对象序列化

对象序列化，是指将内存中的对象转化为可存储或传输的过程。很多场景，直接一个类对象，传输不方便。但是，当对象序列化后，就会更加方便，因为约定俗成的，接口间的调用或者发起的 web 请求，一般使用 json 串传输。实际使用中，一般对类对象序列化。先创建一个 Student 类型，并创建两个实例。 cl...

15

12月

什么是联机分析处理

联机分析处理OLAP是一种软件技术，它使分析人员能够迅速、一致、交互地从各个方面观察信息，以达到深入理解数据的目的。它具有FASMI(Fast Analysis of Shared Multidimensional Information)，即共享多维信息的快速分析的特征。其中F是快速性(Fast)...

15

12月

类方法

classmethod 装饰器对应的函数不需要实例化，不需要 self 参数，但第一个参数需要是表示自身类的 cls 参数，可以来调用类的属性，类的方法，实例化对象等。 []: class (): ...: (self,id,name): ...: self.i...

15

12月

什么是位图索引

位图索引指的是位图索引(bitmap index)技术，是一类特殊的数据库索引技术，其索引使用bit数组（或称bitmap、bit set、bit string、bit vector）进行存储与计算操作。来源网址：https://baike.baidu.com/item/%E4%BD%8D%E5%9...

15

12月

伯努利分布（离散型）

伯努利分布并不考虑先验概率 P(X)，它是单个二值随机变量的分布。它由单个参数φ∈ [0, 1] 控制，φ 给出了随机变量等于 1 的概率。我们使用二元交叉熵函数实现二元分类，它的形式与对伯努利分布取负对数是一致的。

15

12月

什么是内存数据库

内存数据库，顾名思义就是将数据放在内存中直接操作的数据库。相对于磁盘，内存的数据读写速度要高出几个数量级，将数据保存在内存中相比从磁盘上访问能够极大地提高应用的性能。来源网址：https://baike.baidu.com/item/%E5%86%85%E5%AD%98%E6%95%B0%E6%8D...

15

12月

二项分布（离散型）

二项分布是由伯努利提出的概念，指的是重复 n 次独立的伯努利试验。在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立。

15

12月

什么是数据分片

数据分片是指分布式数据库中的数据可以被复制在网络场地的各个物理数据库中。数据分片是通过关系代数的基本运算实现的。来源网址：https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E5%88%86%E7%89%87/23734827?fr=aladdin

15

12月

Multi-Bernoulli 分布

Multi-Bernoulli 分布又称为范畴分布（Categorical distribution），它的类别超过 2，交叉熵的形式与该分布的负对数形式是一致的。

15

12月

Teradata是什么

Teradata天睿公司（纽交所代码：TDC），是美国前十大上市软件公司之一。经过逾40 年的发展，Teradata天睿公司已经成为全球最大的专注于大数据分析、数据仓库和整合营销管理解决方案的供应商之一。数量庞大、增长迅猛、种类多样的数据已经成为企业在大数据时代发展不得不面临的现实境况。这是挑战，也...

15

12月

多项式分布（离散型）

范畴分布是多项式分布（Multinomial distribution）的一个特例，它与范畴分布的关系就像伯努利分布与二项分布之间的关系。

15

12月

SAP HANA是什么

SAP HANA是一款支持企业预置型部署和云部署模式的内存计算平台，提供高性能的数据查询功能，用户可以直接对大量实时业务数据进行查询和分析，而不需要对业务数据进行建模、聚合等。SAP内存数据库的数据并不是只在内存里，也会不停写到硬盘里，这就用到复制服务器Replication Server，包括Lo...

15

12月

Beta 分布（连续型）

贝塔分布（Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数，它指一组定义在 (0,1) 区间的连续概率分布。均匀分布是 Beta 分布的一个特例，即在 alpha=1、 beta=1 的分布。

15

12月

MonetDB是什么

MonetDB是一个开源的面向列的数据库管理系统。MonetDB被设计用来为较大规模数据（如几百万行和数百列的数据库表）提供高性能查询的支持。目前，该数据库系统已经被成功使用于对数据读取有高性能要求的应用，如数据挖掘、联机分析处理、文本检索、多媒体检索等。来源网址：https://baike.bai...

15

12月

狄利克雷分布（连续型）

狄利克雷分布（Dirichlet distribution）是一类在实数域以正单纯形（standard simplex）为支撑集（support）的高维连续概率分布，是 Beta 分布在高维情形的推广。在贝叶斯推断中，狄利克雷分布作为多项式分布的共轭先验得到应用，在机器学习中被用于构建狄利克雷混合模...

15

12月

Impala是什么

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impal...

15

12月

Gamma 分布（连续型）

Gamma 分布是统计学中的常见连续型分布，指数分布、卡方分布和 Erlang 分布都是它的特例。如果 Gamma(a,1) / Gamma(a,1) + Gamma(b,1)，那么 Gamma 分布就等价于 Beta(a, b) 分布。

15

12月

什么是数据质量

数据质量，是指在业务环境下，数据符合数据消费者的使用目的，能满足业务场景具体需求的程度。在不同的业务场景中，数据消费者对数据质量的需要不尽相同，有些人主要关注数据的准确性和一致性，另外一些人则关注数据的实时性和相关性。因此，只要数据能满足使用目的，就可以说数据质量符合要求。来源网址：https://...

15

12月

指数分布（连续型）

指数分布可以用来表示独立随机事件发生的时间间隔，比如旅客进入机场的时间间隔、打进客服中心电话的时间间隔等等。当 alpha 等于 1 时，指数分布就是 Gamma 分布的特例。

15

12月

什么是数据质量管理

数据质量管理（Data Quality Management），是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题，进行识别、度量、监控、预警等一系列管理活动，并通过改善和提高组织的管理水平使得数据质量获得进一步提高。来源网址：https://baik...