Stata在云端的应用

2020-01-05 浏览次数:901

随着越来越多的组织将其IT,数据管理和数据分析需求转移到云端,我经常要回答以下问题:


1.      Stata可以在云端运行吗?

2.      可以在云端运行Stata副本吗?

3.      Stata在云端的较佳设置是什么?

4.      Stata在云端的性能如何?


在回答这些问题之前,让我们先定义什么是云计算。以下是维基百科对云计算的定义:

“云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备,使用服务商提供的电脑基建作运算和资源。该术语通常用于描述互联网上可供许多用户使用的数据中心。”


我看到我们的用户使用云计算的主要原因是,他们可以轻松地将更多的计算资源(内存和内核)添加到他们正在从事的项目中,以加快开发和分析的速度。云服务的好处在于它提供了一种轻松的方法来按需添加资源。基本上,仅在需要硬件资源时才付费,这样既节省时间和金钱,又可以相应地扩展不同的项目。


现在我们谈谈云平台。我看到用户使用的两个主要平台是Amazon Web Services和Microsoft Azure。当然还有其他平台。


那么,Stata可以在云端运行吗?Stata当然可以。大多数云计算机是运行Linux或Windows操作系统的虚拟机,Stata可以同时运行这两种系统。现在,应使用Stata的哪个版本?IC,SE或MP?如果要使用大型数据集,并且希望使用的高度并行的Stata命令,那么我**建议在云端使用Stata / MP。


用户经常询问是否允许他们在云端使用其Stata许可证。答案是当然可以。我们在本地工作站或服务器,本地虚拟机和云上等效虚拟机之间没有任何区别。您可以在任何所需的计算机上使用Stata许可证,无论是真实的,虚拟的还是在云端的虚拟机。


*三个问题有点难回答。较佳设置很大程度上取决于您的特定需求。您需要回答以下一些问题:


1.      用户习惯使用哪种操作系统?

2.      使用的典型数据大小是多少?

3.      在云端分配多少个内核和多少内存?

4.      多少用户将同时访问此Cloud虚拟机?


请注意,这些问题不是特定于云端的,它们实际上适用于任何设置、云端或本地环境,在这些环境中,资源是在用户之间共享的。最后一个问题很重要。一旦您的云端(或本地)计算机上有多个用户同时使用Stata,您必须确保拥有一台足够大的计算机,并为所有用户提供足够的内存和内核。例如,如果您拥有一个Stata / MP 4核2用户的许可证,那么您将希望有一台至少分配了8个核的云机器,每个Stata用户有4个核。或者,您将需要启动多个云实例,为用户提供自己的虚拟机。


下一个考虑因素是内存。如果用户使用的是5 GB大小的Stata数据集,则需要为云计算机分配至少16 GB的RAM,为内存中的数据分配10 GB的RAM,并为运行操作系统增加更多的内存。或者,您可以分配两台具有8 GB RAM的云计算机。


我听到的关于在云端使用Stata的较常见问题是,用户有时会争用RAM,因为一些用户试图在同一台计算机上同时将大型数据集加载到RAM中。解决此问题的较简单方法是按设计方式使用云—缓存多台虚拟机以扩展负载。培训Stata用户有效地使用内存也很容易。这样做的方法是让他们仅从Stata的内存空间中的数据集中加载需要分析的变量,而不是将整个数据集盲目地带入内存。例如,假设用户正在使用包含20,000个变量的美国人口普查数据集,但该用户实际上只希望分析其中的100个变量。Stata能够使用use命令从Stata数据集中仅加载用户所需的变量。


如果您不确定要加载哪些变量或需要搜索要加载的确切变量,则可以使用Stata 16的GUI轻松搜索变量。


一旦有了确切的use命令后,将该命令复制到一个do文件中,并保存以供将来加载数据。


最后一个问题,关于Stata在云中表现如何,同样取决于上面讨论的相同问题。这与询问有关Stata在本地计算机上的性能如何的问题相同。


您的组织将使用的数据集的典型大小是多少?您正在使用哪种类型的云虚拟机,要分配多少核心和多少内存?多少用户将同时访问此云虚拟机?您正在使用什么Stata命令和模型?云提供商将发布您可以使用的虚拟机实例的规范,并且Stata将在其上执行操作,就像在等效的物理机上执行一样。


数据大小,分配的资源以及同时使用资源的人数将成为构建环境时要考虑的主要问题。


关于STATA软件的更多信息,请登录科学软件网


turntech88.b2b168.com/m/
联系我们

在线客服: 287584663

联系人:张经理

联系电话: 18610814366