由于Python开发的库文件相当的多,设计的领域也是很广泛。所以在近年来,使用Python的人越来越多了,其中Python已成为数据科学家的主要工具之一。本文将为大家介绍数据科学家及工程师们最常用的一些Python库,当让也是为了方便日后自己的查找使用。
1. 核心库(Core Libraries)
1.1 Numpy

1.2 Scipy
1.3 Pandas
2. 绘图&可视化
2.1 Matplotlib
Python中最常用的可视化库,由此可与MatLab、Mathematica等科学工具相提并论。它可以进行多种基本图形的可视化操作,并且包含标签、网格、图例等多种进行实体格式化的工具。
2.2 Seaborn
Seaborn主要用于统计模型的可视化,比如热力图等,可以对数据进行概述的同时描绘整体分布。Seaborn基于Matplotlib实现,并高度依赖于后者。
2.3 Bokeh
Bokeh库旨在进行交互式可视化,并且不依赖于Matplotlib,主要通过浏览器以“数据驱动文档”(Data-Driven Documents,d3.js)的形式演示。
2.4 Basemap
Basemap库通过使用Matplotlib中的坐标,为Matplotlib提供了简易地图的支持。Folium库在Basemap的基础上构建,可以制作交互式的Web地图,这类似于使用Bokeh创建的JavaScript小部件。
2.5 Plotly
2.6 NetworkX
NetworkX库用于复杂社会网络的分析。它可以处理标准数据格式及非标准数据格式,这使其具备高效性和可扩展性。
3. 机器学习
3.1 SciKit-Learn
SciKit-Learn为常见的机器学习算法提供了简洁而一致的界面,使得机器学习更容易应用于生产系统。它结合了高质量的代码和应用文档,具备易用性和高性能,事实上已成为使用Python进行机器学习的行业标准。
3.2 TensorFlow
TensorFlow库由谷歌工作人员开发,是一个数据流图计算的开源库,在机器学习方面的应用表现优越。主要特点是多层节点系统,可以在大型数据集上快速训练人工神经网络。这使得谷歌的语音识别和图像识别成为可能。
3.3 Theano
Theano库主要用于机器学习的需要,它定义了类似于Numpy的多维数组,以及数据操作和表达,在低级别操作上与Numpy结合紧密。Theano库经过了编译,优化了GPU和CPU的使用,在数据密集型计算方面性能更高,结果也更精确。
3.4 Keras
4. 自然语言处理、数据挖掘及统计分析
4.1 NLTK
4.2 Gensim
Gensim是一个Python的开源库,为更高效地处理大文本数据而设计,实现了向量空间建模和主题建模。Gensim主要用于原始的、非结构化的数字文本处理,实现了层次Dirichlet过程(HDP)、潜在语义分析(LSA)、隐含Dirichlet分布(LDA)以及tf-idf、随机投影、word2vec、document2vec等算法,以分析语料集中重复文本出现的模式。所有算法都是无监督的,只需要输入语料库。
4.3 Scrapy
4.4 Pattern
4.5 Statsmodels
本文摘自互联网,如有侵权请联系博主,博主将立马删除,谢谢!
转载请注明:泰泰博客 » 盘点数据科学领域常用的Python库