加入收藏 | 设为首页 | 会员中心 | 我要投稿 常州站长网 (https://www.0519zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

Python,Numpy,Pandas…数据科学家必备排序技巧

发布时间:2019-09-11 18:28:09 所属栏目:教程 来源:读芯术
导读:副标题#e# 对数据进行分类整理是数据科学家和数据工程师的基础工作。Python会提供许多内置库,优化排序选项。有些库甚至可以同时在GPU上运行。令人惊奇的是,一些排序方法并没有使用之前所述的算法类型,其他方法的执行效果也不如预期。 选择使用哪种库和哪

对于上面的每个Python库,我们对wall time进行了分析,以便在单列,单数组或单列表中对相同的1,000,000个数据点进行排序。同时使用了配有T4 GPU的Google Colab Jupyter笔记本。

Python,Numpy,Pandas…数据科学家必备排序技巧
数据来源: https://colab.research.google.com/drive/1NNarscUZHUnQ5v-FjbfJmB5D3kyyq9Av

观察

  • 对于Numpy和Pandas,inplace比复制数据更快。这并不奇怪。
  • Pandas默认快速排序相当快。
  • 大多数Pandas功能相对较慢。
  • TensorFlow操作相当快。
  • Python inplace排序慢得出奇。比Numpy inplace mergesort和TensorFlow慢了10倍。曾多次对其进行测试(使用不同的数据)来确认这不是一个异常现象。

重申,这只是一个小测试。绝对不是决定性的。

Wrap

通常不需要自定义排序。选择很多。一般不会采用单一的排序方法。相反,首先对数据进行评估,然后用效果更好的排序算法。如果排序进展不快,执行操作时也会自行改变算法。

在本文中,你已经了解了如何在Python数据科学堆和SQL中的每个板块里进行排序。

只需要记住选择哪个选项以及如何调用它们。可用上面的备忘表,节省时间。大致建议如下:

  • 使用默认的Pandas sort_values()来探索相对较小的数据集。
  • 数据集较大或运行速度较高时,尝试Numpy的就地合并,PyTorch或TensorFlow并行GPU方式或SQL。

(编辑:常州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读