机读格式显示(MARC)
- 000 02123nam0 2200313 450
- 010 __ |a 978-7-121-40368-2 |d CNY99.00
- 100 __ |a 20210309d2021 em y0chiy50 ea
- 200 1_ |a 深入大型数据集 |A shen ru da xing shu ju ji |e 并行与分布化Python代码 |d = Mastering large datasets with python |e parallelize and distribute your Python code |f (美) John T. Wolohan著 |g 张若飞译 |z eng
- 210 __ |a 北京 |c 电子工业出版社 |d 2021.2
- 215 __ |a xx, 300页 |c 图 |d 24cm
- 306 __ |a 由Manning Publications授权
- 314 __ |a 责任者Wolohan规范汉译姓: 沃勒翰
- 330 __ |a 这本书教你写代码,让你可以处理任何大小的数据集。你将从笔记本大小的数据集开始,这些数据集通过将大任务分解为可以自动运行的小任务来教你并行处理数据分析。然后将这些相同的程序扩展到云服务器上的工业级数据集。根据地图坚定地降低范式,你将探索像Hadoop和PySpark这样的工具来有效地处理大量的分散式的数据集,通过使用机器学习来加速决策过程,和通过使用AWSS3来简化数据存储。本书的目标是教授一种可伸缩的编程风格。为了做到这一点,我们将涉及一些你可能不熟悉的编程或技术书籍。虽然其他书籍可能只会介绍某一个函数库库,而本书则会涉及许多函数库—既有内置的模块,例如functools和itertools,也有第三方库,例如toolz、pathos和mrjob。其他的书籍可能只会涉及某一项技术,而这本书会涉及很多技术,包括Hadoop、Spark和AmazonWebServices(AWS)。本书选择覆盖更广泛的技术是为了承认这样一个事实:为了让代码具有可伸缩性,你需要能够适应新的情况。
- 333 __ |a 适合有一定Python编程基础,且希望掌握大型数据集处理能力的开发人员和数据科学家阅读
- 500 10 |a Mastering large datasets with python : parallelize and distribute your Python code |A Mastering Large Datasets With Python : Parallelize And Distribute Your Python Code |m Chinese
- 517 1_ |a 并行与分布化Python代码 |A bing xing yu fen bu huaPythondai ma
- 606 0_ |a 软件工具 |A ruan jian gong ju |x 程序设计
- 701 _1 |a 沃勒翰 |A wo le han |g (Wolohan, John T.) |4 著
- 702 _0 |a 张若飞 |A zhang ruo fei |4 译
- 801 _0 |a CN |b 江苏新华 |c 20210304
- 905 __ |a WXCSXY |d TP311.56/677