Copyright 2019 - Custom text here
%AM, %24 %100 %2016 %01:%окт

18 полезных библиотек для анализа данных в Python

Наша подборка будет разбита на две части — первые 8 библиотек предназначены для предварительной обработки и очистки данных от мусора, следующие 10 — для визуализации подготовленных данных.

Библиотеки для форматирования и очистки данных

В нашем мире всё запутано и переплетено — то же самое можно сказать и об информации. Недавнее исследование показывает, что очистка данных занимает до 60% времени у специалистов по Data Scienсe. И 57% из них считают, что это самая утомляющая часть работы. Чтобы сделать этот процесс более приятным и быстрым, существует множество библиотек, о которых мы вам и расскажем.

Dora

Эта библиотека предназначена для разведочного анализа данных, а именно — для автоматизации самых болезненных его частей, в том числе и для очистки данных —говорящий пример её работы можно посмотреть на странице проекта на Github.

Datacleaner

Этот проект также может принимать на вход данные в DataFrame (как утверждает разработчик, «datacleaner — не что-то магическое, просто взять необработанный текст и автоматически распарсить его он не может»), и затем выбирает строки с пропущенными или некорректными значениями и исправляет их таким образом, каким вы ему скажете (например, заменяет их на средние или медианные значения).

PrettyPandas

DataFrames, конечно, сильный инструмент, но он создаёт не те таблицы, которые вы бы хотели показать своему боссу. PrettyPandas использует pandas Style API, чтобы привести датафреймы в удобоваримый вид.

Tabulate

Tabulate позволяет выводить в удобном виде списки списков (или другие iterable структуры из iterable структур), списки (или другие структуры) из словарей), двумерные массивы NumPy, pandas.DataFrame и массивы записей NumPy. Причём выгружать он их может не только в консоль, но и в HTML, PHP или Markdown Extra, что является очень приятным дополнением.

Scrubadub

Часто приходится обрабатывать конфиденциальные данные, выдавать которые не стоит (например, если вы работаете в сфере здравоохранения или в сфере финансов). На помощь приходит scrubadub, которая может удалять из списка данных имена, телефоны, URL’и, идентификаторы Skype и многое другое. Естественно, присутствует возможность гибкой настройки того, что именно вы хотите убрать и каким образом.

Arrow

Отдельной проблемой для нативного Python является работа с временем. Нужно парсить строки, учитывать часовые пояса, и на всё это уходят многие строки не очень интересного кода. Эту проблему должна решить библиотека Arrow.

Beautifier

У этой библиотеки довольно простая задача — упростить работу с URL’ами и email-адресами. С её помощью вы можете парсить почтовые адреса по доменами и именам пользователей, а URL-адреса — по доменам и различным параметрам (например, UTM’ам или токенам).

Ftfy

Полное название этой библиотеки — Fixes text for you. Она предназначена для того, чтобы превращать плохие Unicode строки (“quotesâ€\x9d или ü) в хорошие Unicode строки ("quotes" или ü соответственно).


Библиотеки для визуализации данных

Если просматривать страницы Python Package Index, можно найти библиотеки практически для любого отображения данных, от GazeParser‘а для отслеживания движения глаз, до pastalog‘а для отображения развития нейронной сети в реальном времени. Некоторые из этих библиотек крайне узкоспециализированы, а некоторые могут использоваться почти для любой задачи. В этой подборке мы приводим 10 достаточно универсальных Python библиотек для отображения данных.

Последнее изменение %PM, %31 %754 %2016 %17:%окт
f t g m