Pandas AI: библиотека Python для генеративного ИИ
Что же такое Pandas AI?
Что же на самом деле означает сделать датафреймы Pandas диалоговыми?
Это означает буквально следующее: вы можете вести диалог со своим набором данных. Да, да, вы не ослышались, вы реально можете общаться со своими данными и получать быстрые ответы на свои вопросы. Вам, как специалисту по данным или аналитику, больше не нужно изучать свой набор данных, часами просматривая строки и столбцы.
Специалисты по данным и аналитики тратят много времени на очистку данных для их анализа. Теперь можно вывести свой анализ данных на новый уровень.
Специалисты по данным изучают различные методы и процессы, позволяющие минимизировать время, затрачиваемое на подготовку данных. Теперь это можно делать при помощи специальной библиотеки.
PandasAI не заменяет Pandas, их следует использовать в тандеме. Вместо того, чтобы просматривать данные и отвечать на вопросы о них самостоятельно, вы можете задать эти вопросы PandasAI, и она вернет ответы в виде Pandas DataFrames.
Но означает ли это, что людям больше не нужно владеть Python для проведения анализа данных с использованием таких инструментов, как библиотека Pandas?
Конечно, нет. С помощью OpenAI API Pandas AI позволяет виртуально общаться с машиной для получения желаемых результатов, а не программировать задачу самостоятельно.
Как использовать Pandas AI?
Установка Pandas AI при помощи менеджера пакетов pip
pip install pandasai
Импорт PandasAI вместе с OpenAI
Чтобы использовать новую библиотеку Pandas AI, вам понадобится API-ключ OpenAI. Приступив к работе над своим кодом, вам нужно будет произвести следующий импорт:
import pandas as pd from pandasai import PandasAI from pandasai.llm.openai import OpenAI llm = OpenAI(api_token=your_API_key)
Если у вас нет уникального ключа API OpenAI, вы можете создать учетную запись на платформе OpenAI и создать ключ API здесь (Как это сделать из России, Украины и Беларуси? В интернете есть множество инструкций, обратитесь к ним — прим. переводчика).
После того, как все настроено, можно начинать использовать Pandas AI.
Запуск модели на вашем датафрейме
Во-первых, нужно запустить вашу модель OpenAI в Pandas AI:
pandas_ai = PandasAI(openAImodel)
Затем нужно будет запустить модель на датафрейме, который состоит из двух (или более) параметров датафрейма, с которым вы работаете, и вопроса, который вы хотите задать:
import pandas as pd
from pandasai import PandasAI
# Примерный DataFrame
df = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
"gdp": [19294482071552, 2891615567872, 2411255037952, 3435817336832, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
"happiness_index": [6.94, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})
# Instantiate a LLM
from pandasai.llm.openai import OpenAI
llm = OpenAI()
pandas_ai = PandasAI(llm)
pandas_ai.run(df, prompt='Which are the 5 happiest countries?')
Результатом будет следующий датафрейм:
6 Canada 7 Australia 1 United Kingdom 3 Germany 0 United States Name: country, dtype: object
Также возможно выполнять и более сложные запросы. Например, математические расчеты или визуализации данных.
Пример визуализации данных:
pandas_ai.run(
df,
"Plot the histogram of countries showing for each the gpd, using different colors for each bar",
)
А вот результат данной визуализации:

Pandas AI — еще очень новая библиотека, и команда ее разработчиков постоянно ищет возможности для ее улучшения. По состоянию на 10 мая в их списке задач есть следующее:
- Добавить поддержку большего количества LLM (Large Languege Model — большая языковая модель)
- Создать веб-интерфейс для PandasAI
- Добавить модульные тесты
Команда разработчиков также открыта для предложений по улучшению библиотеки. Если вы заинтересованы в том, чтобы внести свой вклад в ее развитие, ознакомьтесь с соответствующим руководством.
Заключение
Хотя Pandas AI не заменяет Pandas, это хороший инструмент для ускорения вашего рабочего процесса. Несмотря на то, что можно задавать Pandas AI вопросы о своем наборе данных, все равно необходимо владеть навыками программирования, чтобы исправлять и направлять библиотеку, когда она делает ошибки.
Если вы уже попробовали использовать эту библиотеку в вашей работе, напишите в комментариях ваши впечатления.
Перевод статьи Nysha Arya Pandas AI: The Generative AI Python Library.