Функциональное программирование HOWTO

Автор

A. M. Kuchling

Релиз

0.32

В этом документе мы рассмотрим возможности языка Python, подходящие для реализации программ в функциональном стиле. После введения в концепции функционального программирования мы рассмотрим такие возможности языка, как iterators и generators и соответствующие библиотечные модули, такие как itertools и functools.

Введение

В этом разделе объясняется основная концепция функционального программирования; если вам просто интересно узнать о возможностях языка Python, перейдите к следующему разделу Итераторы.

Языки программирования поддерживают декомпозицию задач несколькими различными способами:

  • Большинство языков программирования являются процедурными: программы представляют собой списки инструкций, которые указывают компьютеру, что делать с вводом программы. Си, Паскаль и даже оболочки Unix - это процедурные языки.

  • В декларативных языках вы пишете спецификацию, которая описывает проблему, требующую решения, а реализация языка определяет, как эффективно выполнить вычисления. SQL - это декларативный язык, с которым вы, скорее всего, знакомы; запрос SQL описывает набор данных, которые вы хотите получить, а механизм SQL решает, сканировать ли таблицы или использовать индексы, какие подклаузы должны быть выполнены первыми и т.д.

  • Объектно-ориентированные программы манипулируют коллекциями объектов. Объекты имеют внутреннее состояние и поддерживают методы, которые каким-либо образом запрашивают или изменяют это внутреннее состояние. Smalltalk и Java - это объектно-ориентированные языки. C++ и Python - языки, которые поддерживают объектно-ориентированное программирование, но не заставляют использовать объектно-ориентированные возможности.

  • Функциональное программирование разлагает проблему на набор функций. В идеале функции принимают только входные данные и производят выходные, и не имеют никакого внутреннего состояния, которое влияет на выход, производимый для данного входа. Известные функциональные языки включают семейство ML (Standard ML, OCaml и другие варианты) и Haskell.

Разработчики некоторых компьютерных языков предпочитают делать акцент на одном конкретном подходе к программированию. Это часто затрудняет написание программ, использующих другой подход. Другие языки - это мультипарадигмальные языки, которые поддерживают несколько различных подходов. Lisp, C++ и Python являются мультипарадигмальными; на всех этих языках можно писать программы или библиотеки, которые в значительной степени являются процедурными, объектно-ориентированными или функциональными. В большой программе разные разделы могут быть написаны с использованием разных подходов; например, графический интерфейс может быть объектно-ориентированным, а логика обработки - процедурной или функциональной.

В функциональной программе входные данные проходят через набор функций. Каждая функция работает со своим входом и производит некоторый выход. Функциональный стиль не поощряет функции с побочными эффектами, которые изменяют внутреннее состояние или производят другие изменения, не видимые в возвращаемом значении функции. Функции, которые вообще не имеют побочных эффектов, называются чисто функциональными. Избегать побочных эффектов означает не использовать структуры данных, которые обновляются по мере выполнения программы; выход каждой функции должен зависеть только от ее входа.

Некоторые языки очень строго следят за чистотой и даже не имеют операторов присваивания, таких как a=3 или c = a + b, но трудно избежать всех побочных эффектов, таких как печать на экране или запись в дисковый файл. Другой пример - вызов функции print() или time.sleep(), ни одна из которых не возвращает полезного значения. Обе вызываются только для того, чтобы получить побочные эффекты: отправить текст на экран или приостановить выполнение на секунду.

Программы Python, написанные в функциональном стиле, обычно не впадают в крайности, избегая всех операций ввода-вывода или всех присваиваний; вместо этого они предоставляют функционально выглядящий интерфейс, но внутри используют нефункциональные возможности. Например, реализация функции будет по-прежнему использовать присваивания локальным переменным, но не будет изменять глобальные переменные или иметь другие побочные эффекты.

Функциональное программирование можно считать противоположностью объектно-ориентированного программирования. Объекты - это маленькие капсулы, содержащие некоторое внутреннее состояние вместе с набором вызовов методов, которые позволяют изменять это состояние, а программы состоят из выполнения правильного набора изменений состояния. Функциональное программирование стремится максимально избежать изменения состояния и работает с данными, перетекающими между функциями. В Python вы можете объединить эти два подхода, написав функции, которые принимают и возвращают экземпляры, представляющие объекты вашего приложения (сообщения электронной почты, транзакции и т.д.).

Функциональный дизайн может показаться странным ограничением для работы. Почему вы должны избегать объектов и побочных эффектов? У функционального стиля есть теоретические и практические преимущества:

  • Формальная доказуемость.

  • Модульность.

  • Составляемость.

  • Простота отладки и тестирования.

Формальная доказуемость

Теоретическое преимущество заключается в том, что легче построить математическое доказательство правильности функциональной программы.

В течение долгого времени исследователи были заинтересованы в поиске способов математического доказательства правильности программ. Это отличается от тестирования программы на многочисленных входных данных и заключения, что ее выход обычно правильный, или от чтения исходного кода программы и заключения, что код выглядит правильно; цель состоит в строгом доказательстве того, что программа дает правильный результат для всех возможных входных данных.

Техника, используемая для доказательства правильности программ, состоит в том, чтобы записать инварианты, свойства входных данных и переменных программы, которые всегда истинны. Затем для каждой строки кода вы показываете, что если инварианты X и Y верны до выполнения строки, то немного другие инварианты X“ и Y“ верны после выполнения строки. Так продолжается до конца программы, и в этот момент инварианты должны соответствовать желаемым условиям на выходе программы.

Отказ от присваиваний в функциональном программировании возник потому, что присваивания трудно обрабатывать с помощью этой техники; присваивания могут нарушить инварианты, которые были истинными до присваивания, не создавая никаких новых инвариантов, которые можно распространить дальше.

К сожалению, доказательство корректности программ в значительной степени непрактично и не относится к программному обеспечению Python. Даже тривиальные программы требуют доказательств длиной в несколько страниц; доказательство корректности для умеренно сложной программы было бы огромным, и лишь немногие или ни одна из программ, которыми вы пользуетесь ежедневно (интерпретатор Python, парсер XML, веб-браузер), могут быть доказаны корректно. Даже если бы вы записали или сгенерировали доказательство, возник бы вопрос о проверке доказательства; возможно, в нем есть ошибка, и вы ошибочно полагаете, что доказали правильность программы.

Модульность

Более практическая польза функционального программирования заключается в том, что оно заставляет вас разбивать проблему на мелкие части. В результате программы становятся более модульными. Легче определить и написать небольшую функцию, которая выполняет одно действие, чем большую функцию, выполняющую сложное преобразование. Маленькие функции также легче читать и проверять на наличие ошибок.

Простота отладки и тестирования

Тестирование и отладка программы в функциональном стиле проще.

Отладка упрощается, потому что функции обычно небольшие и четко специфицированы. Когда программа не работает, каждая функция является точкой сопряжения, где можно проверить правильность данных. Вы можете посмотреть на промежуточные входы и выходы, чтобы быстро выделить функцию, ответственную за ошибку.

Тестирование становится проще, поскольку каждая функция является потенциальным объектом для модульного теста. Функции не зависят от состояния системы, которое необходимо воспроизвести перед выполнением теста; вместо этого вам нужно только синтезировать нужные входные данные, а затем проверить, что выходные данные соответствуют ожиданиям.

Составляемость

В процессе работы над программой функционального стиля вы напишете ряд функций с различными входами и выходами. Некоторые из этих функций будут неизбежно специализированы для конкретного приложения, но другие будут полезны в самых разных программах. Например, функция, которая принимает путь к каталогу и возвращает все XML-файлы в каталоге, или функция, которая принимает имя файла и возвращает его содержимое, может быть применена во многих различных ситуациях.

Со временем вы сформируете личную библиотеку утилит. Часто вы собираете новые программы путем компоновки существующих функций в новой конфигурации и написания нескольких функций, специализированных для текущей задачи.

Итераторы

Я начну с рассмотрения особенности языка Python, которая является важной основой для написания программ в функциональном стиле: итераторы.

Итератор - это объект, представляющий поток данных; этот объект возвращает данные по одному элементу за раз. Итератор Python должен поддерживать метод __next__(), который не принимает никаких аргументов и всегда возвращает следующий элемент потока. Если в потоке больше нет элементов, __next__() должен вызывать исключение StopIteration. Итераторы не обязательно должны быть конечными; вполне разумно написать итератор, который выдает бесконечный поток данных.

Встроенная функция iter() принимает произвольный объект и пытается вернуть итератор, который вернет содержимое или элементы объекта, выдавая ошибку TypeError, если объект не поддерживает итерацию. Несколько встроенных типов данных Python поддерживают итерацию, наиболее распространенные из них - списки и словари. Объект называется iterable, если для него можно получить итератор.

Вы можете экспериментировать с интерфейсом итераций вручную:

>>> L = [1, 2, 3]
>>> it = iter(L)
>>> it  
<...iterator object at ...>
>>> it.__next__()  # same as next(it)
1
>>> next(it)
2
>>> next(it)
3
>>> next(it)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
StopIteration
>>>

Python ожидает итерируемые объекты в нескольких различных контекстах, наиболее важным из которых является оператор for. В утверждении for X in Y Y должен быть итератором или некоторым объектом, для которого iter() может создать итератор. Эти два утверждения эквивалентны:

for i in iter(obj):
    print(i)

for i in obj:
    print(i)

Итераторы могут быть материализованы в виде списков или кортежей с помощью функций конструктора list() или tuple():

>>> L = [1, 2, 3]
>>> iterator = iter(L)
>>> t = tuple(iterator)
>>> t
(1, 2, 3)

Распаковка последовательностей также поддерживает итераторы: если вы знаете, что итератор вернет N элементов, вы можете распаковать их в N-кортеж:

>>> L = [1, 2, 3]
>>> iterator = iter(L)
>>> a, b, c = iterator
>>> a, b, c
(1, 2, 3)

Встроенные функции, такие как max() и min(), могут принимать один аргумент итератора и возвращать наибольший или наименьший элемент. Операторы "in" и "not in" также поддерживают итераторы: X in iterator будет истинным, если X найден в потоке, возвращаемом итератором. Вы столкнетесь с очевидными проблемами, если итератор бесконечен; max(), min() никогда не вернутся, а если элемент X никогда не появится в потоке, операторы "in" и "not in" также не вернутся.

Обратите внимание, что в итераторе можно двигаться только вперед; нет способа получить предыдущий элемент, сбросить итератор или создать его копию. Объекты итератора могут опционально предоставлять эти дополнительные возможности, но протокол итератора определяет только метод __next__(). Поэтому функции могут потреблять весь вывод итератора, и если вам нужно сделать что-то другое с тем же потоком, вам придется создать новый итератор.

Типы данных, поддерживающие итераторы

Мы уже видели, как списки и кортежи поддерживают итераторы. Фактически, любой тип последовательности Python, такой как строки, автоматически поддерживает создание итератора.

Вызов iter() на словаре возвращает итератор, который перебирает ключи словаря:

>>> m = {'Jan': 1, 'Feb': 2, 'Mar': 3, 'Apr': 4, 'May': 5, 'Jun': 6,
...      'Jul': 7, 'Aug': 8, 'Sep': 9, 'Oct': 10, 'Nov': 11, 'Dec': 12}
>>> for key in m:
...     print(key, m[key])
Jan 1
Feb 2
Mar 3
Apr 4
May 5
Jun 6
Jul 7
Aug 8
Sep 9
Oct 10
Nov 11
Dec 12

Обратите внимание, что начиная с Python 3.7, порядок итерации словаря гарантированно совпадает с порядком вставки. В более ранних версиях порядок не был определен и мог отличаться в разных реализациях.

Применение iter() к словарю всегда перебирает ключи, но у словарей есть методы, которые возвращают другие итераторы. Если вы хотите перебирать значения или пары ключ/значение, вы можете явно вызвать методы values() или items(), чтобы получить соответствующий итератор.

Конструктор dict() может принимать итератор, который возвращает конечный поток кортежей (key, value):

>>> L = [('Italy', 'Rome'), ('France', 'Paris'), ('US', 'Washington DC')]
>>> dict(iter(L))
{'Italy': 'Rome', 'France': 'Paris', 'US': 'Washington DC'}

Файлы также поддерживают итерацию, вызывая метод readline() до тех пор, пока в файле не останется ни одной строки. Это означает, что вы можете читать каждую строку файла следующим образом:

for line in file:
    # do something for each line
    ...

Наборы могут получать свое содержимое из итерабельной таблицы и позволяют выполнять итерацию по элементам набора:

>>> S = {2, 3, 5, 7, 11, 13}
>>> for i in S:
...     print(i)
2
3
5
7
11
13

Выражения генератора и понимания списков

Две распространенные операции над выводом итератора: 1) выполнение некоторой операции для каждого элемента; 2) выбор подмножества элементов, удовлетворяющих некоторому условию. Например, если дан список строк, вы можете захотеть удалить пробелы из каждой строки или извлечь все строки, содержащие заданную подстроку.

Выражения списков и генераторов (краткая форма: «listcomps» и «genexps») - это краткая нотация для таких операций, заимствованная из функционального языка программирования Haskell (https://www.haskell.org/). Вы можете удалить все пробельные символы из потока строк с помощью следующего кода:

>>> line_list = ['  line 1\n', 'line 2  \n', ' \n', '']

>>> # Generator expression -- returns iterator
>>> stripped_iter = (line.strip() for line in line_list)

>>> # List comprehension -- returns list
>>> stripped_list = [line.strip() for line in line_list]

Вы можете выбрать только определенные элементы, добавив условие "if":

>>> stripped_list = [line.strip() for line in line_list
...                  if line != ""]

При понимании списка вы получаете обратно список Python; stripped_list - это список, содержащий результирующие строки, а не итератор. Выражения-генераторы возвращают итератор, который вычисляет значения по мере необходимости, не требуя материализации всех значений сразу. Это означает, что списковые выражения не подходят для работы с итераторами, которые возвращают бесконечный поток или очень большой объем данных. В таких ситуациях предпочтительнее использовать выражения-генераторы.

Генераторные выражения окружены круглыми скобками («()»), а списочные - квадратными скобками («[]»). Выражения генератора имеют вид:

( expression for expr in sequence1
             if condition1
             for expr2 in sequence2
             if condition2
             for expr3 in sequence3
             ...
             if condition3
             for exprN in sequenceN
             if conditionN )

Опять же, для понимания списка отличаются только внешние скобки (квадратные скобки вместо круглых).

Элементами сгенерированного результата будут последовательные значения expression. Все пункты if являются необязательными; если они присутствуют, то expression оценивается и добавляется к результату только тогда, когда condition истинно.

Выражения генератора всегда должны быть заключены в круглые скобки, но круглые скобки, сигнализирующие о вызове функции, тоже считаются. Если вы хотите создать итератор, который будет немедленно передан в функцию, вы можете написать:

obj_total = sum(obj.count for obj in list_all_objects())

Пункты for...in содержат последовательности, по которым будет производиться итерация. Последовательности не обязательно должны быть одинаковой длины, поскольку итерация выполняется слева направо, не параллельно. Для каждого элемента в sequence1, sequence2 перебирается с начала. <<<Затем цикл sequence3 выполняется для каждой результирующей пары элементов из sequence1 и sequence2.

Говоря иначе, выражение для понимания списка или генератора эквивалентно следующему коду Python:

for expr1 in sequence1:
    if not (condition1):
        continue   # Skip this element
    for expr2 in sequence2:
        if not (condition2):
            continue   # Skip this element
        ...
        for exprN in sequenceN:
            if not (conditionN):
                continue   # Skip this element

            # Output the value of
            # the expression.

Это означает, что если есть несколько предложений for...in, но нет предложений if, длина результирующего вывода будет равна произведению длин всех последовательностей. Если у вас есть два списка длины 3, то выходной список будет состоять из 9 элементов:

>>> seq1 = 'abc'
>>> seq2 = (1, 2, 3)
>>> [(x, y) for x in seq1 for y in seq2]  
[('a', 1), ('a', 2), ('a', 3),
 ('b', 1), ('b', 2), ('b', 3),
 ('c', 1), ('c', 2), ('c', 3)]

Чтобы избежать двусмысленности в грамматике Python, если expression создает кортеж, его необходимо окружить круглыми скобками. Приведенное ниже первое понимание списка является синтаксической ошибкой, а второе - правильным:

# Syntax error
[x, y for x in seq1 for y in seq2]
# Correct
[(x, y) for x in seq1 for y in seq2]

Генераторы

Генераторы - это особый класс функций, которые упрощают задачу написания итераторов. Обычные функции вычисляют значение и возвращают его, но генераторы возвращают итератор, который возвращает поток значений.

Вы, несомненно, знакомы с тем, как работают обычные вызовы функций в Python или C. Когда вы вызываете функцию, она получает частное пространство имен, где создаются ее локальные переменные. Когда функция достигает оператора return, локальные переменные уничтожаются, а значение возвращается вызывающей стороне. При последующем вызове той же функции создается новое частное пространство имен и новый набор локальных переменных. Но что, если бы локальные переменные не выбрасывались при выходе из функции? Что если бы вы могли позже возобновить работу функции с того места, на котором она остановилась? Именно это и обеспечивают генераторы; их можно рассматривать как возобновляемые функции.

Вот простейший пример функции генератора:

>>> def generate_ints(N):
...    for i in range(N):
...        yield i

Любая функция, содержащая ключевое слово yield, является генераторной функцией; это обнаруживается компилятором Python bytecode, который в результате компилирует функцию особым образом.

Когда вы вызываете функцию генератора, она не возвращает одно значение; вместо этого она возвращает объект генератора, который поддерживает протокол итератора. При выполнении выражения yield генератор выводит значение i, аналогично оператору return. Большая разница между yield и оператором return заключается в том, что при достижении выражения yield состояние выполнения генератора приостанавливается, а локальные переменные сохраняются. При следующем вызове метода генератора __next__() функция возобновит выполнение.

Вот пример использования генератора generate_ints():

>>> gen = generate_ints(3)
>>> gen  
<generator object generate_ints at ...>
>>> next(gen)
0
>>> next(gen)
1
>>> next(gen)
2
>>> next(gen)
Traceback (most recent call last):
  File "stdin", line 1, in <module>
  File "stdin", line 2, in generate_ints
StopIteration

Можно также написать for i in generate_ints(5) или a, b, c = generate_ints(3).

Внутри функции генератора, return value вызывает StopIteration(value) из метода __next__(). Как только это произойдет или будет достигнута нижняя часть функции, процесс передачи значений заканчивается, и генератор не может выдавать больше никаких значений.

Вы можете добиться эффекта генераторов вручную, написав собственный класс и сохранив все локальные переменные генератора как переменные экземпляра. Например, для возврата списка целых чисел можно установить self.count в 0, а метод __next__() увеличить self.count и вернуть его. Однако для умеренно сложного генератора написание соответствующего класса может оказаться гораздо сложнее.

Набор тестов, включенный в библиотеку Python, Lib/test/test_generators.py, содержит ряд более интересных примеров. Вот один из них, который реализует обход дерева в порядке следования, используя генераторы рекурсивно.

# A recursive generator that generates Tree leaves in in-order.
def inorder(t):
    if t:
        for x in inorder(t.left):
            yield x

        yield t.label

        for x in inorder(t.right):
            yield x

Два других примера в test_generators.py дают решения для задачи N-Queens (размещение N ферзей на шахматной доске NxN так, чтобы ни один ферзь не угрожал другому) и задачи Knight’s Tour (нахождение маршрута, который ведет коня на каждую клетку шахматной доски NxN, не посещая ни одну клетку дважды).

Передача значений в генератор

В Python 2.4 и более ранних версиях генераторы производили только вывод. После того как код генератора вызывался для создания итератора, не было способа передать какую-либо новую информацию в функцию при возобновлении ее выполнения. Эту возможность можно было реализовать, заставив генератор обращаться к глобальной переменной или передав ему какой-либо изменяемый объект, который затем изменяется вызывающими функциями, но эти подходы были бы беспорядочными.

В Python 2.5 появился простой способ передачи значений в генератор. yield стало выражением, возвращающим значение, которое можно присвоить переменной или выполнить другие операции:

val = (yield i)

Я рекомендую всегда заключать выражение yield в круглые скобки, когда вы что-то делаете с возвращаемым значением, как в приведенном выше примере. Круглые скобки не всегда необходимы, но проще всегда добавлять их вместо того, чтобы помнить, когда они нужны.

(PEP 342 объясняет точные правила, которые заключаются в том, что выражение yield всегда должно быть заключено в круглые скобки, за исключением случаев, когда оно встречается в выражении верхнего уровня в правой части присваивания. Это означает, что вы можете написать val = yield i, но должны использовать круглые скобки, когда есть операция, как в val = (yield i) + 12).

Значения передаются в генератор путем вызова его метода send(value). Этот метод возобновляет код генератора, а выражение yield возвращает заданное значение. Если вызывается обычный метод __next__(), то yield возвращает None.

Вот простой счетчик, который увеличивается на 1 и позволяет изменять значение внутреннего счетчика.

def counter(maximum):
    i = 0
    while i < maximum:
        val = (yield i)
        # If value provided, change counter
        if val is not None:
            i = val
        else:
            i += 1

А вот пример изменения счетчика:

>>> it = counter(10)  
>>> next(it)  
0
>>> next(it)  
1
>>> it.send(8)  
8
>>> next(it)  
9
>>> next(it)  
Traceback (most recent call last):
  File "t.py", line 15, in <module>
    it.next()
StopIteration

Поскольку yield часто будет возвращать None, вы должны всегда проверять этот случай. Не используйте просто его значение в выражениях, если вы не уверены, что метод send() будет единственным методом, используемым для возобновления вашей генераторной функции.

Помимо send(), есть еще два метода на генераторах:

  • throw(value) используется для того, чтобы вызвать исключение внутри генератора; исключение вызывается выражением yield, в котором выполнение генератора приостанавливается.

  • close() вызывает исключение GeneratorExit внутри генератора, чтобы прервать итерацию. При получении этого исключения код генератора должен либо поднять GeneratorExit, либо StopIteration; перехват исключения и другие действия являются незаконными и вызовут RuntimeError. close() также будет вызван сборщиком мусора Python, когда генератор будет собран.

    Если вам нужно выполнить код очистки при возникновении GeneratorExit, я предлагаю использовать набор try: ... finally: вместо перехвата GeneratorExit.

Совокупный эффект этих изменений заключается в превращении генераторов из односторонних производителей информации в одновременно производителей и потребителей.

Генераторы также становятся коротинами, более обобщенной формой подпрограмм. Подпрограммы вводятся в одной точке и завершаются в другой (вершина функции и оператор return), а копрограммы могут вводиться, завершаться и возобновляться во многих различных точках (операторы yield).

Встроенные функции

Рассмотрим более подробно встроенные функции, часто используемые с итераторами.

Две встроенные функции Python, map() и filter(), дублируют возможности выражений-генераторов:

map(f, iterA, iterB, ...) возвращает итератор по последовательности

f(iterA[0], iterB[0]), f(iterA[1], iterB[1]), f(iterA[2], iterB[2]), ....

>>> def upper(s):
...     return s.upper()
>>> list(map(upper, ['sentence', 'fragment']))
['SENTENCE', 'FRAGMENT']
>>> [upper(s) for s in ['sentence', 'fragment']]
['SENTENCE', 'FRAGMENT']

Конечно, вы можете добиться того же эффекта с помощью понимания списка.

filter(predicate, iter) возвращает итератор по всем элементам последовательности, удовлетворяющим определенному условию, и аналогичным образом дублируется списком. Предикат ** - это функция, возвращающая истинностное значение некоторого условия; для использования с filter() предикат должен принимать единственное значение.

>>> def is_even(x):
...     return (x % 2) == 0
>>> list(filter(is_even, range(10)))
[0, 2, 4, 6, 8]

Это также можно записать как понимание списка:

>>> list(x for x in range(10) if is_even(x))
[0, 2, 4, 6, 8]

enumerate(iter, start=0) отсчитывает элементы в итерабельной таблице, возвращая 2-кортежи, содержащие счетчик (от start) и каждый элемент.

>>> for item in enumerate(['subject', 'verb', 'object']):
...     print(item)
(0, 'subject')
(1, 'verb')
(2, 'object')

enumerate() часто используется при циклическом просмотре списка и записи индексов, при которых выполняются определенные условия:

f = open('data.txt', 'r')
for i, line in enumerate(f):
    if line.strip() == '':
        print('Blank line at line #%i' % i)

sorted(iterable, key=None, reverse=False) собирает все элементы итерабельной таблицы в список, сортирует список и возвращает отсортированный результат. Аргументы key и reverse передаются в метод sort() построенного списка.

>>> import random
>>> # Generate 8 random numbers between [0, 10000)
>>> rand_list = random.sample(range(10000), 8)
>>> rand_list  
[769, 7953, 9828, 6431, 8442, 9878, 6213, 2207]
>>> sorted(rand_list)  
[769, 2207, 6213, 6431, 7953, 8442, 9828, 9878]
>>> sorted(rand_list, reverse=True)  
[9878, 9828, 8442, 7953, 6431, 6213, 2207, 769]

(Более подробное обсуждение сортировки см. в Сортировка КАК).

Встроенные модули any(iter) и all(iter) рассматривают истинностные значения содержимого итерации. any() возвращает True, если любой элемент итерации является истинным значением, и all() возвращает True, если все элементы являются истинными значениями:

>>> any([0, 1, 0])
True
>>> any([0, 0, 0])
False
>>> any([1, 1, 1])
True
>>> all([0, 1, 0])
False
>>> all([0, 0, 0])
False
>>> all([1, 1, 1])
True

zip(iterA, iterB, ...) берет по одному элементу из каждой итерации и возвращает их в виде кортежа:

zip(['a', 'b', 'c'], (1, 2, 3)) =>
  ('a', 1), ('b', 2), ('c', 3)

Он не строит список в памяти и не перебирает все входные итераторы перед возвратом; вместо этого кортежи строятся и возвращаются, только если они запрошены. (Технический термин для такого поведения - lazy evaluation.)

Этот итератор предназначен для использования с итерациями одинаковой длины. Если итераторы имеют разную длину, результирующий поток будет иметь ту же длину, что и самый короткий итератор.

zip(['a', 'b'], (1, 2, 3)) =>
  ('a', 1), ('b', 2)

Однако этого следует избегать, поскольку элемент может быть взят из длинных итераторов и отброшен. Это означает, что вы не можете использовать итераторы дальше, так как рискуете пропустить отброшенный элемент.

Модуль itertools

Модуль itertools содержит ряд часто используемых итераторов, а также функции для объединения нескольких итераторов. В этом разделе мы познакомимся с содержимым модуля, показав небольшие примеры.

Функции модуля делятся на несколько широких классов:

  • Функции, создающие новый итератор на основе существующего итератора.

  • Функции для обработки элементов итератора как аргументов функции.

  • Функции для выделения частей вывода итератора.

  • Функция для группировки вывода итератора.

Создание новых итераторов

itertools.count(start, step) возвращает бесконечный поток равномерно распределенных значений. По желанию можно указать начальное число, которое по умолчанию равно 0, и интервал между числами, который по умолчанию равен 1:

itertools.count() =>
  0, 1, 2, 3, 4, 5, 6, 7, 8, 9, ...
itertools.count(10) =>
  10, 11, 12, 13, 14, 15, 16, 17, 18, 19, ...
itertools.count(10, 5) =>
  10, 15, 20, 25, 30, 35, 40, 45, 50, 55, ...

itertools.cycle(iter) сохраняет копию содержимого предоставленной итерационной таблицы и возвращает новый итератор, который возвращает ее элементы от первого до последнего. Новый итератор будет повторять эти элементы бесконечно.

itertools.cycle([1, 2, 3, 4, 5]) =>
  1, 2, 3, 4, 5, 1, 2, 3, 4, 5, ...

itertools.repeat(elem, [n]) возвращает предоставленный элемент n раз, или возвращает элемент бесконечно, если n не предоставлено.

itertools.repeat('abc') =>
  abc, abc, abc, abc, abc, abc, abc, abc, abc, abc, ...
itertools.repeat('abc', 5) =>
  abc, abc, abc, abc, abc

itertools.chain(iterA, iterB, ...) принимает на вход произвольное количество итераторов и возвращает все элементы первого итератора, затем все элементы второго, и так далее, пока все итераторы не будут исчерпаны.

itertools.chain(['a', 'b', 'c'], (1, 2, 3)) =>
  a, b, c, 1, 2, 3

itertools.islice(iter, [start], stop, [step]) возвращает поток, являющийся срезом итератора. При единственном аргументе stop он вернет первые stop элементов. Если вы укажете начальный индекс, то получите stop-start элементов, а если вы укажете значение step, то элементы будут пропущены соответственно. В отличие от нарезки строк и списков в Python, вы не можете использовать отрицательные значения для start, stop или step.

itertools.islice(range(10), 8) =>
  0, 1, 2, 3, 4, 5, 6, 7
itertools.islice(range(10), 2, 8) =>
  2, 3, 4, 5, 6, 7
itertools.islice(range(10), 2, 8, 2) =>
  2, 4, 6

itertools.tee(iter, [n]) реплицирует итератор; он возвращает n независимых итераторов, которые все возвращают содержимое исходного итератора. Если вы не указали значение для n, по умолчанию используется значение 2. Репликация итераторов требует сохранения части содержимого исходного итератора, поэтому может потребовать значительного объема памяти, если итератор большой и один из новых итераторов потребляет больше, чем остальные.

itertools.tee( itertools.count() ) =>
   iterA, iterB

where iterA ->
   0, 1, 2, 3, 4, 5, 6, 7, 8, 9, ...

and   iterB ->
   0, 1, 2, 3, 4, 5, 6, 7, 8, 9, ...

Вызов функций на элементах

Модуль operator содержит набор функций, соответствующих операторам Python. Некоторые примеры: operator.add(a, b) (добавляет два значения), operator.ne(a, b) (то же, что и a != b) и operator.attrgetter('id') (возвращает вызываемую функцию, которая извлекает атрибут .id).

itertools.starmap(func, iter) предполагает, что итерабель вернет поток кортежей, и вызывает func, используя эти кортежи в качестве аргументов:

itertools.starmap(os.path.join,
                  [('/bin', 'python'), ('/usr', 'bin', 'java'),
                   ('/usr', 'bin', 'perl'), ('/usr', 'bin', 'ruby')])
=>
  /bin/python, /usr/bin/java, /usr/bin/perl, /usr/bin/ruby

Выбор элементов

Другая группа функций выбирает подмножество элементов итератора на основе предиката.

itertools.filterfalse(predicate, iter) является противоположностью filter(), возвращая все элементы, для которых предикат возвращает false:

itertools.filterfalse(is_even, itertools.count()) =>
  1, 3, 5, 7, 9, 11, 13, 15, ...

itertools.takewhile(predicate, iter) возвращает элементы до тех пор, пока предикат возвращает true. Как только предикат возвращает false, итератор сигнализирует об окончании своих результатов.

def less_than_10(x):
    return x < 10

itertools.takewhile(less_than_10, itertools.count()) =>
  0, 1, 2, 3, 4, 5, 6, 7, 8, 9

itertools.takewhile(is_even, itertools.count()) =>
  0

itertools.dropwhile(predicate, iter) отбрасывает элементы, пока предикат возвращает true, а затем возвращает оставшиеся результаты итерации.

itertools.dropwhile(less_than_10, itertools.count()) =>
  10, 11, 12, 13, 14, 15, 16, 17, 18, 19, ...

itertools.dropwhile(is_even, itertools.count()) =>
  1, 2, 3, 4, 5, 6, 7, 8, 9, 10, ...

itertools.compress(data, selectors) принимает два итератора и возвращает только те элементы data, для которых соответствующий элемент selectors является истинным, останавливаясь всякий раз, когда один из них исчерпан:

itertools.compress([1, 2, 3, 4, 5], [True, True, False, False, True]) =>
   1, 2, 5

Комбинаторные функции

itertools.combinations(iterable, r) возвращает итератор, содержащий все возможные комбинации r-кортежей элементов, содержащихся в iterable.

itertools.combinations([1, 2, 3, 4, 5], 2) =>
  (1, 2), (1, 3), (1, 4), (1, 5),
  (2, 3), (2, 4), (2, 5),
  (3, 4), (3, 5),
  (4, 5)

itertools.combinations([1, 2, 3, 4, 5], 3) =>
  (1, 2, 3), (1, 2, 4), (1, 2, 5), (1, 3, 4), (1, 3, 5), (1, 4, 5),
  (2, 3, 4), (2, 3, 5), (2, 4, 5),
  (3, 4, 5)

Элементы внутри каждого кортежа остаются в том же порядке, в каком их вернул iterable. Например, число 1 всегда стоит перед 2, 3, 4 или 5 в приведенных выше примерах. Аналогичная функция itertools.permutations(iterable, r=None) снимает это ограничение на порядок, возвращая все возможные упорядочения длины r:

itertools.permutations([1, 2, 3, 4, 5], 2) =>
  (1, 2), (1, 3), (1, 4), (1, 5),
  (2, 1), (2, 3), (2, 4), (2, 5),
  (3, 1), (3, 2), (3, 4), (3, 5),
  (4, 1), (4, 2), (4, 3), (4, 5),
  (5, 1), (5, 2), (5, 3), (5, 4)

itertools.permutations([1, 2, 3, 4, 5]) =>
  (1, 2, 3, 4, 5), (1, 2, 3, 5, 4), (1, 2, 4, 3, 5),
  ...
  (5, 4, 3, 2, 1)

Если вы не указали значение r, то используется длина итерабельной таблицы, что означает перестановку всех элементов.

Обратите внимание, что эти функции выдают все возможные комбинации по позиции и не требуют, чтобы содержимое iterable было уникальным:

itertools.permutations('aba', 3) =>
  ('a', 'b', 'a'), ('a', 'a', 'b'), ('b', 'a', 'a'),
  ('b', 'a', 'a'), ('a', 'a', 'b'), ('a', 'b', 'a')

Одинаковый кортеж ('a', 'a', 'b') встречается дважды, но две строки „a“ пришли с разных позиций.

Функция itertools.combinations_with_replacement(iterable, r) ослабляет другое ограничение: элементы могут повторяться в пределах одного кортежа. Концептуально элемент выбирается для первой позиции каждого кортежа, а затем заменяется перед выбором второго элемента.

itertools.combinations_with_replacement([1, 2, 3, 4, 5], 2) =>
  (1, 1), (1, 2), (1, 3), (1, 4), (1, 5),
  (2, 2), (2, 3), (2, 4), (2, 5),
  (3, 3), (3, 4), (3, 5),
  (4, 4), (4, 5),
  (5, 5)

Группировка элементов

Последняя функция, которую я рассмотрю, itertools.groupby(iter, key_func=None), является самой сложной. key_func(elem) - это функция, которая может вычислить значение ключа для каждого элемента, возвращаемого итерабельной системой. Если вы не предоставите функцию ключа, то ключом будет просто каждый элемент сам по себе.

groupby() собирает все последовательные элементы из базовой итерационной таблицы, которые имеют одинаковое значение ключа, и возвращает поток из двух кортежей, содержащий значение ключа и итератор для элементов с этим ключом.

city_list = [('Decatur', 'AL'), ('Huntsville', 'AL'), ('Selma', 'AL'),
             ('Anchorage', 'AK'), ('Nome', 'AK'),
             ('Flagstaff', 'AZ'), ('Phoenix', 'AZ'), ('Tucson', 'AZ'),
             ...
            ]

def get_state(city_state):
    return city_state[1]

itertools.groupby(city_list, get_state) =>
  ('AL', iterator-1),
  ('AK', iterator-2),
  ('AZ', iterator-3), ...

where
iterator-1 =>
  ('Decatur', 'AL'), ('Huntsville', 'AL'), ('Selma', 'AL')
iterator-2 =>
  ('Anchorage', 'AK'), ('Nome', 'AK')
iterator-3 =>
  ('Flagstaff', 'AZ'), ('Phoenix', 'AZ'), ('Tucson', 'AZ')

groupby() предполагает, что содержимое базовой итерационной таблицы уже отсортировано по ключу. Обратите внимание, что возвращаемые итераторы также используют базовую итерационную таблицу, поэтому вы должны использовать результаты итератора-1, прежде чем запрашивать итератор-2 и соответствующий ему ключ.

Модуль functools

Модуль functools в Python 2.5 содержит некоторые функции высшего порядка. Функция высшего порядка принимает на вход одну или несколько функций и возвращает новую функцию. Наиболее полезным инструментом в этом модуле является функция functools.partial().

Для программ, написанных в функциональном стиле, иногда требуется создать варианты существующих функций, в которых некоторые параметры заполнены. Рассмотрим функцию Python f(a, b, c); вы можете захотеть создать новую функцию g(b, c), которая эквивалентна f(1, b, c); вы заполняете значение для одного из параметров f(). Это называется «частичным применением функции».

Конструктор для partial() принимает аргументы (function, arg1, arg2, ..., kwarg1=value1, kwarg2=value2). Полученный объект является вызываемым, поэтому вы можете просто вызвать его, чтобы вызвать function с заполненными аргументами.

Вот небольшой, но реалистичный пример:

import functools

def log(message, subsystem):
    """Write the contents of 'message' to the specified subsystem."""
    print('%s: %s' % (subsystem, message))
    ...

server_log = functools.partial(log, subsystem='server')
server_log('Unable to open socket')

functools.reduce(func, iter, [initial_value]) кумулятивно выполняет операцию над всеми элементами итерируемого объекта и поэтому не может применяться к бесконечным итерируемым объектам. func должна быть функцией, которая принимает два элемента и возвращает одно значение. functools.reduce() берет первые два элемента A и B, возвращенные итератором, и вычисляет func(A, B). Затем она запрашивает третий элемент, C, вычисляет func(func(A, B), C), объединяет этот результат с четвертым возвращенным элементом и продолжает до тех пор, пока итератор не будет исчерпан. Если итератор не возвращает ни одного значения, возникает исключение TypeError. Если предоставлено начальное значение, оно используется как отправная точка и func(initial_value, A) является первым вычислением.

>>> import operator, functools
>>> functools.reduce(operator.concat, ['A', 'BB', 'C'])
'ABBC'
>>> functools.reduce(operator.concat, [])
Traceback (most recent call last):
  ...
TypeError: reduce() of empty sequence with no initial value
>>> functools.reduce(operator.mul, [1, 2, 3], 1)
6
>>> functools.reduce(operator.mul, [], 1)
1

Если вы используете operator.add() с functools.reduce(), вы сложите все элементы итерабельной таблицы. Этот случай настолько распространен, что для его вычисления существует специальная встроенная функция sum():

>>> import functools, operator
>>> functools.reduce(operator.add, [1, 2, 3, 4], 0)
10
>>> sum([1, 2, 3, 4])
10
>>> sum([])
0

Однако для многих случаев использования functools.reduce() может быть проще просто написать очевидный цикл for:

import functools
# Instead of:
product = functools.reduce(operator.mul, [1, 2, 3], 1)

# You can write:
product = 1
for i in [1, 2, 3]:
    product *= i

Связанной функцией является itertools.accumulate(iterable, func=operator.add). Она выполняет то же вычисление, но вместо возврата только конечного результата accumulate() возвращает итератор, который также возвращает каждый частичный результат:

itertools.accumulate([1, 2, 3, 4, 5]) =>
  1, 3, 6, 10, 15

itertools.accumulate([1, 2, 3, 4, 5], operator.mul) =>
  1, 2, 6, 24, 120

Модуль оператора

Модуль operator был упомянут ранее. Он содержит набор функций, соответствующих операторам Python. Эти функции часто полезны в коде функционального стиля, поскольку они избавляют вас от написания тривиальных функций, выполняющих одну операцию.

Некоторые из функций этого модуля:

  • Математические операции: add(), sub(), mul(), floordiv(), abs(), …

  • Логические операции: not_(), truth().

  • Побитовые операции: and_(), or_(), invert().

  • Сравнения: eq(), ne(), lt(), le(), gt() и ge().

  • Идентификация объекта: is_(), is_not().

Полный список приведен в документации к модулю оператора.

Малые функции и выражение лямбда

При написании программ в функциональном стиле вам часто будут нужны небольшие функции, которые действуют как предикаты или каким-то образом объединяют элементы.

Если есть подходящая встроенная функция Python или функция модуля, вам не нужно определять новую функцию:

stripped_lines = [line.strip() for line in lines]
existing_files = filter(os.path.exists, file_list)

Если нужной вам функции не существует, ее нужно написать. Одним из способов написания небольших функций является использование выражения lambda. lambda принимает ряд параметров и выражение, объединяющее эти параметры, и создает анонимную функцию, которая возвращает значение выражения:

adder = lambda x, y: x+y

print_assign = lambda name, value: name + '=' + str(value)

В качестве альтернативы можно просто использовать оператор def и определить функцию обычным способом:

def adder(x, y):
    return x + y

def print_assign(name, value):
    return name + '=' + str(value)

Какая альтернатива предпочтительнее? Это вопрос стиля; мой обычный курс - избегать использования lambda.

Одна из причин моего предпочтения заключается в том, что lambda довольно ограничен в функциях, которые он может определять. Результат должен быть вычисляемым в виде одного выражения, что означает, что вы не можете использовать многосторонние сравнения if... elif... else или операторы try... except. Если вы попытаетесь сделать слишком много в операторе lambda, то в итоге получите слишком сложное выражение, которое трудно прочитать. Быстро, что делает следующий код?

import functools
total = functools.reduce(lambda a, b: (0, a[1] + b[1]), items)[1]

Вы можете разобраться в этом, но потребуется время, чтобы распутать выражение, чтобы понять, что происходит. Использование коротких вложенных выражений def делает ситуацию немного лучше:

import functools
def combine(a, b):
    return 0, a[1] + b[1]

total = functools.reduce(combine, items)[1]

Но было бы лучше всего, если бы я просто использовал цикл for:

total = 0
for a, b in items:
    total += b

Или встроенный sum() и выражение-генератор:

total = sum(b for a, b in items)

Многие случаи использования functools.reduce() более понятны, если записаны как циклы for.

Фредрик Лундх однажды предложил следующий набор правил для рефакторинга использования lambda:

  1. Напишите лямбда-функцию.

  2. Напишите комментарий, объясняющий, что делает эта лямбда.

  3. Изучите комментарий в течение некоторого времени и придумайте имя, которое отражает суть комментария.

  4. Преобразуйте лямбду в оператор def, используя это имя.

  5. Удалите комментарий.

Мне очень нравятся эти правила, но вы можете не соглашаться с тем, что этот стиль без лямбд лучше.

История пересмотра и благодарности

Автор хотел бы поблагодарить следующих людей за предложения, исправления и помощь в работе над различными черновиками этой статьи: Иэн Бикинг, Ник Коглан, Ник Эффорд, Раймонд Хеттингер, Джим Джуэтт, Майк Крелл, Леандро Ламейро, Юсси Салмела, Коллин Винтер, Блейк Уинтон.

Версия 0.1: опубликована 30 июня 2006 года.

Версия 0.11: опубликована 1 июля 2006 года. Исправлены опечатки.

Версия 0.2: опубликована 10 июля 2006 года. Объединил разделы genexp и listcomp в один. Исправлены опечатки.

Версия 0.21: Добавлено больше ссылок, предложенных в списке рассылки тьюторов.

Версия 0.30: Добавлен раздел о модуле functional, написанный Коллином Винтером; добавлен краткий раздел о модуле operator; несколько других правок.

Ссылки

Общий

Структура и интерпретация компьютерных программ, авторы Гарольд Абельсон и Джеральд Джей Сассман с Джули Сассман. Полный текст на сайте https://mitpress.mit.edu/sicp/. В этом классическом учебнике по информатике в главах 2 и 3 обсуждается использование последовательностей и потоков для организации потока данных внутри программы. В книге для примеров используется язык Scheme, но многие подходы к проектированию, описанные в этих главах, применимы к коду на Python в функциональном стиле.

https://www.defmacro.org/ramblings/fp.html: Общее введение в функциональное программирование, в котором используются примеры на Java и имеется пространное историческое введение.

https://en.wikipedia.org/wiki/Functional_programming: Общая запись в Википедии, описывающая функциональное программирование.

https://en.wikipedia.org/wiki/Coroutine: Ввод для coroutines.

https://en.wikipedia.org/wiki/Currying: Ввод понятия «карри».

Специфический для Python

https://gnosis.cx/TPiP/: В первой главе книги Дэвида Мерца Text Processing in Python обсуждается функциональное программирование для обработки текста, в разделе «Использование функций высшего порядка в обработке текста».

Мерц также написал серию из трех частей статей по функциональному программированию для сайта IBM DeveloperWorks; см. part 1, part 2 и part 3,

Документация по Python

Документация для модуля itertools.

Документация для модуля functools.

Документация для модуля operator.

PEP 289: «Выражения генератора»

PEP 342: «Coroutines via Enhanced Generators» описывает новые возможности генераторов в Python 2.5.

Вернуться на верх