Что такое "регулярные выражения", и с чем их едят?

Что такое "регулярные выражения", и с чем их едят?


Регулярные выражения (regular expressions/regex/РВ) - по сути дела мини-язык для работы с текстом, c его помощью можно:

- выделить все e-mail или телефонные номера из текста

- определить пол человека по имени

- идентифицировать потенциальное мошенничество в объявлениях и многое другое.

Другими словами, находить и выявлять в тексте ПАТТЕРНЫ. Почти все языки программирования и многие программы поддерживают РВ, в том числе excel, open refine, sublime text, atom, и многие другие.

РВ позволяют сэкономить кучу времени, поэтому человеку, которому приходится иногда чистить текстовые данные, стоит изучить основы РВ.


РВ чуть-чуть (обычно это называют flavor - привкус) отличаются от одного языка программирования к другому, но в целом они универсальны - вы можете настроить их вручную, а потом передать программисту для использования в автоматизированных задачах!

Ниже - несколько ссылок в помощь:

Онлайн-редакторы

  - regexr.com

  - pythex.org

Статьи / учебники о Regex

  - https://tproger.ru/articles/regexp-for-beginners

  - https://habr.com/post/115825

Визуализация / объяснения Regex

- http://emailregex.com/regex-visual-tester/   

- http://txt2re.com/


кстати regex посвящена большая часть книги “Scraping for journalists”: https://leanpub.com/scrapingforjournalists (edited)

Report Page