Что такое "регулярные выражения", и с чем их едят?
Регулярные выражения (regular expressions/regex/РВ) - по сути дела мини-язык для работы с текстом, c его помощью можно:
- выделить все e-mail или телефонные номера из текста
- определить пол человека по имени
- идентифицировать потенциальное мошенничество в объявлениях и многое другое.
Другими словами, находить и выявлять в тексте ПАТТЕРНЫ. Почти все языки программирования и многие программы поддерживают РВ, в том числе excel, open refine, sublime text, atom, и многие другие.
РВ позволяют сэкономить кучу времени, поэтому человеку, которому приходится иногда чистить текстовые данные, стоит изучить основы РВ.
РВ чуть-чуть (обычно это называют flavor - привкус) отличаются от одного языка программирования к другому, но в целом они универсальны - вы можете настроить их вручную, а потом передать программисту для использования в автоматизированных задачах!
Ниже - несколько ссылок в помощь:
Онлайн-редакторы
- regexr.com
- pythex.org
Статьи / учебники о Regex
- https://tproger.ru/articles/regexp-for-beginners
- https://habr.com/post/115825
Визуализация / объяснения Regex
- http://emailregex.com/regex-visual-tester/
- http://txt2re.com/
кстати regex посвящена большая часть книги “Scraping for journalists”: https://leanpub.com/scrapingforjournalists (edited)