Регулярні вирази: що таке, які бувають, приклади використання в Google Analytics

  1. Що таке регулярні вирази простими словами
  2. Де можуть використовуватися регулярні вирази
  3. Як користуватися регулярними виразами
  4. Символ зірочка "*"
  5. Символ знак питання "? "
  6. Символ плюс "+"
  7. Символ точка ". "
  8. Символ кришка "^"
  9. Символ долар "$"
  10. Символи в квадратних дужках "[]"
  11. Символи кришка в квадратних дужках "[^]"
  12. Символ дефіс "-"
  13. Символ прямий слеш "| "
  14. Символи круглі дужки "()"
  15. Символи фігурні дужки "{}"
  16. Вираз "\ d"
  17. Вираз "\ D"
  18. Вираз "\ w"
  19. Вираз "\ W"
  20. Вираз "\ s"
  21. Вираз "\ S"
  22. Регулярні вирази і Google Analytics

Тематичний трафік - альтернативний підхід в просуванні бізнесу

Тематичний трафік - альтернативний підхід в просуванні бізнесу

Регулярні вирази - це інструмент порівняння деякої рядка із заданим шаблоном.

Більше відео на нашому каналі - вивчайте інтернет-маркетинг з SEMANTICA

Він застосовується, коли потрібно впорядкувати великий обсяг текстової інформації за певними параметрами, знайти в рядку конкретний фрагмент - наприклад, при парсінгу рядків, зборі семантичного ядра сайту, налаштування фільтрів і цілей в системах аналітики.

Регулярки можна порівняти з азбукою Морзе. У ній літери алфавіту, цифри замінюються комбінаціями крапок і тире. Різниця в тому, що у випадку з азбукою набору точок і тире може відповідати тільки один набір символів. Регулярні вирази ж показують, який вигляд може приймати рядок. Іншими словами, вони формують шаблон, якому повинен відповідати набір символів.

Що таке регулярні вирази простими словами

Регулярні вирази - це своєрідний фільтр для текстових даних. Наприклад, потрібно знайти всі doc-файли на знімній носії. Вручну шукати довго і непродуктивно. Досить в пошуковому рядку ввести текст «* .doc», і система відбере всі файли з будь-яким ім'ям формату .doc. На майбутнє, символ «*» означає послідовність будь-яких символів довільної довжини.

Механізм регулярних виразів був розроблений в 1997 році творцями мови програмування С. Спочатку регулярки були реалізовані в бібліотеці PCRE мови Perl. Але механізм виявився настільки зручним і корисним, що згодом ця бібліотека стала використовуватися в інших мовах - Java, JavaScript, PHP, C ++ і т. Д.
Спрощена бібліотека PCRE була введена в систему Google Analytics. Вона не вимагає великих обчислювальних потужностей, проста в освоєнні і використанні.

Де можуть використовуватися регулярні вирази

Вони можуть використовуватися скрізь, де необхідна фільтрація текстового типу даних. Часто вони використовуються при розробці парсеров рядків - синтаксичних аналізаторів.
Функціонал для роботи з регулярними виразами є в редакторі таблиць Excel, текстових редакторах. При оптимізації сайтів застосовується KeyCollector - програма для складання семантичного ядра. Якщо потрібно відібрати багато ключів певного шаблону, використовуються регулярні вирази.
Вони можуть використовуватися скрізь, де необхідна фільтрація текстового типу даних
Регулярки застосовуються і в сфері інтернет-маркетингу. Аналітикам іноді потрібно налаштовувати вигляд звітів, фільтрувати для них текстові дані. Інструменти аналітики - Яндекс.Метрика і Google Analytics - дозволяють користуватися регулярними виразами:

  • для настройки цілей;
  • для фільтрації текстової інформації в звітах - наприклад, про джерела трафіку;
  • при роботі з тегами в Google Tag Manager ;
  • для роботи з фільтрами уявлень - поділ джерел трафіку на сегменти.

Як користуватися регулярними виразами

Регулярні вирази будуються за певними правилами. Символи можуть бути звичайними - букви, цифри, можуть бути спеціальними - метасимвол, які використовуються для завдання шаблону рядка.

Завжди можна обійтися виключно звичайними символами - просто перерахувати ті рядкові вирази, які потрібні. Використання метасимволов дозволить спростити роботу з рядками, заощадити час і сили. Потрібно лише один раз зрозуміти, як працюють регулярні вирази.

Символ зірочка "*"

Цей символ використовується, коли необхідно вказати довільне число повторення попереднього символу.
Приклад: tr * ack - маска. Під неї підійде набір символів tack - символу r немає; підійде track - одне входження символу; підійде trrrrrack - кілька входжень символу, що стоїть перед зірочкою.

Символ знак питання "? "

Метасимвол так само, як і зірочка, вказує на майбутній символ. Знак питання вказує, що літера може або відсутні, або присутні в рядку.
Приклад: під маску tr? Ack підходить два варіанти. tack - відсутність символу, track - одне входження.

Символ плюс "+"

Цей спецсимвол означає, що попередній символ може повторюватися необмежену кількість разів.
Приклад: під маску tr + ack підійдуть так само track, trrack, trrrack і т. Д.

Символ точка ". "

Точкою позначається один довільний символ.
Приклад: до рядка tr.ack підійдуть набори tr1ack, trRack, tr7ack і т. Д.

Символ кришка "^"

Даний метасимвол означає, що наступний за ним набір символів повинен перебувати на початку рядка.
Приклад: шаблоном ^ track будуть задовольняти рядки track, track10, але такі рядки 10track, rtrack.

Символ долар "$"

Метасимвол вказує на те, що попередні елементи повинні бути в кінці рядка.
Приклад: висловом track $ задовольнятимуть такі рядки: 5track, aaatrack, і не будуть задовольняти track5, trackaaa.

Символи в квадратних дужках "[]"

Квадратні дужки укладають в себе набір символів, для яких допустимо лише одне входження в рядок одного символу.
Приклад: висловом track [10] буде відповідати рядки track1 або track0. Рядки track10, track01 - немає.

Символи кришка в квадратних дужках "[^]"

Таке поєднання спеціальних символів вказує на те, що літер з квадратних дужок в рядку бути не повинно.
Приклад: регулярке [^ 0-8] буде відповідати рядок track, і не будуть відповідати рядки track08, track1 і т. Д.

Символ дефіс "-"

Це символ використовується для завдання діапазону. Наприклад, для вибору всіх великих літер латинського алфавіту можна скористатися дефісом, як було показано в попередньому прикладі. Треба пам'ятати, що в регулярних виразах ми маємо справу з символами. Рядок "76" розцінюється як символи "7" і "6". І якщо потрібно виключити, наприклад, діапазон двозначних чисел, потрібно виносити символ за дужки.

Приклад: для вибору діапазону чисел 23-29 регулярний вираз набуде вигляду "2 [3-9]".
Приклад: це важливий приклад. При роботі з Google Analytics часто виникає необхідність виключення певних IP-адрес. Щоб виключити адреси з 192.168.0.10 по 192.168.0.25, потрібно скористатися маскою 192 \ .168 \ .0 \. (1 [0-9] | 2 [0-5]).

Символ прямий слеш "| "

Вертикальний слеш означає логічну операцію АБО. Застосовується до групи символів, укладених в круглі дужки. Вибирається або вираз зліва від метасимвола, або праворуч.
Приклад: в попередньому прикладі ми вибирали діапазон чисел 10 - 25. Оскільки за дужки ми не можемо одночасно винести цифри 1 і 2, ми поступили так - (1 [0-9] | 2 [0-5]).

Символи круглі дужки "()"

Круглі дужки потрібні, коли групу елементів потрібно об'єднати в один символ.
Приклад: регулярному виразу track (10) + відповідатиме рядок track1010, track101010. Ми об'єднали символи "1" і "0" в одну групу "10", а "+" вказує, що ця група може повторюватися довільне число раз.

Символи фігурні дужки "{}"

У фігурних дужках задається число повторень останнього символу. Можна вказати проміжок, наприклад, "{2,4}" або необмежене число повторень - "{2}".
Приклад: масці (track) {2} буде відповідати рядок "tracktrack", а вираженню (track) {2} - все рядки tracktrack, tracktracktrack і т. Д.

Вираз "\ d"

Для спрощення роботи можна користуватися конструкціями, які скорочують запис регулярних виразів.
Ця конструкція ставиться в відповідності будь-якому символу і замінює рядок "[0-9]".

Вираз "\ D"

Це поєднання символів використовується, коли потрібно виключити всі цифри. Вона еквівалентна рядку "[^ 0-9]".

Вираз "\ w"

Така конструкція замінює будь-яку букву алфавіту, цифру або знак нижнього підкреслення "_".

Вираз "\ W"

Цьому сполученню символів ставиться у відповідність всі символи, які не входять до попередню групу - які не є буквами, цифрами або підкресленням "_".

Вираз "\ s"

Конструкція замінює будь-який символ пробілу. Прогалин може бути довільне число.

Вираз "\ S"

Відповідає будь-якому символу, яка не є пробільним.

Регулярні вирази і Google Analytics

Конструкцій, які використовуються при складанні регулярних виразів, дуже багато. Ми привели ті, які часто потрібні при роботі з системами аналітики.

Інструмент Google Analytiсs включає внутрішній інтерпретатор регулярних відносин. Він спрощений, але функціоналу досить при роботі з сервісом.
Регулярними виразами можна користуватися під час налаштування цілей.

Наприклад, якщо кінцева адреса містить динамічно змінюється параметр. Припустимо, у вас є інтернет магазин, і для кожного користувача формується унікальний ID замовлення. Щоб налаштувати мета, можна використовувати регулярний вираз. Динамічної частиною буде рядок виду ORD-XXXXXX, де XXXXXX - автоматично генерується номер з цифр.

Для адреси example.com/user/ordes/ORD-123456 регулярний вираз для мети буде мати вигляд: ^ example \ .com \ / user \ / orders \ / ORD- \ d {5}.

  • ^ - починається з;
  • \ - екранування наступного символу;
  • \ D {5} - послідовність з 5 цифр.

При формуванні звітів можна фільтрувати джерела трафіку. Якщо вас цікавлять тільки користувачі, які прийшли з видачі Яндекса або Google, використовуйте конструкцію (yandex | google). Результатом будуть рядки, де є ці значення.

Використання регулярних значень спрощує і прискорює роботу зі звітами і налагодження систем аналітики. Навчитися користуватися регулярки легко - потрібно один раз зрозуміти принцип побудови конструкцій.

Символ знак питання "?
Приклад: під маску tr?