Регулярні вирази: що таке, які бувають, приклади використання в Google Analytics
- Що таке регулярні вирази простими словами
- Де можуть використовуватися регулярні вирази
- Як користуватися регулярними виразами
- Символ зірочка "*"
- Символ знак питання "? "
- Символ плюс "+"
- Символ точка ". "
- Символ кришка "^"
- Символ долар "$"
- Символи в квадратних дужках "[]"
- Символи кришка в квадратних дужках "[^]"
- Символ дефіс "-"
- Символ прямий слеш "| "
- Символи круглі дужки "()"
- Символи фігурні дужки "{}"
- Вираз "\ d"
- Вираз "\ D"
- Вираз "\ w"
- Вираз "\ W"
- Вираз "\ s"
- Вираз "\ S"
- Регулярні вирази і Google Analytics
Тематичний трафік - альтернативний підхід в просуванні бізнесу
Регулярні вирази - це інструмент порівняння деякої рядка із заданим шаблоном.
Більше відео на нашому каналі - вивчайте інтернет-маркетинг з SEMANTICA
Він застосовується, коли потрібно впорядкувати великий обсяг текстової інформації за певними параметрами, знайти в рядку конкретний фрагмент - наприклад, при парсінгу рядків, зборі семантичного ядра сайту, налаштування фільтрів і цілей в системах аналітики.
Регулярки можна порівняти з азбукою Морзе. У ній літери алфавіту, цифри замінюються комбінаціями крапок і тире. Різниця в тому, що у випадку з азбукою набору точок і тире може відповідати тільки один набір символів. Регулярні вирази ж показують, який вигляд може приймати рядок. Іншими словами, вони формують шаблон, якому повинен відповідати набір символів.
Що таке регулярні вирази простими словами
Регулярні вирази - це своєрідний фільтр для текстових даних. Наприклад, потрібно знайти всі doc-файли на знімній носії. Вручну шукати довго і непродуктивно. Досить в пошуковому рядку ввести текст «* .doc», і система відбере всі файли з будь-яким ім'ям формату .doc. На майбутнє, символ «*» означає послідовність будь-яких символів довільної довжини.
Механізм регулярних виразів був розроблений в 1997 році творцями мови програмування С. Спочатку регулярки були реалізовані в бібліотеці PCRE мови Perl. Але механізм виявився настільки зручним і корисним, що згодом ця бібліотека стала використовуватися в інших мовах - Java, JavaScript, PHP, C ++ і т. Д.
Спрощена бібліотека PCRE була введена в систему Google Analytics. Вона не вимагає великих обчислювальних потужностей, проста в освоєнні і використанні.
Де можуть використовуватися регулярні вирази
Вони можуть використовуватися скрізь, де необхідна фільтрація текстового типу даних. Часто вони використовуються при розробці парсеров рядків - синтаксичних аналізаторів.
Функціонал для роботи з регулярними виразами є в редакторі таблиць Excel, текстових редакторах. При оптимізації сайтів застосовується KeyCollector - програма для складання семантичного ядра. Якщо потрібно відібрати багато ключів певного шаблону, використовуються регулярні вирази.
Регулярки застосовуються і в сфері інтернет-маркетингу. Аналітикам іноді потрібно налаштовувати вигляд звітів, фільтрувати для них текстові дані. Інструменти аналітики - Яндекс.Метрика і Google Analytics - дозволяють користуватися регулярними виразами:
- для настройки цілей;
- для фільтрації текстової інформації в звітах - наприклад, про джерела трафіку;
- при роботі з тегами в Google Tag Manager ;
- для роботи з фільтрами уявлень - поділ джерел трафіку на сегменти.
Як користуватися регулярними виразами
Регулярні вирази будуються за певними правилами. Символи можуть бути звичайними - букви, цифри, можуть бути спеціальними - метасимвол, які використовуються для завдання шаблону рядка.
Завжди можна обійтися виключно звичайними символами - просто перерахувати ті рядкові вирази, які потрібні. Використання метасимволов дозволить спростити роботу з рядками, заощадити час і сили. Потрібно лише один раз зрозуміти, як працюють регулярні вирази.
Символ зірочка "*"
Цей символ використовується, коли необхідно вказати довільне число повторення попереднього символу.
Приклад: tr * ack - маска. Під неї підійде набір символів tack - символу r немає; підійде track - одне входження символу; підійде trrrrrack - кілька входжень символу, що стоїть перед зірочкою.
Символ знак питання "? "
Метасимвол так само, як і зірочка, вказує на майбутній символ. Знак питання вказує, що літера може або відсутні, або присутні в рядку.
Приклад: під маску tr? Ack підходить два варіанти. tack - відсутність символу, track - одне входження.
Символ плюс "+"
Цей спецсимвол означає, що попередній символ може повторюватися необмежену кількість разів.
Приклад: під маску tr + ack підійдуть так само track, trrack, trrrack і т. Д.
Символ точка ". "
Точкою позначається один довільний символ.
Приклад: до рядка tr.ack підійдуть набори tr1ack, trRack, tr7ack і т. Д.
Символ кришка "^"
Даний метасимвол означає, що наступний за ним набір символів повинен перебувати на початку рядка.
Приклад: шаблоном ^ track будуть задовольняти рядки track, track10, але такі рядки 10track, rtrack.
Символ долар "$"
Метасимвол вказує на те, що попередні елементи повинні бути в кінці рядка.
Приклад: висловом track $ задовольнятимуть такі рядки: 5track, aaatrack, і не будуть задовольняти track5, trackaaa.
Символи в квадратних дужках "[]"
Квадратні дужки укладають в себе набір символів, для яких допустимо лише одне входження в рядок одного символу.
Приклад: висловом track [10] буде відповідати рядки track1 або track0. Рядки track10, track01 - немає.
Символи кришка в квадратних дужках "[^]"
Таке поєднання спеціальних символів вказує на те, що літер з квадратних дужок в рядку бути не повинно.
Приклад: регулярке [^ 0-8] буде відповідати рядок track, і не будуть відповідати рядки track08, track1 і т. Д.
Символ дефіс "-"
Це символ використовується для завдання діапазону. Наприклад, для вибору всіх великих літер латинського алфавіту можна скористатися дефісом, як було показано в попередньому прикладі. Треба пам'ятати, що в регулярних виразах ми маємо справу з символами. Рядок "76" розцінюється як символи "7" і "6". І якщо потрібно виключити, наприклад, діапазон двозначних чисел, потрібно виносити символ за дужки.
Приклад: для вибору діапазону чисел 23-29 регулярний вираз набуде вигляду "2 [3-9]".
Приклад: це важливий приклад. При роботі з Google Analytics часто виникає необхідність виключення певних IP-адрес. Щоб виключити адреси з 192.168.0.10 по 192.168.0.25, потрібно скористатися маскою 192 \ .168 \ .0 \. (1 [0-9] | 2 [0-5]).
Символ прямий слеш "| "
Вертикальний слеш означає логічну операцію АБО. Застосовується до групи символів, укладених в круглі дужки. Вибирається або вираз зліва від метасимвола, або праворуч.
Приклад: в попередньому прикладі ми вибирали діапазон чисел 10 - 25. Оскільки за дужки ми не можемо одночасно винести цифри 1 і 2, ми поступили так - (1 [0-9] | 2 [0-5]).
Символи круглі дужки "()"
Круглі дужки потрібні, коли групу елементів потрібно об'єднати в один символ.
Приклад: регулярному виразу track (10) + відповідатиме рядок track1010, track101010. Ми об'єднали символи "1" і "0" в одну групу "10", а "+" вказує, що ця група може повторюватися довільне число раз.
Символи фігурні дужки "{}"
У фігурних дужках задається число повторень останнього символу. Можна вказати проміжок, наприклад, "{2,4}" або необмежене число повторень - "{2}".
Приклад: масці (track) {2} буде відповідати рядок "tracktrack", а вираженню (track) {2} - все рядки tracktrack, tracktracktrack і т. Д.
Вираз "\ d"
Для спрощення роботи можна користуватися конструкціями, які скорочують запис регулярних виразів.
Ця конструкція ставиться в відповідності будь-якому символу і замінює рядок "[0-9]".
Вираз "\ D"
Це поєднання символів використовується, коли потрібно виключити всі цифри. Вона еквівалентна рядку "[^ 0-9]".
Вираз "\ w"
Така конструкція замінює будь-яку букву алфавіту, цифру або знак нижнього підкреслення "_".
Вираз "\ W"
Цьому сполученню символів ставиться у відповідність всі символи, які не входять до попередню групу - які не є буквами, цифрами або підкресленням "_".
Вираз "\ s"
Конструкція замінює будь-який символ пробілу. Прогалин може бути довільне число.
Вираз "\ S"
Відповідає будь-якому символу, яка не є пробільним.
Регулярні вирази і Google Analytics
Конструкцій, які використовуються при складанні регулярних виразів, дуже багато. Ми привели ті, які часто потрібні при роботі з системами аналітики.
Інструмент Google Analytiсs включає внутрішній інтерпретатор регулярних відносин. Він спрощений, але функціоналу досить при роботі з сервісом.
Регулярними виразами можна користуватися під час налаштування цілей.
Наприклад, якщо кінцева адреса містить динамічно змінюється параметр. Припустимо, у вас є інтернет магазин, і для кожного користувача формується унікальний ID замовлення. Щоб налаштувати мета, можна використовувати регулярний вираз. Динамічної частиною буде рядок виду ORD-XXXXXX, де XXXXXX - автоматично генерується номер з цифр.
Для адреси example.com/user/ordes/ORD-123456 регулярний вираз для мети буде мати вигляд: ^ example \ .com \ / user \ / orders \ / ORD- \ d {5}.
- ^ - починається з;
- \ - екранування наступного символу;
- \ D {5} - послідовність з 5 цифр.
При формуванні звітів можна фільтрувати джерела трафіку. Якщо вас цікавлять тільки користувачі, які прийшли з видачі Яндекса або Google, використовуйте конструкцію (yandex | google). Результатом будуть рядки, де є ці значення.
Використання регулярних значень спрощує і прискорює роботу зі звітами і налагодження систем аналітики. Навчитися користуватися регулярки легко - потрібно один раз зрозуміти принцип побудови конструкцій.
Символ знак питання "?Приклад: під маску tr?