W tym artykule omówimy techniczne kwestie związane z możliwościami jakie dają nam algorytmy genetyczne w powiązaniu z modelami semantycznymi oraz statystyką. Pokażemy w jaki sposób można użyć algorytmu genetycznego do uzyskania listy tematów i typów treści spełniających określone wymagania, dzięki którym możemy uzyskać przewagę w wyszukiwarkach.

Jak zaplanować skuteczną strategię content marketingową?

Bez dobrej strategii content marketingowej nie da się osiągnąć zamierzonych celów i zysków w biznesie. Dlatego tak ważne jest to, aby przygotować skuteczny plan działań w tym obszarze. Rozpoczynając planowanie strategii treści określamy wraz z zespołem główne czynniki decydujące o jej sukcesie (sprzedaż, wyświetlenia). Najistotniejszym z nich jest to do kogo ma być kierowana komunikacja, jaki jest jej cel i jak ten cel powinien zostać zmierzony efektywnie. Oprócz definicji grupy docelowej, dobrze jest też określić w jaki sposób i jakimi typami treści będziemy do niej docierali.

Tworzenie optymalnej strategii content marketingowej z wykorzystaniem algorytmów genetycznych

Możemy zatem wyróżnić kilka punktów istotnych dla planowania strategii content marketingowej:

  • Określenie KPI (zdefiniowanie mierzalnych celów, parametryzacja)
  • Zdefiniowanie naszych odbiorców (dopasowanie do kraju, języka, wewnętrznych słowników)
  • Zasoby/analiza zasobów (jakiego rodzaju dane możemy wykorzystać)
  • Analityka (czym mierzymy efekty, w jaki sposób, jak prezentujemy dane)
  • Plan publikacji, dystrybucji, linkowania (następne kroki po zdefiniowaniu strategii)
  • Budżet (definiuje ile i jakiego rodzaju treści możemy pozyskać)

Typowe problemy przy planowaniu treści

  • czy fundusze są dobrze wydane na treści, 
  • czemu mamy dużo treści, które nie rankuja, 
  • wydawanie funduszy na duplikaty
  • nie wiemy, czy mamy już dane teksty lub teksty o podobnej tematyce, etc
  • czy budujemy odpowiednio autorytet 
  • czy odpowiadamy na intencje użytkownika odpowiednimi typami treści

Dlaczego semantyka jest taka ważna?

Planując strategię content marketingową nie możemy pominąć rosnącego wpływu big-data i odzwierciedlenia tego w modelach semantycznych (NLP).
 Znaczenie semantyki rośnie z kilku powodów:


Zmiany, wpływające na algorytmy oceniające:


  • maszyny lepiej rozumieją język naturalny i są w stanie bardzo dokładnie odwzorować powiązania (“knowledge graph”) dla większość słów, w tym nowych
  • 
użytkownicy dostarczają olbrzymich ilości danych, w tym danych głosowych (voice -> text)

  • Google testuje nowe rozwiązania (passage indexing, title change)

Jakie dane należy wziąć pod uwagę?

Główne elementy, jakie biorą czynny udział w rozwoju opartym o NLP bazują na modelach statystycznych i powiązaniach semantycznych. Typowe z nich to te związane z parametrami samych treści i umieszczenia tych treści w ramach konkurencyjnych wyników. Używając tych danych, modeli językowych oraz informacji jakościowych z zewnętrznych źródeł danych możemy zbudować własne systemy oceniające treści na zasadzie porównań i zbieżności z algorytmem Google. Chodzi tutaj o takie dane, jak:

Parametry treści (słowa kluczowe, długość, nasycenie, itd.)

  • SERPy (typ treści, konkurencja, zrozumienie tematu, itd.)
  • Modele językowe, ich rozwój i powiązania (np. Knowledge Graph vs B.E.R.T.)
  • Zewnętrzne źródła danych (Keyword Planner, bazy słów kluczowych, monitoring, itd.)

Jak korzystać z danych w strategii content marketingowej?


Czego potrzebujemy, aby zbudować skuteczną kampanię content marketingową? Na pewno powinniśmy zadbać o tematykę odpowiednią dla naszej gruby odbiorców. Następnie należy wypełnić otoczenie tematyczne, aby nasze treści w jak największym stopniu zaspokajały intencje użytkowników. W tym celu warto posłużyć się dopasowaniami prezentowanymi w wynikach Google, analizując występujące tam tytuły, opisy i meta-dane poszczególnych podstron.

Analizując te informacje statystyczne otrzymujemy zestawy słów kluczowych, istotnych dla danego tematu. Mając słowa kluczowe, możemy je pogrupować i na tej podstawie będziemy w stanie dokonać optymalnego doboru zestawu tematów, który powinien zapewnić nam maksymalny wolumen i wartość ruchu, szerokie pokrycie (maksymalna liczba słów kluczowych) oraz inne, bardziej złożone warunki. Jednak to wszystko teorią, a jak możemy tego dokonać w praktyce?

Duże ilości danych, stopień skomplikowania oraz wpływ czynników ilościowych wymuszają użycie automatyzacji tych procesów. Automatyzacja jest w tej chwili domeną deweloperów, ale może być też realizowana przez zespoły tworzące strategię content marketingową. Aby to zrobić, potrzebne jest jednak odpowiednie narzędzie pomagające w działaniach planowania oraz zarządzania treścią, a także potrafiące dokonywać analizy semantycznej.

Przykładem takiego narzędzia może być CONTADU. Ta platforma Content Intelligence zdecydowanie ułatwi nam proces tworzenia strategii content marketingowej, ponieważ korzysta z algorytmów genetycznych. Warto w tym miejscu wyjaśnić, czym są i jak działają te algorytmy.

klastry 2

Co to jest algorytm genetyczny i jaki ma związek z ewolucją genetyczną?

Algorytm genetyczny to rodzaj heurystyki. A to oznacza to, że nie gwarantuje on znalezienia idealnego rozwiązania, lecz rozwiązanie najbliższe idealnemu spośród wszystkich dostępnych opcji. Jeśli algorytm perfekcyjny dla danego problemu nie istnieje, jego implementacja jest zbyt trudna lub jego działanie jest zbyt wymagające jeśli chodzi o zasoby, algorytm genetyczny znajdzie najlepszą i najbardziej optymalną alternatywę. Historia algorytmu genetycznego sięga lat 50., a jego twórcą jest amerykański profesor John Henry Holland. Inspiracją do stworzenia algorytmu genetycznego była ewolucja biologiczna.

W środowisku naturalnym istnieje pewna populacja, w której każdy z osobników ma określony zestaw informacji genetycznej (genotyp) obserwowany zestaw cech (fenotyp) pozwalający na przystosowanie do otaczających warunków oraz zwiększający szanse przeżycia i reprodukcji. Cechy te mogą być przekazywane z pokolenia na pokolenie. Osobniki o cechach pozwalających im górować nad konkurentami z większym prawdopodobieństwem przekażą swoje cechy następnemu pokoleniu, niż organizmy posiadające cechy nie gwarantujące takich przewag. Dodatkowo możemy obserwować mutacje, czyli skokowe zmiany materiału genetycznego.

Jak działa algorytm genetyczny?


Działanie algorytmów genetycznych wygląda bardzo podobnie. Typowa implementacja algorytmu genetycznego rozpoczyna się od wygenerowania populacji początkowej złożonej z określonej liczby osobników. Każdy z osobników ma wylosowany genotyp (pewien zestaw informacji), który jest podstawą do wytworzenia fenotypu (obserwowanych cech). Następnie przeprowadzamy kolejne iteracje algorytmu. Każdą z iteracji można nazwać pokoleniem. Kolejne pokolenia osobników poddawane są ocenie przystosowania do środowiska.

W uproszczeniu można powiedzieć, że są poddawane ocenie przystosowania do realizacji wybranego przez nas celu. Następuje selekcja najlepiej przystosowanych i przejście do reprodukcji. Osobniki najlepiej przystosowane będą się krzyżować tworząc osobniki nowego pokolenia złożone z fragmentów kodu genetycznego rodziców. Oprócz tego z pewnym prawdopodobieństwem mogą zachodzić mutacje czyli drobne losowe zmiany w kodzie genetycznym.

Kolejne iteracje mają miejsce tak długo, aż osiągniemy warunek stopu (czyli np. osobnika, którego miara przystosowania spełnia nasze oczekiwania) lub gdy tracimy cierpliwość (określona liczba iteracji).

Przykład działania algorytmu genetycznego

Popularna demonstracja działania algorytmów genetycznych to stworzenie środowiska w postaci toru przeszkód (z zaimplementowaną podstawową fizyką), który jest pokonywany przez osobniki będące prostymi pojazdami. Mogą to być samochodziki czy dwukołowe rowerki. Bierzemy pod uwagę minimalną liczbę parametrów.

W naszej symulacji parametry opisujące genotyp osobników to:


  • średnica kół (każdego z osobna)

  • gęstość kół
  • ich pozycja i rozstaw

  • osiem wierzchołków definiujących geometrię ramy

  • gęstość ramy

przykladowe osobniki

Miarą przystosowania do środowiska będzie to, jak daleko określona konstrukcja jest w stanie dojechać. Naszym środowiskiem jest tor przeszkód. Będziemy testować w nim każde pokolenie, obserwując, które konstrukcje (osobniki) są w stanie dojechać najdalej. Najlepsze przechodzą do reprodukcji. Najbardziej dopasowane osobniki krzyżują się, czyli w tym przypadku wymieniają parametrami konstrukcyjnymi. Potomek będzie posiadał część genów każdego z rodziców.

Czy samo krzyżowanie doprowadzi nas do optymalnego rozwiązania? Często nie. Istnieje ryzyko wejścia w optimum lokalne, a w naszej populacji będzie brakowało osobników, które mogą dostarczyć genów, które pozwolą ewoluować poziom wyżej. Aby sobie z tym poradzić, wprowadzamy mechanizm mutacji. Podobnie jak w naturze, można przyjąć, że mutacje występują z pewnym prawdopodobieństwem. Czyli w naszej symulacji można „rzucać kostką” i w ten sposób decydować, czy w genotypie wybranego osobnika zajdzie losowa zmiana. Jeśli taka zmiana nastąpi i będzie dawała przewagę nad innymi osobnikami, to możemy uznać, że geny tego osobnika wejdą do następnych pokoleń.

Algorytm genetyczny znajduje rozwiązanie, które jest najbliższe optymalnemu

Już po kilkunastu iteracjach można zauważyć, że w naszym eksperymencie pojawiają się pewne wzorce. Osobniki z dużymi kołami, wysokim zawieszeniem, relatywnie niskim środkiem ciężkości radzą sobie nieźle na torze. Dla uproszczenia tor jest stały. W celu poszukiwania “uniwersalnego” pojazdu można by było np. zmieniać go w trakcie eksperymentu lub sumować odległości pokonane na kilku typach torów.

Genetyka w Content Marketingu

Techniczne zastosowanie algorytmu genetycznego w content marketingu

Przejdźmy teraz do zastosowania algorytmu genetycznego w strategii content marketingowej. Przyjmijmy, że mając określony budżet jesteśmy w stanie napisać 20 artykułów. Jakie artykuły powinniśmy napisać, by sensownie pokryć najwięcej przestrzeni słów kluczowych? Pamiętamy, że na wcześniejszym etapie analizy zebraliśmy TOP 100 wyników wyszukiwania na każde z analizowanych słów. 

Zakładamy, że nasz konkurent jest w stanie określonym artykułem rankować w TOP 5 (możemy też przyjąć inną wartość, np. Top 10) wyników wyszukiwania na dane słowo kluczowe, to jest to osiągalne, a zestaw słów, na które rankuje, jest spójny semantycznie (z perspektywy Google).


Próbujemy stworzyć najlepiej przystosowanego osobnika, a takim osobnikiem w rozumieniu najistotniejszej części strategii content marketingowej może być najlepszy zestaw 20 artykułów, które chcemy napisać. Najlepszy, czyli pozwalający rankować na największą liczbę słów kluczowych.

Zatem ustaliliśmy, że osobnik to pewien zestaw artykułów. Dobry, średni lub całkowicie kiepski (np. tematy mocno kanibalizujące się i słabe pokrycie reszty). Jak oceniamy przystosowanie danego osobnika? Znamy pozycje poszczególnych artykułów na analizowane przez nas słowa kluczowe. Dla każdego artykułu z zestawu ustalamy, na które słowa kluczowe rankuje on w TOP 5 wyników, a na które nie. Suma wszystkich słów kluczowych w TOP 5 dla danego zestawu artykułów jest miarą jakości danego zestawu.

Najlepsze zestawy będziemy ze sobą krzyżować (scalać fragmenty tekstów, by otrzymać nowy artykuł). Dodatkowo będą występować mutacje (czyli wymiana jednego z artykułów spośród dwudziestu w zestawie na losowy). Możemy to wszystko podsumować w taki sposób:

  • osobnik (i jego genotyp) = pewien zestaw 20 artykułów
  • miara przystosowania do środowiska = dla ilu spośród wszystkich słów kluczowych co najmniej jeden artykuł z zestawu jest w TOP 5
  • krzyżowanie = wymiana genów, czyli w tym przypadku artykułów między zestawami (osobnikami)
  • mutacja = wymiana jednego z artykułów na inny, losowy

Rozpoczęcie tworzenia strategii content marketingowej

osobnik a

Zacznijmy od utworzenia lub wylosowania pierwszego pokolenia złożonego ze 100 osobników. Każdy osobnik jest opisany przez genotyp złożony z 20 genów. Każdy z genów to jeden wylosowany artykuł z puli wszystkich, które pojawiały się w wynikach wyszukiwania na badane przez nas słowa (blisko 600 słów). Mając informację o tym, na jakie słowa kluczowe i na jakich pozycjach są widoczne dane adresy URL, jesteśmy w stanie powiedzieć, jaki zestaw słów kluczowych pokrywa tymi artykułami nasz osobnik. Daje to wynik na poziomie 94 z 584 słów kluczowych. Czyli jest to spore pokrycie, ale dalekie od ideału.

Przechodzimy teraz do kolejnych iteracji algorytmu. W każdej iteracji oceniamy wszystkich osobników w danym pokoleniu. Każdy z nich jest oceniany miarą przystosowania. Najlepsi przechodzą do reprodukcji — wymieniają się artykułami w zestawie. Oprócz tego, z pewnym prawdopodobieństwem występują również mutacje czyli losowe wymiany jednego z artykułów w zestawie na inny, losowy.

Mamy tutaj podsumowanie kilku wybranych generacji. Widać silny początkowy wzrost jakości i wolniejszą optymalizację w kierunku najlepszego rozwiązania. Pamiętajmy też, że aby pokryć całą tematykę, potrzebnych będzie więcej artykułów.

porównanie pokoleń

Przyjrzyjmy się najlepszym osobnikom z poszczególnych pokoleń. Z uwagi na liczbę słów, trudno jest reprezentować je inaczej niż jako piksele. Widzimy, że najlepszy osobnik z pokolenia początkowego osiąga swój wynik wykorzystując zaledwie 3 spośród 20 artykułów.

generacja 1

Setne pokolenie to już zupełnie przyzwoite pokrycie przestrzeni słów kluczowych.

generacja 2

Przechodząc do kolejnych pokoleń, dobrze widać, że pewne wzorce się utrzymują. Są one definiowane przez “najlepsze” artykuły.

generacja 3

Generacja 10000 jest już bliska najlepszego rozwiązania.

generacja 4

Kolejne generacje wprowadzają już jedynie minimalną poprawę.

generacja 5

Nasz najlepszy osobnik ma miarę przystosowania na poziomie 434 z 584 słów. Wydaje się, że jest to bardzo dużo. Zobaczmy go w szczegółach.

osobnik b

Nasz Osobnik B składa się z 20 artykułów. Część z nich odpowiada najpopularniejszym kategoriom produktowym, inne to inspiracje czy porady. Warto zauważyć, że tematy nakładają się w minimalnym stopniu. Takie było jedno z głównych założeń.

Kolejne etapy w tworzeniu strategii treści

tabelka z tematami

W oparciu o wygenerowany zestaw budujemy plan publikacji. Tworzymy treści, publikujemy je (oczywiście dbając również o dystrybucję). Analizujemy efekty i możemy przejść do kolejnej iteracji. Warto zauważyć, że w kolejnej iteracji możemy łatwo uwzględnić zagospodarowanie przestrzeni słów kluczowych przez obecny zestaw artykułów lub nawet wykorzystać informacje o widoczności naszych treści. W ten sposób, w kolejnej iteracji algorytm sam uwzględni już posiadane zasoby dzięki czemu w dalszym ciągu będziemy dobrze wydawać budżet i unikniemy duplikatów.

Co można zmienić? Właściwie jesteśmy ograniczeni jedynie przez naszą wyobraźnię. Mamy możliwość definiowania dowolnych miar przystosowania, które będą oceniały rozwiązania pod kątem nawet najbardziej wyszukanych wymagań. W szczególności możemy np. szukać dobrych tematów jednocześnie nie wchodząc w te, które są zbyt trudne (np. ocena trudności słowa kluczowego lub choćby, jako przybliżenie, wartość konkurencji w reklamach).


Podsumowanie

Używając algorytmu genetycznego:

  • zrealizowaliśmy automatyczną selekcję najlepszych tematów

  • rozważyliśmy możliwość poszukiwania rozwiązań przy różnych celach

  • dzięki funkcjom ewaluacji, mamy możliwość uwzględnienia już posiadanych zasobów

  • zauważyliśmy, że można w ten sposób oszacować minimalny budżet niezbędny do pokrycia tematyki