Portal despre renovarea băii. Sfaturi utile

Frecvența de utilizare. Ce înseamnă indicatorii frq1, frq2 și LL-score în dicționarul de vocabular semnificativ

Frecvența de utilizare

substantiv, număr de sinonime: 1

utilizare (10)


  • - Vocabular, a cărui utilizare este limitată din anumite motive. motive extralingvistice. Pentru L.o.u. includ: dialectisme, termeni și profesionalisme, jargon, cuvinte și expresii colocviale, vulgarisme...

    Dicţionar de termeni sociolingvistici

  • Lingvistică generală. Sociolingvistică: Dicționar-carte de referință

  • - traducerea termenului german Gebrauchstypen, introdus de Delbrück pentru a desemna utilizări consacrate ale formelor gramaticale. Pentru a T. sus. includ, de exemplu, diferite tipuri de utilizare sintactică...

    Dicționar enciclopedic al lui Brockhaus și Euphron

  • - Vocabular, a cărui utilizare este limitată din motive extralingvistice: 1) dialectisme limitate teritorial; 2) termeni folosiți în stil științific...
  • Dicţionar de termeni lingvistici T.V. Mânz

  • Dicţionar de termeni lingvistici T.V. Mânz

  • - Utilizări care interzic utilizarea diferențelor dintre un obiect și altul: Organismele vii nu pot exista fără...
  • - Utilizări care se corelează cu reprezentanții specifici ai unei clase date de obiecte: I need to see this person...

    Termeni și concepte de morfologie generală: Dicționar-carte de referință

  • - 1) Opțiuni prevăzute de regulile de formatare a propozițiilor complexe non-uniune: la explicarea sau motivarea se poate folosi o liniuță în loc de două puncte: Separarea este iluzorie - vom fi împreună în curând...

    Sintaxă: Dicţionar

  • - adverb, număr de sinonime: 1 ascuns...

    Dicţionar de sinonime

  • - adj., număr de sinonime: 10 publicat, învechit, nerespectând cerințele moderne, învechit, învechit, retrogradat pe tărâmul legendei...

    Dicţionar de sinonime

  • - Cm....

    Dicţionar de sinonime

  • - adj., număr de sinonime: 19 anacronic arhaic arhaic epuizat învechit învechit dărăpănat învechit învechit retras în regiune...

    Dicţionar de sinonime

  • - adj., număr de sinonime: 2 nepotrivit pentru utilizare neobișnuit...

    Dicţionar de sinonime

  • - adj., număr de sinonime: 3 rămas nefolosit pus deoparte pus sub acoperire...

    Dicţionar de sinonime

  • - 1) Opțiuni prevăzute de regulile de formatare a propozițiilor complexe non-uniune: la explicarea sau motivarea se poate folosi o liniuță în loc de două puncte: Separarea este iluzorie - vom fi împreună în curând 2) Cu izolare...

    Dicţionar de termeni lingvistici T.V. Mânz

„frecvența de utilizare” în cărți

Frecvența de hrănire

de Harmar Hillery

Frecvența de hrănire

de Harmar Hillery

Frecvența hrănirii Numărul necesar de hrăniri pe zi pentru un cățel depinde de mărimea rasei. Majoritatea cățeilor prosperă atunci când sunt hrăniți la fiecare trei ore zi și noapte, dar dacă s-au născut prematur sau au cântărit mai puțin de 85 g la naștere, este probabil să fie

Frecvența de hrănire

Din cartea Creșterea câinilor de Harmar Hillery

Frecvența hrănirii Numărul necesar de hrăniri pe zi pentru un cățel depinde de mărimea rasei. Majoritatea cățeilor prosperă atunci când sunt hrăniți la fiecare trei ore zi și noapte, dar dacă s-au născut prematur sau au cântărit mai puțin de 85 g la naștere, este probabil să fie

Frecvența de hrănire

Din cartea Câinii și creșterea lor [Creșterea câinilor] de Harmar Hillery

Frecvența hrănirii Numărul necesar de hrăniri pe zi pentru un cățel depinde de mărimea rasei. Majoritatea cățeilor prosperă atunci când sunt hrăniți la fiecare trei ore zi și noapte, dar dacă s-au născut prematur sau au cântărit mai puțin de 85 g la naștere, este probabil să fie

Frecvență

Din cartea Real Estate. Cum să-i faci publicitate autor Nazaikin Alexandru

14.2.3. Frecvența interacțiunii

de Dimitri Nicola

14.2.3. Frecvența interacțiunii Cu cât același grup de concurenți interacționează mai des, cu atât coluzia devine mai durabilă, deoarece încălcările sunt pedepsite mai prompt. Dacă, de exemplu, firmele concurează mai rar, capacitatea lor de a menține coluziunea este mai mică.

15.4.6. Frecvența licitațiilor

Din cartea Ghid de cumpărare de Dimitri Nicola

15.4.6. Frecvența licitațiilor După cum sa discutat mai sus, unele licitații pot transfera fonduri între ele după o licitație pentru care au colaborat sau pot ține evidența sumelor datorate doar ocazional.

8. Frecvența de utilizare a cuvintelor funcționale se dovedește a fi invariantă a autorului

Din cartea Cartea 2. Schimbăm datele - totul se schimbă. [Noua cronologie a Greciei și a Bibliei. Matematica dezvăluie înșelăciunea cronologilor medievali] autor Fomenko Anatoly Timofeevici

8. Frecvența de utilizare a cuvintelor funcționale se dovedește a fi invariantă a autorului.O excepție remarcabilă este parametrul nostru 3 - frecvența de utilizare a tuturor cuvintelor funcționale - PREPOZIȚII, CONJUNȚII ȘI PARTICULE. Este prezentată evoluția acestui parametru în funcție de creșterea dimensiunii eșantionului

Frecvență

Din cartea Marea Enciclopedie Sovietică (CA) a autorului TSB

Frecvență

autor Nazaikin Alexandru

Frecvență

Din cartea Media Planning for 100 autor Nazaikin Alexandru

Frecvență Canalele de televiziune sunt difuzate pe frecvențe contoare și decimetrice. Intervalele de măsurare au fost primele care au fost stăpânite la televizor. În anii 90 ai secolului XX, canalele decimetrice au început să funcționeze activ la Moscova. Anterior, frecvența era de o importanță semnificativă, deoarece pentru recepția diferitelor canale

Frecvență

Din cartea Media Planning for 100 autor Nazaikin Alexandru

Frecvența Frecvența transmisiei semnalului determină calitatea acestuia. Într-o măsură mai mare, este furnizat în benzile VHF (modulație de frecvență FM). Ascultătorii preferă sunetul bun, motiv pentru care stațiile VHF au audiențe semnificative și sunt preferate

3.2. Frecvență

autor Ivanov Dmitri Olegovich

3.2. Frecvența Când discutăm despre semnificația oricărei patologii în medicină, atunci, în opinia noastră, este important să vorbim nu numai despre etiologia, patogeneza, tabloul clinic și severitatea leziunilor și complicațiilor care au apărut sau pot apărea, ci și despre prevalența acestei patologii. LA

4.2. Frecvență

Din cartea Tulburări de echilibru termic la nou-născuți autor Ivanov Dmitri Olegovich

4.2. Frecvența Hipertermia la nou-născuți este probabil mult mai puțin frecventă decât hipotermia. Acest lucru se datorează probabil faptului că există extrem de puține studii despre hipertermia la sugari în literatura științifică. Maayan-Metzger A. şi colab. (2003) au analizat 42.313 rapoarte de caz

Frecvență

Din cartea Tulburări ale metabolismului glucozei la nou-născuți autor Ivanov Dmitri Olegovich

Frecvența Corblant M., care a definit hipoglicemia ca o concentrație de glucoză din sânge mai mică de 30 mg% (1,67 mmol/l) în primele 72 de ore de viață, a găsit-o la 4,4% din toți născuții vii. În 1971, Lubchenco L. O. și Bard N., folosind criteriile Corblant M., a identificat hipoglicemia la nou-născuții cu mai mare

Am scris un script PHP amuzant. Am trecut prin el toate textele de pe Spectator pentru a verifica limba. În total, în texte sunt folosite 39.110 de forme de cuvinte diferite. Câte diferite mai exact? cuvinte- destul de greu de determinat. Ca să mă apropii măcar cumva de această cifră, am luat doar primele 5 litere ale cuvântului și le-am comparat. Rezultatul a fost 14.373 de astfel de combinații. Ar fi o exagerare să numim asta vocabularul „Spectatorului”.

Apoi am luat cuvintele și le-am examinat pentru frecvența de repetare a literelor. În mod ideal, trebuie să luați un fel de dicționar, pentru a completa imaginea. Nu poți rula texte, ai nevoie doar de cuvinte unice. În text, unele cuvinte se repetă mai des decât altele. Astfel, s-au obținut următoarele rezultate:

o - 9,28%
a - 8,66%
e - 8,10%
și - 7,45%
n - 6,35%
t - 6,30%
p - 5,53%
s - 5,45%
l - 4,32%
în - 4,19%
k - 3,47%
n - 3,35%
m - 3,29%
y - 2,90%
d - 2,56%
I - 2,22%
s - 2,11%
b - 1,90%
z - 1,81%
b - 1,51%
g - 1,41%
a - 1,31%
h - 1,27%
yu - 1,03%
x - 0,92%
f - 0,78%
w - 0,77%
c - 0,52%
sch - 0,49%
f - 0,40%
e - 0,17%
ъ - 0,04%

Îi sfătuiesc pe cei care merg la „Câmpul Miracolelor” să memoreze acest tabel. Și numește cuvintele în această ordine. Deci, de exemplu, s-ar părea că o astfel de literă „familiară” „b” este folosită mai rar decât litera „rară” „s”. De asemenea, trebuie să ne amintim că un cuvânt are mai multe vocale. Și că, dacă ați ghicit o vocală, atunci trebuie să începeți să urmați consoanele. Și în plus, cuvântul este ghicit tocmai după consoanele sale. Comparați: „**a**i*e” și „sr*vn*t*”. În ambele cazuri, cuvântul este „compara”.

Și încă o considerație. Cum ai învățat engleză? Tine minte? E pix, e creion, e masă. Ceea ce văd este ceea ce cânt. Care este rostul?... Cât de des rostiți cuvântul „creion” în viața normală? Dacă sarcina este să predați cum să vorbiți cât mai rapid și eficient posibil, atunci trebuie să predați în consecință. Analizăm limba și scoatem în evidență cuvintele cele mai des folosite. Și începem să învățăm de la ei. Pentru a vorbi mai mult sau mai puțin engleza, sunt suficiente doar o mie și jumătate de cuvinte.

Un alt răsfăț: să formezi cuvinte din litere aleatoriu, dar ținând cont de frecvența de apariție, astfel încât să pară cuvinte normale. În primele zece cuvinte „aleatorie” din patru litere, a apărut „măgarul”. În următorii cincizeci - cuvintele „grabă” și „NATO”. Dar, din păcate, există o mulțime de combinații disonante, precum „bltt” sau „nrro”.

Prin urmare - următorul pas. Am împărțit toate cuvintele în combinații de două litere și am început să le combin aleatoriu (dar ținând cont de frecvența repetării). Oțelul în cantități mari va produce cuvinte similare cu „normal”. De exemplu: „koivdiot”, „voabma”, „apy”, „depoid”, „debyako”, „orfa”, „poesnavy”, „ozza”, „chenya”, „retoria”, „urdeed”, „utoichi” , „stikh”, „sapot”, „gravda”, „ababap”, „obarto”, „eleuet”, „lyarezy”, „myni”, „bromomer” și chiar „todebyst”.

Unde să aplici... există opțiuni. De exemplu, scrieți un generator de nume jucăușe de marcă frumoase. Pentru iaurturi. De exemplu, „memoriso” sau „utotororerto”. Sau - generatorul de poezii futuriste „Burliuk-php”: „opeldiy miaton, linoaz okmiaya... deesopen odesson”.

Și mai există o opțiune. Trebuie sa incerc...

Câteva statistici despre utilizarea cuvintelor rusești:

  • Lungimea medie a cuvântului este de 5,28 caractere.
  • Lungimea medie a propoziției este de 10,38 cuvinte.
  • Cele mai frecvente 1000 de leme acoperă 64,0708% din text.
  • Cele mai frecvente leme din 2000 acoperă 71,9521% din text.
  • Cele mai frecvente 3000 de leme acoperă 76,5104% din text.
  • Cele 5000 de leme cele mai frecvente acoperă 82,0604% din text.

După notă am primit această scrisoare:


Salut Dmitry!

După ce ați analizat articolul „Limba vă va aduce la Kiev” și partea în care vă descrieți programul, a apărut o idee.
Scenariul pe care l-ai scris mi se pare a fi destinat absolut nu pentru „Câmpul miracolelor” într-o măsură mai mare, ci pentru altceva.
Prima utilizare cea mai rezonabilă a rezultatelor scriptului dvs. este determinarea ordinii literelor atunci când programați butoanele pentru dispozitivele mobile. Da, da - este nevoie de toate acestea în telefoanele mobile.

L-am distribuit în valuri ()

Următoarea este distribuția pe butoane:
1. Toate literele din primul val merg la 4 butoane din primul rând
2. Toate literele din al doilea val sunt, de asemenea, pe celelalte 4 butoane din același prim rând
3. Toate literele din al treilea val merg la celelalte două butoane
4. 4.5 și 6 valuri merg pe al doilea rând
5. 7,8,9 valuri merg la al treilea rând, iar al 9-lea val merge complet (în ciuda numărului aparent mare de litere) la al treilea rând al butonului al 9-lea, astfel încât al 10-lea buton este lăsat pentru tot felul de semne de punctuație semne (punct, virgulă etc.).

Cred că totul este clar așa cum este, fără explicații detaliate. Dar totuși, ați putea procesa cu scenariul dvs. (inclusiv semnele de punctuație) următoarele texte:

Și apoi postezi statisticile? Mi s-a parut mie? că textele reflectă cât mai mult vorbirea noastră modernă și totuși atât vorbim, cât și scriem SMS-uri.

Vă mulțumesc foarte mult anticipat.

Deci, există două moduri de a analiza frecvența de repetare a literelor. Metoda 1. Luați un text, găsiți forme de cuvinte unice (nerepetate) în el și analizați-le. Metoda este bună pentru a construi statistici bazate pe cuvinte în limba rusă, și nu pe texte. Metoda 2. Nu căutați cuvinte unice în text, ci treceți direct la numărarea frecvenței de repetare a literelor. Obținem frecvența literelor în text rusesc, și nu în cuvinte rusești. Pentru a crea tastaturi și alte lucruri, trebuie să utilizați exact această metodă: textele sunt tastate pe tastatură.

Tastaturile ar trebui să țină cont nu numai de frecvența literelor, ci și de cele mai persistente cuvinte (forme de cuvinte). Nu este atât de greu de ghicit care cuvinte sunt cele mai des folosite: acestea sunt, în primul rând, oficial părți de vorbire, deoarece rolul lor este de a servi mereu și pretutindeni, și pronume, al căror rol nu este mai puțin important: de a înlocui orice lucru/persoană în vorbire (acest, el, ea). Ei bine, verbele principale (a fi, a spune). Pe baza rezultatelor analizei textelor enumerate mai sus, am primit următoarele cuvinte „populare”: „și, nu, în, că, el, eu, pe, cu, ea, cum, ci, lui, asta, să , a, tot, ea, a fost, așa, atunci, a spus, pentru, tu, o, la, el, eu, numai, pentru, mine, da, tu, din, a fost, când, din, pentru, încă, acum , ei, au spus, deja, el, nu, era, ea, să fie, bine, nici dacă, foarte, nimic, aici, ea însăși, astfel încât, pentru ea, aceasta, poate, că, înainte, noi, ei, dacă, au fost, este, decât, sau, ea” și așa mai departe.

Revenind la tastaturi, este evident că în tastatură combinațiile de litere „nu”, „ce”, „el”, „pe” și altele ar trebui să fie cât mai aproape una de cealaltă, sau dacă nu aproape, atunci în unele optime. cale. Este necesar să se efectueze cercetări asupra modului exact în care degetele se mișcă pe tastatură, să găsiți cele mai „confortabile” poziții și să plasați în ele cele mai frecvent utilizate litere, fără a uita, totuși, de combinațiile de litere.

Problema, ca întotdeauna, este una: chiar dacă este posibil să se creeze o tastatură unică, ce se va întâmpla cu milioanele de oameni care sunt deja obișnuiți cu qwerty/ytsuken?

Cât despre dispozitivele mobile... Probabil că are sens. Cel puțin, literele „o”, „a”, „e” și „i” trebuie să fie exact pe aceeași cheie. Semnele de punctuație în ordinea frecvenței de utilizare: , . - ? ! " ; :) (

- — Subiecte protecția informațiilor EN frecvența de utilizare a cuvintelor … Ghidul tehnic al traducătorului

Y; frecvențe; și. 1. la Frecvent (1 cifră). Monitorizați frecvența de repetare a mișcărilor. Parte necesară pentru plantarea cartofilor. Fii atent la pulsul tau. 2. Numărul de repetări ale mișcărilor identice, oscilații în ce direcție. unitate de timp. Ore de rotație a roților. H... Dicţionar enciclopedic

I Alcoolismul este o boală cronică caracterizată printr-o combinație de tulburări mentale și somatice rezultate din abuzul sistematic de alcool. Cele mai importante manifestări ale lui A. x. sunt modificate rezistența la... ... Enciclopedie medicală

CAPTURĂ- unul dintre termenii specifici utilizați în înregistrările de cârlig rusești. polifonie neliniară, caracterizată printr-o structură polifonică subvocală dezvoltată și o disonanță ascuțită a verticalei. Cântând implementarea termenului în zilele noastre. timpul nu a fost studiat... Enciclopedia Ortodoxă

Metoda stilostatistică de analiză a textului- este utilizarea instrumentelor de statistică matematică în domeniul stilisticii pentru a determina tipurile de funcționare a limbajului în vorbire, modele de funcționare a limbajului în diferite sfere de comunicare, tipuri de texte, funcționalități specifice. stiluri si...

Snus cu aromă porționat, mini porție Snus este un tip de produs din tutun. Este tutun umezit zdrobit, care este plasat între buza superioară (mai rar inferioară) și gingie... Wikipedia

Stilul științific- prezintă științifice. sfera activității de comunicare și vorbire legată de implementarea științei ca formă de conștiință socială; reflectă gândirea teoretică, apărând într-o formă logică conceptuală, care se caracterizează prin obiectivitate și abstractizare... Dicționar enciclopedic stilistic al limbii ruse

- (în literatura de specialitate și patronimică) parte a numelui de familie, care este atribuită copilului prin numele tatălui. Variațiile numelor patronimice își pot lega purtătorii cu strămoși mai îndepărtați, bunici, străbunici... ... Wikipedia

Utilizare comună, aplicabilitate, prevalență, aplicabilitate, comercializare, general acceptat Dicționar de sinonime ruse. substantiv de utilizare, număr de sinonime: 10 general acceptat (11) ... Dicţionar de sinonime

Raţionament- - tipul de vorbire din punct de vedere funcțional semantic (vezi) - (FSTR), corespunzător formei de gândire abstractă - inferență, îndeplinirea unei sarcini comunicative speciale - să confere discursului un caracter argumentat (pentru a ajunge logic la o nouă judecată sau... ... Dicționar enciclopedic stilistic al limbii ruse

Aș dori să vă avertizez că informațiile prezentate în acest articol sunt oarecum depășite. Nu l-am rescris pentru ca mai târziu să pot compara modul în care standardele SEO se schimbă în timp. Puteți găsi informații actualizate despre acest subiect în materiale noi:

Bună ziua, dragi cititori ai blogului. Articolul de astăzi va fi din nou dedicat unui astfel de subiect precum optimizarea site-urilor web pentru motoarele de căutare (). Anterior, am atins deja multe probleme legate de un astfel de concept ca.

Astăzi vreau să continui conversația despre SEO intern, clarificând în același timp câteva puncte ridicate mai devreme, precum și să vorbesc despre ceea ce nu am discutat încă. Dacă sunteți capabil să scrieți texte bune, unice, dar nu acordați suficientă atenție modului în care sunt percepute de motoarele de căutare, atunci aceștia nu vor putea să se îndrepte spre partea de sus a rezultatelor căutării pentru interogări legate de subiectul minunatului dvs. articole.

Ce afectează relevanța textului pentru o interogare de căutare?

Și acest lucru este foarte trist, pentru că în acest fel nu vei realiza întregul potențial al proiectului tău, care se poate dovedi a fi foarte impresionant. Trebuie să înțelegeți că motoarele de căutare, în cea mai mare parte, sunt programe stupide și simple, care nu sunt capabile să depășească capacitățile lor și să vă privească proiectul cu ochi umani.

Ei nu vor vedea mare lucru din tot ceea ce este bun și necesar în proiectul tău (pe care l-ai pregătit pentru vizitatori). Ei știu doar să analizeze un text, ținând cont de multe componente, dar sunt încă foarte departe de percepția umană.

Prin urmare, va trebui să ne urcăm cel puțin temporar în pielea roboților de căutare și să înțelegem pe ce își concentrează atenția atunci când clasificăm diverse texte pentru diferite interogări de căutare (). Și pentru aceasta trebuie să aveți o idee despre, pentru aceasta va trebui să citiți articolul furnizat.

De obicei, ei încearcă să folosească cuvinte cheie în titlul paginii, în unele titluri interne și, de asemenea, le distribuie uniform și cât mai natural pe parcursul articolului. Da, desigur, se poate folosi și evidențierea tastelor în text, dar nu trebuie să uitați de supraoptimizare, care poate rezulta.

Densitatea tastelor din text este, de asemenea, importantă, dar acum acesta nu este mai degrabă un factor de dorit, ci, dimpotrivă, un avertisment - nu ar trebui să exagerați.

Determinarea densității de apariție a unui cuvânt cheie într-un document este destul de simplă. De fapt, aceasta este frecvența utilizării sale în text, care este determinată prin împărțirea numărului de apariții ale acestuia în document la lungimea documentului în cuvinte. Anterior, poziția site-ului în rezultatele căutării depindea direct de asta.

Dar probabil ați înțeles că nu va fi posibil să compilați tot materialul doar din chei, deoarece va fi ilizibil și, slavă Domnului, acest lucru nu este necesar. De ce intrebi? Da, pentru că există o limită a frecvenței de utilizare a unui cuvânt cheie în text, după care relevanța unui document pentru o interogare care conține acest cuvânt cheie nu va mai crește.

Acestea. Ne va fi suficient să atingem o anumită frecvență și astfel o vom optimiza pe cât posibil. Sau vom exagera și vom cădea sub filtru.

Rămâne de rezolvat două întrebări (și poate trei): care este această densitate maximă de apariție a cuvintelor cheie, după care este deja periculos să o creșteți și, de asemenea, să aflați.

Faptul este că cuvintele cheie evidențiate cu etichete de accent și incluse într-o etichetă TITLE au mai multă greutate de căutare decât cuvintele cheie similare care apar pur și simplu în text. Dar recent, webmasterii au început să folosească acest lucru și au spamizat complet acest factor, motiv pentru care importanța sa a scăzut și poate duce chiar la interzicerea întregului site din cauza abuzului de puncte forte.

Dar cheile din TITLE sunt încă relevante, este mai bine să nu le repetați acolo și să nu încercați să înghesuiți prea multe într-un titlu de pagină. Dacă cuvintele cheie sunt în TITLUL, atunci putem reduce semnificativ numărul lor în articol (și, prin urmare, îl facem ușor de citit și mai potrivit pentru oameni, nu pentru motoarele de căutare), obținând aceeași relevanță, dar fără riscul de a cădea sub filtrul.

Cred că totul este clar cu această întrebare - cu cât sunt mai multe chei închise în etichete de accent și TITLE, cu atât este mai mare șansa de a pierde totul dintr-o dată. Dar dacă nu le folosești deloc, atunci nici nu vei obține nimic. Cel mai important criteriu este naturalețea introducerii cuvintelor cheie în text. Dacă există, dar cititorul nu se împiedică de ele, atunci totul este grozav.

Acum rămâne să ne dăm seama ce frecvență de utilizare a unui cuvânt cheie într-un document este optimă, ceea ce vă permite să faceți pagina cât mai relevantă și nu va implica sancțiuni. Să ne amintim mai întâi formula pe care majoritatea (probabil chiar toate) motoarele de căutare o folosesc pentru clasare.

Cum să determinați frecvența permisă de utilizare a unei chei

Despre modelul matematic am vorbit deja în articolul menționat mai sus. Esența sa pentru această interogare de căutare particulară este exprimată printr-o formulă simplificată: TF*IDF. Unde TF este frecvența directă de apariție a acestei interogări în textul documentului (frecvența cu care apar cuvintele în acesta).

IDF este frecvența inversă de apariție (raritate) a unei anumite interogări în toate celelalte documente de pe Internet indexate de un anumit motor de căutare (în colecție).

Această formulă vă permite să determinați corespondența (relevanța) unui document cu o interogare de căutare. Cu cât valoarea produsului TF*IDF este mai mare, cu atât documentul va fi mai relevant și va fi clasat mai sus, toate celelalte fiind egale.

Acestea. se dovedește că ponderea documentului pentru o anumită interogare (conformitatea acesteia) va fi mai mare, cu cât cheile din această interogare sunt folosite mai des în text și cu atât mai rar aceste chei se găsesc în alte documente de pe Internet.

Este clar că nu putem influența IDF-ul decât prin alegerea unei alte cereri pentru care ne vom optimiza. Dar putem și vom influența TF, pentru că vrem să luăm partea noastră (și nu una mică) de trafic din rezultatele căutării Yandex și Google cu privire la întrebările utilizatorilor de care avem nevoie.

Dar adevărul este că algoritmii de căutare calculează valoarea TF folosind o formulă destul de vicleană, care ia în considerare creșterea frecvenței de utilizare a cuvintelor cheie în text doar până la o anumită limită, după care creșterea TF practic se oprește, în ciuda faptul că măreşti frecvenţa. Acesta este un fel de filtru antispam.

Cu relativ mult timp în urmă (până în aproximativ 2005), valoarea TF a fost calculată folosind o formulă destul de simplă și a fost de fapt egală cu densitatea de apariție a cuvântului cheie. Rezultatele calculării relevanței utilizând această formulă nu au fost pe deplin apreciate de motoarele de căutare, deoarece s-au răspândit la spammeri.

Apoi formula TF a devenit mai complicată, a apărut un astfel de concept precum greața de pagină și a început să depindă nu numai de frecvența de apariție, ci și de frecvența de utilizare a altor cuvinte în același text. Și valoarea optimă TF ar putea fi atinsă dacă cheia s-ar dovedi a fi cuvântul cel mai des folosit.

De asemenea, a fost posibilă creșterea valorii TF prin creșterea dimensiunii textului, menținând în același timp procentul de apariție. Cu cât este mai mare prosopul cu articolul cu același procent de chei, cu atât documentul se va clasa mai sus.

Acum formula TF a devenit și mai complicată, dar, în același timp, acum nu este nevoie să aducem densitatea la valoarea când textul devine ilizibil și motoarele de căutare vor impune interziceți proiectul nostru pentru spam. Și nici acum nu este nevoie să scrieți foi disproporționat de lungi.

Menținând aceeași densitate ideală (o vom determina chiar mai jos din graficul corespunzător), mărirea dimensiunii articolului în cuvinte va îmbunătăți poziția acestuia în rezultatele căutării doar până la o anumită lungime. Odată ce ai lungimea ideală, creșterea în continuare a acesteia nu va afecta relevanța (mai precis, o va face, dar foarte, foarte puțin).

Toate acestea pot fi văzute clar dacă construiți un grafic bazat pe acest TF complicat (frecvența de apariție directă). Dacă pe o scară a acestui grafic există TF, iar pe cealaltă scară există un raport procentual al frecvenței de apariție a unui cuvânt cheie în text, atunci vom obține așa-numita hiperbolă ca rezultat:

Graficul, desigur, este aproximativ, deoarece puțini oameni cunosc formula reală TF pe care o folosesc Yandex sau Google. Dar calitativ poate fi determinat interval optim, în care ar trebui să fie localizată frecvența. Aceasta reprezintă aproximativ 2-3% din numărul total de cuvinte.

Dacă considerați că veți include și unele dintre chei în etichetele de accent și titlul TITLE, atunci aceasta va fi limita după care o creștere suplimentară a densității poate fi plină de interdicție. Nu mai este profitabil să saturați și să desfigurați textul cu un număr mare de cuvinte cheie, pentru că vor exista mai multe minusuri decât plusuri.

Ce lungime de text va fi suficientă pentru promovare?

Pe baza aceluiași TF presupus, se poate reprezenta în cuvinte valoarea lui în funcție de lungime. În acest caz, puteți lua frecvența cuvintelor cheie constantă pentru orice lungime și egală, de exemplu, cu orice valoare din intervalul optim (de la 2 la 3 la sută).

Ceea ce este de remarcat este că vom primi un grafic de exact aceeași formă cu cel discutat mai sus, doar lungimea textului în mii de cuvinte va fi ajustată de-a lungul axei x. Și din aceasta se va putea trage o concluzie despre interval de lungime optim, la care valoarea TF aproape maximă este deja atinsă.

Ca rezultat, se dovedește că va fi în intervalul de la 1000 la 2000 de cuvinte. Cu o creștere suplimentară, relevanța practic nu va crește, iar cu o lungime mai scurtă va scădea destul de brusc.

Acea. Putem concluziona că, pentru ca articolele dvs. să se claseze înalt în rezultatele căutării, trebuie să utilizați cuvinte cheie în text cu o frecvență de cel puțin 2-3%. Aceasta este prima și principala concluzie pe care am făcut-o. Ei bine, al doilea lucru este că acum nu este deloc necesar să scrieți articole foarte voluminoase pentru a ajunge în Top.

Va fi suficient să depășești pragul de 1000 - 2000 de cuvinte și să includă 2-3% din cuvintele cheie în el. Asta e tot - asta este reteta pentru textul perfect, care va putea concura pentru un loc în top pentru interogările de joasă frecvență, chiar și fără a utiliza optimizarea externă (achiziționând linkuri către acest articol cu ​​ancore care includ chei). Deși, scotocește puțin Miralinkse , GGL, Rotapost sau GetGoodLink, puteți, pentru că vă va ajuta proiectul.

Permiteți-mi să vă reamintesc încă o dată că puteți afla lungimea textului pe care l-ați scris, precum și frecvența utilizării anumitor cuvinte cheie în acesta, folosind programe specializate sau folosind servicii online specializate în analiza acestora. Unul dintre aceste servicii este ISTIO, despre lucrul cu cine am vorbit.

Tot ce am spus mai sus nu este sută la sută de încredere, ci foarte asemănător cu adevărul. În orice caz, experiența mea personală confirmă această teorie. Dar algoritmii Yandex și Google suferă în mod constant schimbări și puțini oameni știu cum va fi mâine, cu excepția celor care sunt aproape de dezvoltarea sau dezvoltatorii lor.

Multă baftă! Ne vedem curând pe paginile site-ului blogului

S-ar putea să fiți interesat

Optimizare internă - selecția cuvintelor cheie, verificarea greață, Titlul optim, duplicarea conținutului și legarea sub LF
Cuvinte cheie în text și titluri
Cum afectează cuvintele cheie promovarea site-ului web în motoarele de căutare
Servicii online pentru webmasteri - tot ce ai nevoie pentru a scrie articole, optimizare pentru motoarele de căutare și analiza succesului acestuia
Metode de optimizare a conținutului și luarea în considerare a tematicii site-ului în timpul promovării link-urilor pentru a minimiza costurile
Yandex Wordstat și nucleul semantic - selecție de cuvinte cheie pentru un site web folosind statistici de la serviciul online Wordstat.Yandex.ru
Anchor - ce este și cât de importante sunt acestea în promovarea site-ului?
Ce factori de optimizare pentru motoarele de căutare afectează promovarea site-ului web și în ce măsură?
Promovarea, promovarea și optimizarea site-ului dumneavoastră
Ținând cont de morfologia limbii și de alte probleme rezolvate de motoarele de căutare, precum și de diferența dintre interogările de înaltă frecvență, de medie și de joasă frecvență
Încrederea în site - ce este, cum să o măsurați în XTools, ce o influențează și cum să creșteți autoritatea site-ului dvs.

Dicționarul include cele mai comune cuvinte ale limbii ruse moderne (a doua jumătate a secolului al XX-lea – începutul secolului al XXI-lea), dotate cu informații despre frecvența de utilizare, distribuția statistică în funcție de text și gen și de momentul creării textelor. . Dicționarul se bazează pe textele Corpusului Național al Limbii Ruse cu un volum de 100 de milioane de cuvinte. Mai multe informații despre istoria dicționarelor de frecvență ale limbii ruse și metodele de creare a dicționarului „Noul dicționar de frecvență al vocabularului rus” pot fi citite.

Conceptul dicționarului a fost dezvoltat și pregătit pentru publicare de O.N. Lyashevskaya și S.A. Sharov, versiunea electronică a fost pregătită de A.V. Sannikov. Autorii își exprimă recunoștința față de V. A. Plungyan, A. Ya. Shaikevich, E. A. Grishina, B. P. Kobritsov, E. V. Rakhilina, S. O. Savchuk, D. V. Sichinava și altor participanți ai seminarului CNRY, care au luat parte la discuția despre principiile creării dicționarului . Mulțumim O. Uryupina, D. și G. Bronnikovs, B. Kobritsov, precum și angajaților Yandex LLC A. Abroskin, N. Grigoriev, A. Sokirko pentru asistența acordată în diferitele etape de colectare și prelucrare computerizată a materialului.

Cum să găsești un cuvânt în dicționar?

Cele două secțiuni principale ale dicționarului sunt o listă de cuvinte, ordonate alfabetic și după frecvența generală de utilizare în corpus. Toate cuvintele sunt date în forma lor originală (inițială): pentru nume aceasta este forma de caz nominativ (pentru substantive, de regulă, forma la singular, pentru adjective - forma completă masculină), pentru verbe - forma infinitivă.

Lista alfabetică conține 60 de mii dintre cele mai frecvente forme de cuvinte. Pentru a găsi informații despre cuvântul dorit, accesați secțiunea, selectați prima literă a cuvântului și găsiți cuvântul pe care îl căutați în tabel. Pentru a găsi rapid un cuvânt, puteți utiliza și caseta de căutare, de exemplu:

Cuvânt: Grozav

În acest fel, puteți găsi informații nu numai despre un anumit cuvânt, ci și despre un grup de cuvinte care încep sau se termină în același mod. Pentru a face acest lucru, în fereastra de căutare, utilizați un asterisc (*) după succesiunea de litere tastate („toate cuvintele care încep cu...”) sau înaintea șirului de litere („toate cuvintele care se termină cu...”. Pentru exemplu, dacă doriți să găsiți toate cuvintele care încep cu re-, introduceți în caseta de căutare:

Cuvânt: re*

Dacă doriți să găsiți toate cuvintele care se termină cu - doar putin, introduceți în caseta de căutare:

Cuvânt: *Nu

În lista de frecvență a lemelor, cuvintele sunt ordonate după frecvența generală de utilizare în corpus limbii literare ruse moderne. Lista de frecvențe include 20.000 dintre cele mai frecvent utilizate leme.

Pentru a găsi informații despre cuvântul dorit, accesați secțiunea și găsiți cuvântul dorit în tabel. Pentru a căuta informații despre cuvinte individuale, cel mai bine este să utilizați fereastra de căutare rapidă a cuvintelor.

De ce nu pot găsi un cuvânt în dicționar, chiar dacă îl pot găsi în corpus?

Acest lucru se poate datora mai multor motive. În primul rând, cuvântul poate avea o frecvență scăzută (de exemplu, doar 3 apariții în corpus) sau poate fi folosit doar în textele scrise înainte de 1950. În al doilea rând, un cuvânt poate apărea de multe ori, dar în unul sau două texte: astfel de leme au fost excluse în mod deliberat din dicționar. În al treilea rând, nu putem exclude că a existat o eroare în determinarea automată a formei originale sau a caracteristicilor de vorbire parțială ale cuvântului sau că cuvântul a fost atribuit în mod eronat ca nume propriu. Site-ul prezintă o versiune „de test” a dicționarului de frecvență și vom continua să lucrăm pentru a clarifica compoziția lexicală a acestuia.

Ce informații puteți obține despre utilizarea unui cuvânt?

În dicționar puteți obține următoarele informații despre utilizarea unui cuvânt în corpus:

  • numărul total de utilizări ale lemei (frecvența totală în unități ipm), vezi secțiuni, dicționare de frecvență de ficțiune și alte stiluri funcționale; dicționare de frecvență de substantive, verbe și alte părți de vorbire
  • rangul de frecvență al cuvântului (adică numărul de serie din lista generală de frecvență), vezi secțiuni, dicționare de frecvență ale substantivelor, verbelor și altor părți de vorbire.
  • numărul de texte în care a apărut cuvântul (număr de documente), vezi secțiunea;
  • coeficient de variație D, vezi secțiunile și dicționarele de frecvență ale substantivelor, verbelor și altor părți de vorbire
  • distribuția utilizării cuvintelor în textele create în diferite decenii (anii 1950, 1960 etc.), vezi secțiunea;
  • frecvența generală de utilizare a formelor de cuvinte individuale, a se vedea secțiunea Lista alfabetică a formelor de cuvinte.

    În dicționarele de vocabular semnificativ, puteți obține și informații despre frecvența comparativă a unui cuvânt în corpus general și în subcorpusul textelor unui anumit stil funcțional (ficțiune, jurnalism etc.) și indicatorul de probabilitate a scorului LL.

    Pe lângă indicatorii cantitativi, partea de vorbire este indicată pentru cuvânt. Acest lucru se face pentru a separa cuvintele din diferite părți de vorbire care au aceeași formă originală (cf. coace - substantiv și verb).

    Ce este ipm?

    Frecvența generală caracterizează numărul de apariții per milion de cuvinte din corpus sau ipm (instanțe per milion de cuvinte). Aceasta este o unitate de măsură a frecvenței general acceptată în practica mondială, care simplifică compararea frecvenței cuvintelor în diferite dicționare de frecvență și în diferite corpuri. Cert este că eșantioanele de texte pe care se măsoară frecvența pot diferi destul de mult ca dimensiune. De exemplu, dacă cuvântul putere apare de 55 de ori într-un corpus de 400 de mii de cuvinte, de 364 de ori într-un corpus de milioane și de 40598 de ori într-un corpus de 100 de milioane de cuvinte din limba rusă modernă și de 55673 de ori într-un corpus mare de 135 milioane NKRY, apoi frecvența sa în ipm vor fi 137,5, 364,0, 372,06 și, respectiv, 412,39.

    Dicționare de frecvență, ed. L.N. Zasorina și L. Lenngren au fost construite pe un eșantion de un milion de întrebuințări de cuvinte, respectiv, putem presupune că indicatorii absoluti care apar acolo sunt dați și în ipm.

    Care este coeficientul de variație D?

    Coeficientul D, introdus de A. Juilland (Juilland et al. 1970), este folosit în multe dicționare de frecvență (dicționar rus de L. Lenngren, dicționar al British National Corpus, dicționar de vocabular francez în domeniul afacerilor). Acest coeficient vă permite să vedeți cât de uniform este distribuit cuvântul în diferite texte.

    Valoarea coeficientului este determinată în intervalul de la 0 la 100. De exemplu, cuvântul Și se găsește în aproape toate textele corpusului, iar valoarea sa D este aproape de 100. Cuvântul comisurotomie apare de 5 ori în corpus, dar numai într-un text; are o valoare D de aproximativ 0.

    Specificarea coeficientului D pentru fiecare cuvânt face posibilă evaluarea cât de specific este acesta pentru anumite domenii. De exemplu, cuvintele supracoaptăȘi implant au aproximativ aceeași frecvență (0,56 ipm), dar în același timp coeficientul D supracoaptă egală 90, a la implant - 0. Aceasta înseamnă că primul cuvânt apare uniform în texte de direcții diferite și este semnificativ pentru un număr mare de domenii, în timp ce cuvântul implant prezent doar în câteva texte pe tema „medicină și sănătate”.

    Ce poți învăța despre istoria utilizării cuvântului în diferite perioade?

    Informații despre distribuția frecvenței cuvintelor în diferite decenii ale celei de-a doua jumătate a secolului al XX-lea și la începutul secolului al XXI-lea pot fi obținute în. De exemplu, puteți vedea cum s-a dezvoltat soarta cuvântului perestroika:

    Creșterea bruscă a utilizării sale în anii 1980 este destul de explicabilă prin realitățile socio-istorice ale vremii; totodată, din punct de vedere lingvistic, acest fapt poate fi interpretat astfel: cuvântul perestroikaîmbogățit cu un nou sens, care a devenit dominant în anii următori.

    De ce numele proprii și abrevierile sunt incluse într-o listă separată?

    Substantivele proprii sunt separate de partea principală a dicționarului, deoarece formează un grup mult mai puțin stabil din punct de vedere statistic, iar frecvența lor depinde în mare măsură de alegerea textelor din corpus și de tema lor (în special, de locul și timpul evenimentele descrise). Lenngren 1993 a exprimat opinia că includerea numelor proprii în dicționarul de frecvență pe o bază generală duce inevitabil la învechirea sa prematură.

    Dicționarul include partea nucleară a acestei liste, numărând cele 3.000 de unități cele mai frecvente. Pentru a căuta date despre utilizarea prenumelor, patronimicelor, numelor de familie, poreclelor, poreclelor, toponimelor, numelor organizațiilor și abrevierilor, accesați secțiunea Lista alfabetică a numelor proprii și abrevierilor, selectați litera cu care este vorba despre cuvântul pe care îl căutați. pentru începe și găsiți-l în tabel. De asemenea, puteți utiliza fereastra de căutare rapidă a cuvintelor.

    Cum pot obține informații despre utilizarea formelor individuale ale unui cuvânt?

    Pe lângă informațiile despre utilizarea unei leme (adică un cuvânt în toate formele de inflexiune), în dicționar puteți afla cum sunt folosite formele individuale ale cuvintelor. Accesați secțiunea Lista alfabetică a formelor de cuvinte, selectați litera cu care începe forma cuvântului și găsiți-o în tabel. De asemenea, puteți utiliza fereastra de căutare rapidă, de exemplu:

    Forma cuvantului: a zbura

    Pentru a găsi toate formele de cuvinte care încep (sau se termină) cu o anumită secvență de litere, utilizați semnul asterisc (*) din caseta de căutare. De exemplu, toate formele de cuvinte care încep cu eutanasie-, poate fi găsit tastând:

    Forma cuvantului: dormi*

    Toate formele de cuvinte care se termină în ¬ -IC, poate fi găsit tastând:

    Forma cuvantului: *sughiţ

    Lista alfabetică a formelor de cuvinte include toate formele de cuvinte ale corpusului cu o frecvență de peste 0,1 ipm (aproximativ 15 mii în total) și conține informații despre frecvența lor generală. Formele de cuvinte omonime sunt marcate în tabel cu *.

    Cum să găsești informații despre „cele mai comune” cuvinte?

    Folosind dicționarul nostru, puteți găsi informații despre clase de cuvinte care diferă în caracteristicile statistice generale. Acestea sunt, în special:

  • cele mai frecvente cuvinte din eșantionul general din corpus; cuvinte cu frecvență medie pentru eșantionul general etc. (vezi secțiunea);
  • cuvintele cel mai frecvent întâlnite în subcorpusul de ficțiune (vezi secțiunea Dicționar de ficțiune de frecvență);
  • cuvintele întâlnite cel mai frecvent în subcorpusul jurnalismului (vezi secțiunea Dicționar de frecvență al jurnalismului);
  • cuvinte care apar cel mai frecvent în subcorpusul altor non-ficțiune (vezi Dicționarul de frecvență al altor non-ficțiune);
  • cuvintele care sunt cele mai caracteristice vorbirii orale (vezi secțiunea Dicționarul de frecvență al vorbirii orale vii).
  • substantivele cele mai frecvente (vezi secțiunea Lista de frecvență a substantivelor);
  • cele mai frecvente verbe (vezi secțiunea Lista de frecvență a verbelor);

    și alte liste de frecvențe ale orelor parțiale de vorbire.

    În plus față de clasele propuse, puteți explora în mod independent alte grupuri de cuvinte folosind tabelul „Lista alfabetică generală” din secțiunea Lista alfabetică a formelor de cuvinte (de exemplu, puteți explora cele mai frecvente verbe cu prefixul re-, cuvinte găsite în peste 200 de texte și multe altele: principiile grupării claselor depind de sarcinile tale și de imaginația ta).

    Cum să urmăriți distribuția frecvenței în texte de diferite stiluri funcționale?

    Dicționarul de frecvență al lui L.N. Zasorina oferă date despre utilizarea cuvintelor în patru tipuri de texte: (I) texte de ziare și reviste, (II) dramă, (III) texte științifice și jurnalistice, (IV) proză artistică. În dicționarul nostru puteți obține informații similare folosind secțiunea „Distribuția lemelor după stiluri funcționale”.

    Dicționarele de frecvență ale stilurilor funcționale sunt compilate pe baza subcorpurilor de ficțiune, jurnalism, altă literatură non-ficțiune și vorbire orală în direct. În comparație cu dicționarul lui L.N.Zasorinei, compoziția titlurilor a fost ușor modificată: în loc de dramaturgie, se folosesc înregistrări ale discursului oral live și transcrieri ale coloanelor sonore ale filmului, literatura științifică este alocată într-o secțiune separată, împreună cu afacerile oficiale, biserica și altă literatură non-ficțiune.

    Lista include cele 5.000 de leme cele mai frecvente ale acestor subcorpi. Pentru fiecare lemă sunt indicate partea de vorbire, frecvența din subcorpus și coeficientul D.

    Ce este un dicționar de vocabular semnificativ (ficțiune, etc.)?

    Există cuvinte care sunt folosite mult mai des într-unul dintre stilurile funcționale decât în ​​altele. De exemplu, pentru vorbirea orală în direct, astfel de cuvinte sunt aici, in generalȘi BINE.Într-adevăr, este greu de imaginat că în literatura științifică și tehnică aceste cuvinte sunt folosite la fel de des ca în limbajul de zi cu zi.

    O listă a celor mai tipice leme pentru fiecare tip funcțional de text a fost identificată pe baza unei comparații a frecvenței lemelor dintr-un anumit subcorpus de texte și din restul corpusului. Dicționarele de vocabular semnificativ includ 500 de leme.

    Ce înseamnă indicatorii frq1, frq2 și LL-score în dicționarul de vocabular semnificativ?

    Frq1 este frecvența globală a lemei în întregul corpus (în unități ipm), frq2 este frecvența lemei într-un sub-corpus dat (sub-corpusul de ficțiune, jurnalism, alte non-ficțiune și limba vorbită în direct, respectiv), scorul LL este raportul de probabilitate calculat pe baza frq1 și frq2 conform formulei propuse de P. Rayson și A. Garside (a se vedea mai multe despre aceasta în Introducerea în dicționar). Cu cât scorul LL este mai mare, cu atât cuvântul este mai semnificativ pentru un anumit stil funcțional.

    Cum să obțineți o listă cu cele mai frecvente 100 de verbe?

    În secțiunea „Vocabular general: părți de vorbire”, lista de frecvențe a lemelor este împărțită în șapte subliste: substantive, verbe, adjective, adverbe și predicate, pronume, numerale și părți auxiliare de vorbire. Aici, pentru fiecare lemă, sunt indicate frecvența sa globală și rangul (numărul ordinal) din lista generală. Fiecare listă conține 1.000 dintre cele mai frecvente leme.

    Astfel, puteți obține o listă cu cele mai frecvente 100 de verbe mergând la subsecțiunea Lista de verbe cu frecvență și selectând primele 100 de verbe din partea de sus a listei. În mod similar, puteți afla care adjectiv este cel mai frecvent (după cum se precizează în secțiunea Lista de frecvență a adjectivelor, acest adjectiv nou) și aflați multe alte fapte interesante cu privire la alcătuirea orelor de vorbire parțială.

    Cum se folosesc tabelele auxiliare?

    Tabelele auxiliare includ, în primul rând, date privind frecvența subclaselor de vorbire, precum și alte categorii gramaticale. Aceste date au fost obținute pe baza subcorpusului NKRY cu ambiguitatea lexicală și gramaticală eliminată (manual) (dimensiunea a mai mult de 6 milioane de utilizări de cuvinte). Deoarece statisticile acoperă clase mari de cuvinte, există motive să credem că proporția părților de vorbire și a altor categorii gramaticale va fi aceeași pe tot corpus.

    În al doilea rând, această secțiune oferă informații despre acoperirea textului prin lexeme, lungimea medie a unui cuvânt, forma cuvântului și propoziție.

    În al treilea rând, aici sunt liste de frecvență de utilizări ale literelor alfabetului rus, semne de punctuație, precum și combinații de două litere și mai multe litere.