Unua provo reprodukte kalkuli la rezultojn de la modelo de Svend Vendelbo Nielsen pri la nombro de Esperanto-parolantoj

Akualigo (2017-09-26): Mi aldonis "Kromajho"-n antau la "Aneksajho"-n.
Akualigo (2017-04-19): Mi aldonis "Aneksajho"-n. Ghi prezentas la enir-datumojn uzitajn kaj R-programon faritan de Svend Vendelbo Nielsen.
Aktualigo (2017-03-05): Mi aldonis la chapitron "Provizora resumo (2017–03–05)" (malsupre).
Aktualigo (2017-03-02): Mi aldonis la chapitron "La pli-malpli reprodukta kalkulado" (malsupre).
Aktualigo (2017-02-27): La reprodukta kalkulado sukcesis kaj jam estas farita por kvin landoj. Detaloj: Chapitro "La modifo" (malsupre).

Enkonduko

Svend Vendelbo Nielsen prezentas modelon, por kalkuli la nombron de Esperanto-parolantoj en chiuj landoj. Celo de tiu chi artikolo estas tio, reprodukte kalkuli la rezultojn de tiu “SVN-modelo” per helpo de Guglo-tabelo, kiun mi faris kaj kiun chiu povas redakti. Bedaurinde mi ankorau ne sukcesis atingi la celon. Tial mi invitas chiujn kontribui al la atingado je ghi. Se vi volas kontribui, bonvole nepre studu la SVN-artikolon, antau ol legi plu chi tie. Ghi estas temo ankau en libera folio.

La Guglo-tabelo

Figurajhoj 1 kaj 2 montras partojn de la Guglo-tabelo.

Figurajho 1: La Guglo-tabelo; parto 1

Kelkaj klarigoj pri figurajho 1:

Escepte de la kolumnoj C kaj K la enhavo de la cheloj estas memklariga, se oni estas studinta la SVN-artikolon. Tiuj esceptoj ankau ne estas klaraj al mi; mi konjektas, ke ili ne estas bezonataj, por la kalkulado(?).

Figurajho 2: La Guglo-tabelo; parto 2

Pri figurajho 2 bonvole unue enfokusigu la chelojn L12:T12 (por orientigho pri la linioj: En T12 aperas “-134.90”):

En N12 (“-23.98”) estas — por Litovujo (LTU) — la valoro de “LN(b_UEA)”. Ghi kalkulighas jene (kaj la aliaj LN(b_)-valoroj kalkulighas analoge):

LN(b_UEA) = ln(b_[x_LTU_1, kappa_1, p_LTU*alpha_1*N_LTU])
Kun:
ln: logaritmo je la bazo e
b_: negativa binomiala distribufunkcio
x_LTU_1: nombro de UEA-membroj en LTU; chelo E12
kappa_1: parametro dependa je nur la asocio; chelo N7
alpha_1: nombro de UEA-membroj en LTU dividite per la nombro de chiuj UEA-membroj; chelo N8
N_LTU: nombro de loghantoj en LTU; chelo D12
p_LTU: relativa denso de Esperanto-parolantoj en LTU; chelo M12

La valoroj de ln(b_) estas kalkulataj per helpo de ekvacio donita en tiu alineo de Vikipedia artikolo kaj trovighas en la cheloj N11:S185.

La decida afero estas trovi la “ghustan” valoron de p_LTU: Ghi estas ghusta, se la per ghi rezulta sumo ln(b_UEA) + ln(b_Lernu) + ln(b_EoDir) + ln(b_PS) + ln(b_Edu) +ln(b_Nacia) estas maksimuma. Okaze de LTU tiu sumo trovighas en chelo T12.

Io analoga validas por la p-valoroj de chiuj aliaj landoj.

La tasko estas do trovi — por chiuj landoj — la ghustan p.

La solvilo (“Solver”) en la Guglo-tabelo

Por solvi tiajn taskojn eble taugas la dirita solvilo (figurajho 3).

Figurajho 3: La solvilo

La solvilo devas esti aparte instalita kaj estas startigebla per alklako je la butono “Add-ons”. Jen la agordoj:

"Set Objective": T12, char ties valoro estu maksimuma.
"To" "Max", char T12 estu maksimuma.
"By Changing": M12, char ties valoro estu variata.
"Subject To": L6 <= 0.99999. L6 entenas la plej grandan valoron el la unuopaj valoroj de p*N*alpha_2. Tiu valoro estas unu el la argumentoj de b_ kaj ne devas esti 1 au pli granda. Kaj:
"Subject To": Q4 >= 0.00001. Q4 entenas la negativon de la plej granda valoro de chiuj ln(b_). La plej granda valoro de chiuj ln(b_) devas esti negativa. Sekve ghia negativo devas esti pli granda, ol 0.
"Solving Method": "Standard Evolutionary", char la aliaj metodoj montris sin ghis nun kiel ne taugajn.
"Options" (ne montrita en figurajho 3): Ne estu hoko che "Require Bounds on Variables".

Per alklako je “Solve” la solvilo estas startigata.

Jen gravaj atentigoj, por atingi ghustan funkciadon de la solvilo:

  • En la Guglo-tabelo devas esti agordita Usono kiel “lando/lingvo de la tabelo”, char tiel estas certigite, ke uzighas decimala punkto.
  • Se el alia programo, ekzemple Excel, en Guglo-tabelon estas importota iu tabelo, en tiu chi jam devas esti uzata la decimala punkto (okaze de ne plenaj nombroj).

La ghisnunaj rezultoj / helpopeto

La ghisnunaj rezultoj trovighas en la cheloj E6:I9 (vidu figurajhon 1) kaj estas absurdaj (la nombro de parolantoj estas en la cheloj E9:H9). Tial mi petas vian helpon, por ghustigi la aferon tiuefike, ke retrovighu la rezultoj de la SVN-modelo.

La modifo

La funkcio b_ nun estas aplikata jene (ekzemplo por LTU kaj UEA; analoge por la aliaj landoj kaj asocioj):

LN(b_UEA) = ln(b_[x_LTU_1, kappa_1, theta_LTU_1])
kun
theta_LTU_1 = p_LTU*alpha_1*N_LTU / (p_LTU*alpha_1*N_LTU + kappa_1)

Per tiu chi modifo rezultas nombroj de Esperanto-parolantoj tre proksimaj al la tieaj.

La pli-malpli reprodukta kalkulado

Por chiu el la 175 landoj estas kalkulata la sumo
S_i = LN(b_UEA) + LN(b_Lernu) + LN(b_EoDir) + LN(b_PS) + LN(b_Edu) + LN(b_Nacia); i = 1 … 175. La sumo de la 175 S_i estas SdS.

SdS do dependas de p_1 ghis p_175 kaj krome de kappa_1 ghis kappa_6. Por chi lastaj validas, ke ili estas distribuitaj lau la gamma-distribuo kun la parametroj 2 kaj 2. Praktike tio signifas: Por la logaritmo de la probablo de ekzemple kappa_1 validas ln(4*kappa_1*exp[-2*kappa_1]), kaj analoge statas pri la ceteraj kappa_j. Tamen estas fiksitaj esceptoj lau la SVN-artikolo, nome ke kappa_3 =: kappa_1, kappa_4 =: kappa_1 kaj kappa_5 =: kappa_1. Do fakte estas nur tri diversaj kappa_j, nome kappa_1, kappa_2 kaj kappa_6
Oni devas trovi tiujn p_1 ghis p_175 kaj krome tiujn kappa_1, kappa_2 kaj kappa_6, por kiuj SdS + 4*ln(4*kappa_1*exp[-2*kappa_1]) + ln(4*kappa_2*exp[-2*kappa_2]) + ln(4*kappa_6*exp[-2*kappa_6]) estas maksimuma.

Tion chi mi klopodis fari per ripetfoja aplikado je la solvilo; chi-foje montrighis tauga la metodo “Standard LSGRG Nonlinear”; detaloj: komentoj al la SVN-artikolo.

Estas tede apliki la solvilon al chiu el la 175 linioj. Tial mi haltis, kiam mi atingis preskau tiujn kappa_j-valorojn kaj nombrojn de Esperanto-parolantoj, kiuj estas prezentitaj en la SVN-artikolo; vidu la Guglo-tabelon, tabelfolion “kopio_001_por_ludi”. Mi rigardas la celon kiel atingitan.

Provizora resumo (2017–03–05)

En la SVN-modelo oni supozas jenon:

x_ij = N_i * p_i * alpha_j * w_ij
kun
x_ij: nombro de membroj de asocio j en lando i; x_ij estas konata
N_i: nombro de loghantoj en lando i; N_i estas konata
alpha_j: nombro de membroj de asocio j (tutmonde) dividite per la nombro de membroj de chiuj ses konsiderataj asocioj (tutmonde); alpha_j estas konata
p_i: nombro difinita tiel: Estas meznombre po p_i da Eo-parolantoj en unu loghanto de lando i, se la skalfaktoro <b> (klarigita malsupre) estus 1, alivorte: Se <b> estus 1, tiam estus p_i * N_i da Eo-parolantoj en lando i; p_i estas determinenda
w_ij: nombro, kiu estas proksima al 1, se la malsupre difinitaj kondichoj estas plenumitaj; w_ij estas nek konata nek determinenda

La kondichoj estas jenaj:

La vershajno de x_ij, nome P(x_ij), estas priskribebla per jena negativa binomiala distribufunkcio b_ (oni ne interkonfuzu b_ kun la skalfaktoro <b>):

P(x_ij) = b_(x_ij, kappa_j, theta_ij)
kun
theta_ij = p_i * N_i * alpha_j / ( p_i * N_i * alpha_j + kappa_j )
kappa_j: nombro difinita tiel: La vershajno de kappa_j, nome P(kappa_j), estas priskribebla per jena gamma-distribufunkcio gd:
P(kappa_j) = gd(kappa_j, 2, 2)
kun jenaj esceptoj pro aparta fiksado:
kappa_3 =: kappa_1, kappa_4 =: kappa_1, kappa_5 =: kappa_1

Determinendaj estas kappa_1, kappa_2 kaj kappa_6 — aldone al la 175 p_i, do ensume 178 valoroj. Por tio oni varias ilin tiuefike, ke jenaj sumoj estas maksimumaj:

Por chiu lando i:

ln S_i = ln P(x_i1) + ln P(x_i2) + ln P(x_i3) + ln P(x_i4) + ln P(x_i5) + ln P(x_i6)

Kaj ensume:

ln S = ln S_1 + … + ln S_175 + 4 * ln P(kappa_1) + ln P(kappa_2) + ln P(kappa_6)

Okaze de sukcesa takso je la maksimuma vershajno (angle: “maximum likelihood estimation”) oni konas la menciitajn 178 valorojn.

Se <b> estus 1, tiam en lando i estus p_i * N_i da Esperanto-parolantoj. Sed <b> kredeble ne estas 1. Por determini <b>, oni konsideras la censojn de kvar landoj:

m_EST = 209, m_LTH = 604, m_NZL = 123, m_RUS = 992

Pri la skalfaktoroj de tiuj landoj validas jeno:

m_EST = b_EST * p_EST * N_EST
kaj analoge pri la ceteraj tri landoj

Sekve estas

b_EST = m_EST / ( p_EST * N_EST )
kaj analoge por la ceteraj tri landoj

La meznombro de tiuj kvar skalfaktoroj estas la skalfaktoro

<b> = ( b_EST + b_LTH + b_NZL + b_RUS) / 4

La nombro de Esperanto-parolantoj en lando i estas do

m_i = <b> * p_i * N_i

Kromajho: Al la principo kaj rezultoj de la SVN-modelo estas resendate en komentoj pri tiu artikolo:

Aneksajho

Jen la enir-datumoj uzitaj kaj R-programo farita de Svend Vendelbo Nielsen.

Miaj pepoj | La pepoj de Reagoj al AdE-faroj