tacrpy.data_fetcher package

Submodules

tacrpy.data_fetcher.isvavai module

Modul na načítání dat z IS VaVaI a STARFOSu.

tacrpy.data_fetcher.isvavai.get_providers() → list[source]

Stáhne seznam kódu všech poskytovatelů v IS VaVaI. Data jsou získána pomocí web scrapingu z webu IS VaVaI.

Returns:: seznam kódu poskytovatelů

tacrpy.data_fetcher.isvavai.isvav_organizations() → DataFrame[source]

Načte data o projektech z otevřených dat IS VaVaI. Data jsou aktualizovaná cca jednou za čtvrt roku.

Returns:: DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.isvavai.isvav_projects() → DataFrame[source]

Načte data o příjemcích z otevřených dat IS VaVaI. Data jsou aktualizovaná cca jednou za čtvrt roku.

Returns:: DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.isvavai.starfos_projects(prog_select: str | list = None, prov_select: str | list = None) → DataFrame | dict[str][source]

Stáhne ze STARFOS projekty buď podle kódů programů nebo kódů poskytovatelů

Volá API endpoint, který slouží pro vytváření exportů. Výstup exportu převede na DataFrame.

Parameters:

prog_select – seznam programů
prov_select – seznam poskytovatelů

Returns:

projekty ze STARFOS

tacrpy.data_fetcher.isvavai.starfos_projects_all() → DataFrame[source]

Stáhne ze STARFOS všechny projekty.

Postupně volá API endpoint, který slouží pro vytváření exportu, za jednotlivé poskytovatele. Výjimku tvoří GA ČR, který přesahuje maximální limit 20 000 záznamů, proto se volá po jednotlivých programech (resp. zkouší různé kombinace s G na začátku). Výstupy se skládají do jednoho DataFrame.

Returns:: projekty ze STARFOS

tacrpy.data_fetcher.ssot module

class tacrpy.data_fetcher.ssot.Administrovane_projekty(agg_col: str, start_period: str, end_period: str)[source]

Bases: object

Třída, která vypočítává počet administrovaných projektů v určitému časovému úseku.

Lze použít pouze v rámci Google Colab prostředí.

Parameters:

df_hodnoceno_final (DataFrame) – DataFrame počtu hodnocených projektů ve zvoleném časovém úseku, agregace podle programu nebo VS
df_realizace_final (DataFrame) – DataFrame počtu realizovaných projektů ve zvoleném časovém úseku, agregace podle programu nebo VS
df_implementace_final (DataFrame) – DataFrame počtu implementovaných projektů ve zvoleném časovém úseku, agregace podle programu nebo VS
df_administrovan_vse_final (DataFrame) – DataFrame počtu administrovaných projektů ve zvoleném časovém úseku, agregace podle programu nebo VS
df_administrovan_bez_impl_final (DataFrame) – DataFrame počtu administrovaných projektů (bez implementovaných) ve zvoleném časovém úseku, agregace podle programu nebo VS
df_pouze_implementace_final (DataFrame) – DataFrame počtu pouze implementovaných projektů (vyloučení projektů, které byly ve stejném období v realizaci nebo hodnocené) ve zvoleném časovém úseku, agregace podle programu nebo VS

create_output(df: DataFrame, agg_col: str)[source]

vytoří agregovaný souhrn počtu projektů v zadané fázi

Parameters:

df – určuje fázi, pro kterou chci provést výpočet * hodnoceno - počet hodnocených projektů * realizace - počet realizovancých projektů * implementace - počet implementovaných projektů * administrovan_vse - počet administrovaných projektů * administrovan_bez_impl - počet administroavných projektů bez implementovaných * pouze_implementace - počet implementovaných projektů s vyloučením projektů které byly realizovány nebo hodnoceny
agg_col – určuje agregaci výpočtu * kod_programu - na úrovni programů * kod_VS - na úrovni VS

Returns:

dataframe s počty projektů v zadané fázi

static intersects(start_period, end_period)[source]

připraví data ze ssot načte projekty a přidá termíny ze souboru VS, upraví formáty dat

vyhodnotí, zda byl projekt hodnocen, realizován nebo implementován v případě administrovaných nebo pouze implementovaných projektů započítá každý projekt pouze jednou

Lze použít pouze v rámci Google Colab prostředí.

Parameters:

start_period – začátek intervalu pro výpočet ve formátu ‘YYYY-MM-DD’
end_period – konec intervalu pro výpočet ve formátu ‘YYYY-MM-DD’

Returns:

dataframe s novým sloupcem/sloupci s označením fáze ve kterém se projekt během zadaného intervalu nacházel

class tacrpy.data_fetcher.ssot.Applicants(df: object = None)[source]

Bases: object

Třída, která načítá a reprezentuje tabulku organizací.

Funguje pouze v rámci Google Colab prostředí.

Parameters:

applicants (DataFrame) – DataFrame načtených dat ze zdroje nebo z nově vytvořené (vyfiltrované) instance
summary_cfp (DataFrame) – DataFrame s agregovanými údaji na úrovni veřejných soutěží
summary_prog (DataFrame) – DataFrame s agregovanými údaji na úrovni programů
summary_ico (DataFrame) – DataFrame s agregovanými údaji na úrovni organizací

create_summary(level: str = 'cfp') → DataFrame[source]

Vytvoří agregovaný souhrn buď na úrovni veřejných soutěží (defaultní),na úrovni programů nebo organizací.

Parameters:: level – určuje, na jaké úrovni se provede agregace * ‘cfp’ (defaultní) - na úrovni veřejných soutěží * ‘prog’ - na úrovni programů # ‘ico’ - na úrovni jednotlivých organizací
Returns:: agregovaný DataFrame, který obsahuje: * Počet žádostí o podporu * Počet účastí v podpořených projektech * Náklady organizace/organizací v podpořených projektech * Podpora organizace/organizací v podpořených projektech

select_cfp(*args: str) → Applicants[source]

Vyfiltruje tabulku tak, aby obsahovala pouze organizace z vybraných veřejných soutěží.

Parameters:: args – kódy veřejných soutěží, které se mají vyfiltrovat
Returns:: nová instance třídy Applicants s vyfiltrovanými údaji
Raise:: ValueError

select_funded() → Applicants[source]

Vyfiltruje tabulku tak, aby obsahovala pouze organizace v podpořených projektech.

Returns:: nová instance třídy Applicants s vyfiltrovanými údaji

select_ico(*args: str) → Applicants[source]

Vyfiltruje tabulku tak, aby obsahovala pouze konkrétní vybrané organizace na základě zadaného IČ.

Parameters:: args – IČ organizace/organizací, které se mají vyfiltrovat
Returns:: nová instance třídy Applicants s vyfiltrovanými údaji
Raise:: ValueError

select_programme(*args: str) → Applicants[source]

Vyfiltruje tabulku tak, aby obsahovala pouze organizace z vybraných programů.

Parameters:: args – kódy programů, které se mají vyfiltrovat
Returns:: nová instance třídy Applicants s vyfiltrovanými údaji
Raise:: ValueError

select_region(*args: str) → Applicants[source]

Vyfiltruje tabulku tak, aby obsahovala pouze organiazce podle vybraného kraje.

Parameters:: args – kódy krajů, které se mají vyfiltrovat * PH = Hlavní město Praha * ST = Středočeský kraj * US = Ústecký kraj * LI = Liberecký kraj * PA = Pardubický kraj * KR = Královéhradecký kraj * KA = Karlovarský kraj * PL = Plzeňský kraj * JC = Jihočeský kraj * VY = Kraj Vysočina * JM = Jihomoravský kraj * ZL = Zlínský kraj * OL = Olomoucký kraj * MO = Moravskoslezský kraj * ZP = ZAH
Returns:: nová instance třídy Applicants s vyfiltrovanými údaji
Raise:: ValueError

select_role(*args: str) → Applicants[source]

Vyfiltruje tabulku tak, aby obsahovala pouze organizace podle vybraného typu role.

Parameters:: args – kódy rolí, které se mají vyfiltrovat * main = hlavní příjemce * additional = další účastník * foreign = zahraniční účastník
Returns:: nová instance třídy Applicants s vyfiltrovanými údaji
Raise:: ValueError

select_type(*args: str) → Applicants[source]

Vyfiltruje tabulku tak, aby obsahovala pouze organizace podle vybraného typu organizace.

Parameters:: args – kódy typu organizací, které se mají vyfiltrovat * UP = mikro podnik * MP = malý podnik * SP = střední podnik * VP = velký podnik * VO = výzkumná organizace * DPO = další právnické osoby veřejného i soukromého práva * O = ostatní uchazeči povolení ZD
Returns:: nová instance třídy Applicants s vyfiltrovanými údaji
Raise:: ValueError

class tacrpy.data_fetcher.ssot.Projects(df: object = None)[source]

Bases: object

Třída, která načítá a reprezentuje tabulku projektů. Funguje pouze v rámci Google Colab prostředí.

Parameters:

projects (DataFrame) – DataFrame načtených dat ze zdroje pravdy nebo z nově vytvořené (vyfiltrované) instance
summary_cfp (DataFrame) – DataFrame s agregovanými údaji na úrovni veřejných soutěží
summary_prog (DataFrame) – DataFrame s agregovanými údaji na úrovni programů

create_summary(level: str = 'cfp') → DataFrame[source]

Vytvoří agregovaný souhrn buď na úrovni veřejných soutěží (defaultní) nebo na úrovni programů.

Parameters:: level – určuje, na jaké úrovni se provede agregace * ‘cfp’ (defaultní) - na úrovni veřejných soutěží * ‘prog’ - na úrovni programů
Returns:: agregovaný DataFrame, který obsahuje: * Počet podaných projektů * Počet podpořených projektů * Náklady podpořených projektů * Podpora podpořených projektů

select_cep(level: int, *args: str) → Projects[source]

Vyfiltruje tabulku tak, aby obsahovala pouze projekty vybraných oborů nebo skupin oborů klasifikace CEP

Parameters:

level – úroveň - 1 = skupiny oborů CEP, 2 = obory CEP
args – kódy skupin oborů CEP (1 písmeno) nebo oborů CEP (2 písmena), které se mají vyfiltrovat

úroveň 1 - skupiny oborů:

A = A - Společenské vědy
B = B - Fyzika a matematika
C = C - Chemie
D = D - Vědy o zemi
E = E - Biovědy
F = F - Lékařské vědy
G = G - Zemědělství
I = I - Informatika
J = J - Průmysl
K = K - Vojenství a politika

úroveň 2 - obory CEP dostupná zde https://docs.google.com/spreadsheets/d/1VknMmHAjKspJmyYlCeJCVEOn01xFGETbTNKi4dMvqf8/edit#gid=0

Returns:: nová instance třídy Projects s vyfiltrovanými údaji
Raise:: ValueError

select_cfp(*args: str) → Projects[source]

Vyfiltruje dataframe projektů tak, aby obsahovala pouze projekty vybraných veřejných soutěží.

Parameters:: args – kódy veřejných soutěží (čtyřmístné - například ‘FW01’), které se mají vyfiltrovat
Returns:: nová instance třídy Projects s vyfiltrovanými údaji
Raise:: ValueError

select_ford(level, *args: str) → Projects[source]

Vyfiltruje tabulku projektů podle klasifikace FORD (úroveň 1, 2 nebo 3).

Parameters:

level – úroveň - 1 (oblast), 2 (obor), 3 (detailní obor)
args – kódy k vyfiltrování (např. ‘1’, ‘101’, ‘10101’)

Returns:

nová instance třídy Projects s vyfiltrovanými údaji

Raise:

ValueError

select_funded() → Projects[source]

Vyfiltruje dataframe projektů tak, aby obsahoval pouze podpořené projekty.

Returns:: nová instance třídy Projects s vyfiltrovanými údaji

select_programme(*args: str) → Projects[source]

Vyfiltruje dataframe projektů tak, aby obsahovala pouze projekty vybraných programů.

Parameters:: args – kódy programů (dvoumístné - například ‘FW’), které se mají vyfiltrovat
Returns:: nová instance třídy Projects s vyfiltrovanými údaji
Raise:: ValueError

tacrpy.data_fetcher.ssot.applicants_finance() → DataFrame[source]

Načte data o financích organizací z databáze zdroje pravdy v Bigquery. Finance jsou v rozdělení po jednotlivých letech. Lze použít pouze v rámci Google Colab prostředí.

Returns:: DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.ssot.applicants_raw_data() → DataFrame[source]

Načte kompletní zdrojová data o organizacích z databáze zdroje pravdy v Bigquery. Lze použít pouze v rámci Google Colab prostředí.

Returns:: DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.ssot.cfp() → DataFrame[source]

Načte data o veřejných soutěží z databáze zdroje pravdy v Bigquery. Lze použít pouze v rámci Google Colab prostředí.

Returns:: DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.ssot.initialize_bq_client()[source]: Inicializuje BigQuery klienta. Zkouší impersonaci servisního účtu, pokud selže, použije defaultní credentials uživatele.

tacrpy.data_fetcher.ssot.podporene_VOPO(from_date, to_date, typ_agg, show_projects=False)[source]

Funkce, která spočítá počet podpořených organizací (unikátně podle IČO) po programech v zadaném roce. Organizace jsou dělené na VO - výzkumné organizace a PO - podniky, příp. O - ostatní. Používá se do tabulek ve VZ a zprávě pro KR.

Použití v Google prostředí.

Parameters:

from_date – datum začátku intervalu, za který chceme podpořené organizace spočítat, ve formátu ‘YYYY-MM-DD’
to_date – datum konce intervalu, za který chceme podpořené organizace spočítat, ve formátu ‘YYYY-MM-DD’
typ_agg – typ agregace, ‘celkem’ počítá účasti nebo ‘unikatni’ počítá unikátní IČA
show_projects – volitelný parametr, pokud je True, vrací seznam projektů za dané období

Returns:

dataframe s počtem podpořených organizací po porogramech rozděleno na VO, PO a ostatní

tacrpy.data_fetcher.ssot.programmes() → DataFrame[source]

Načte data o programech z databáze zdroje pravdy v Bigquery. Lze použít pouze v rámci Google Colab prostředí.

Returns:: DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.ssot.projects_finance() → DataFrame[source]

Načte data o financích projektů z databáze zdroje pravdy v Bigquery. Finance jsou v rozdělení po jednotlivých letech. Lze použít pouze v rámci Google Colab prostředí.

Returns:: DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.ssot.projects_raw_data() → DataFrame[source]

Načte kompletní zdrojová data o projektech z databáze zdroje pravdy v Bigquery. Lze použít pouze v rámci Google Colab prostředí.

Returns:: DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.ssot.results() → DataFrame[source]

Načte data o výsledcích projektů z databáze zdroje pravdy v Bigquery. Lze použít pouze v rámci Google Colab prostředí.

Returns:: DataFrame načtených dat ze zdroje

tacrpy.data_fetcher package

Submodules

tacrpy.data_fetcher.isvavai module

tacrpy.data_fetcher.ssot module

Module contents