tacrpy.data_fetcher package
Submodules
tacrpy.data_fetcher.isvavai module
Modul na načítání dat z IS VaVaI a STARFOSu.
- tacrpy.data_fetcher.isvavai.get_providers() list[source]
Stáhne seznam kódu všech poskytovatelů v IS VaVaI. Data jsou získána pomocí web scrapingu z webu IS VaVaI.
- Returns:
seznam kódu poskytovatelů
- tacrpy.data_fetcher.isvavai.isvav_organizations() DataFrame[source]
Načte data o projektech z otevřených dat IS VaVaI. Data jsou aktualizovaná cca jednou za čtvrt roku.
- Returns:
DataFrame načtených dat ze zdroje
- tacrpy.data_fetcher.isvavai.isvav_projects() DataFrame[source]
Načte data o příjemcích z otevřených dat IS VaVaI. Data jsou aktualizovaná cca jednou za čtvrt roku.
- Returns:
DataFrame načtených dat ze zdroje
- tacrpy.data_fetcher.isvavai.starfos_projects(prog_select: str | list = None, prov_select: str | list = None) DataFrame | dict[str][source]
Stáhne ze STARFOS projekty buď podle kódů programů nebo kódů poskytovatelů
Volá API endpoint, který slouží pro vytváření exportů. Výstup exportu převede na DataFrame.
- Parameters:
prog_select – seznam programů
prov_select – seznam poskytovatelů
- Returns:
projekty ze STARFOS
- tacrpy.data_fetcher.isvavai.starfos_projects_all() DataFrame[source]
Stáhne ze STARFOS všechny projekty.
Postupně volá API endpoint, který slouží pro vytváření exportu, za jednotlivé poskytovatele. Výjimku tvoří GA ČR, který přesahuje maximální limit 20 000 záznamů, proto se volá po jednotlivých programech (resp. zkouší různé kombinace s G na začátku). Výstupy se skládají do jednoho DataFrame.
- Returns:
projekty ze STARFOS
tacrpy.data_fetcher.ssot module
- class tacrpy.data_fetcher.ssot.Administrovane_projekty(agg_col: str, start_period: str, end_period: str)[source]
Bases:
objectTřída, která vypočítává počet administrovaných projektů v určitému časovému úseku.
Lze použít pouze v rámci Google Colab prostředí.
- Parameters:
df_hodnoceno_final (DataFrame) – DataFrame počtu hodnocených projektů ve zvoleném časovém úseku, agregace podle programu nebo VS
df_realizace_final (DataFrame) – DataFrame počtu realizovaných projektů ve zvoleném časovém úseku, agregace podle programu nebo VS
df_implementace_final (DataFrame) – DataFrame počtu implementovaných projektů ve zvoleném časovém úseku, agregace podle programu nebo VS
df_administrovan_vse_final (DataFrame) – DataFrame počtu administrovaných projektů ve zvoleném časovém úseku, agregace podle programu nebo VS
df_administrovan_bez_impl_final (DataFrame) – DataFrame počtu administrovaných projektů (bez implementovaných) ve zvoleném časovém úseku, agregace podle programu nebo VS
df_pouze_implementace_final (DataFrame) – DataFrame počtu pouze implementovaných projektů (vyloučení projektů, které byly ve stejném období v realizaci nebo hodnocené) ve zvoleném časovém úseku, agregace podle programu nebo VS
- create_output(df: DataFrame, agg_col: str)[source]
vytoří agregovaný souhrn počtu projektů v zadané fázi
- Parameters:
df – určuje fázi, pro kterou chci provést výpočet * hodnoceno - počet hodnocených projektů * realizace - počet realizovancých projektů * implementace - počet implementovaných projektů * administrovan_vse - počet administrovaných projektů * administrovan_bez_impl - počet administroavných projektů bez implementovaných * pouze_implementace - počet implementovaných projektů s vyloučením projektů které byly realizovány nebo hodnoceny
agg_col – určuje agregaci výpočtu * kod_programu - na úrovni programů * kod_VS - na úrovni VS
- Returns:
dataframe s počty projektů v zadané fázi
- static intersects(start_period, end_period)[source]
- připraví data ze ssot načte projekty a přidá termíny ze souboru VS, upraví formáty dat
vyhodnotí, zda byl projekt hodnocen, realizován nebo implementován v případě administrovaných nebo pouze implementovaných projektů započítá každý projekt pouze jednou
Lze použít pouze v rámci Google Colab prostředí.
- Parameters:
start_period – začátek intervalu pro výpočet ve formátu ‘YYYY-MM-DD’
end_period – konec intervalu pro výpočet ve formátu ‘YYYY-MM-DD’
- Returns:
dataframe s novým sloupcem/sloupci s označením fáze ve kterém se projekt během zadaného intervalu nacházel
- class tacrpy.data_fetcher.ssot.Applicants(df: object = None)[source]
Bases:
objectTřída, která načítá a reprezentuje tabulku organizací.
Funguje pouze v rámci Google Colab prostředí.
- Parameters:
applicants (DataFrame) – DataFrame načtených dat ze zdroje nebo z nově vytvořené (vyfiltrované) instance
summary_cfp (DataFrame) – DataFrame s agregovanými údaji na úrovni veřejných soutěží
summary_prog (DataFrame) – DataFrame s agregovanými údaji na úrovni programů
summary_ico (DataFrame) – DataFrame s agregovanými údaji na úrovni organizací
- create_summary(level: str = 'cfp') DataFrame[source]
Vytvoří agregovaný souhrn buď na úrovni veřejných soutěží (defaultní),na úrovni programů nebo organizací.
- Parameters:
level – určuje, na jaké úrovni se provede agregace * ‘cfp’ (defaultní) - na úrovni veřejných soutěží * ‘prog’ - na úrovni programů # ‘ico’ - na úrovni jednotlivých organizací
- Returns:
agregovaný DataFrame, který obsahuje: * Počet žádostí o podporu * Počet účastí v podpořených projektech * Náklady organizace/organizací v podpořených projektech * Podpora organizace/organizací v podpořených projektech
- select_cfp(*args: str) Applicants[source]
Vyfiltruje tabulku tak, aby obsahovala pouze organizace z vybraných veřejných soutěží.
- Parameters:
args – kódy veřejných soutěží, které se mají vyfiltrovat
- Returns:
nová instance třídy Applicants s vyfiltrovanými údaji
- Raise:
ValueError
- select_funded() Applicants[source]
Vyfiltruje tabulku tak, aby obsahovala pouze organizace v podpořených projektech.
- Returns:
nová instance třídy Applicants s vyfiltrovanými údaji
- select_ico(*args: str) Applicants[source]
Vyfiltruje tabulku tak, aby obsahovala pouze konkrétní vybrané organizace na základě zadaného IČ.
- Parameters:
args – IČ organizace/organizací, které se mají vyfiltrovat
- Returns:
nová instance třídy Applicants s vyfiltrovanými údaji
- Raise:
ValueError
- select_programme(*args: str) Applicants[source]
Vyfiltruje tabulku tak, aby obsahovala pouze organizace z vybraných programů.
- Parameters:
args – kódy programů, které se mají vyfiltrovat
- Returns:
nová instance třídy Applicants s vyfiltrovanými údaji
- Raise:
ValueError
- select_region(*args: str) Applicants[source]
Vyfiltruje tabulku tak, aby obsahovala pouze organiazce podle vybraného kraje.
- Parameters:
args – kódy krajů, které se mají vyfiltrovat * PH = Hlavní město Praha * ST = Středočeský kraj * US = Ústecký kraj * LI = Liberecký kraj * PA = Pardubický kraj * KR = Královéhradecký kraj * KA = Karlovarský kraj * PL = Plzeňský kraj * JC = Jihočeský kraj * VY = Kraj Vysočina * JM = Jihomoravský kraj * ZL = Zlínský kraj * OL = Olomoucký kraj * MO = Moravskoslezský kraj * ZP = ZAH
- Returns:
nová instance třídy Applicants s vyfiltrovanými údaji
- Raise:
ValueError
- select_role(*args: str) Applicants[source]
Vyfiltruje tabulku tak, aby obsahovala pouze organizace podle vybraného typu role.
- Parameters:
args – kódy rolí, které se mají vyfiltrovat * main = hlavní příjemce * additional = další účastník * foreign = zahraniční účastník
- Returns:
nová instance třídy Applicants s vyfiltrovanými údaji
- Raise:
ValueError
- select_type(*args: str) Applicants[source]
Vyfiltruje tabulku tak, aby obsahovala pouze organizace podle vybraného typu organizace.
- Parameters:
args – kódy typu organizací, které se mají vyfiltrovat * UP = mikro podnik * MP = malý podnik * SP = střední podnik * VP = velký podnik * VO = výzkumná organizace * DPO = další právnické osoby veřejného i soukromého práva * O = ostatní uchazeči povolení ZD
- Returns:
nová instance třídy Applicants s vyfiltrovanými údaji
- Raise:
ValueError
- class tacrpy.data_fetcher.ssot.Projects(df: object = None)[source]
Bases:
objectTřída, která načítá a reprezentuje tabulku projektů. Funguje pouze v rámci Google Colab prostředí.
- Parameters:
projects (DataFrame) – DataFrame načtených dat ze zdroje pravdy nebo z nově vytvořené (vyfiltrované) instance
summary_cfp (DataFrame) – DataFrame s agregovanými údaji na úrovni veřejných soutěží
summary_prog (DataFrame) – DataFrame s agregovanými údaji na úrovni programů
- create_summary(level: str = 'cfp') DataFrame[source]
Vytvoří agregovaný souhrn buď na úrovni veřejných soutěží (defaultní) nebo na úrovni programů.
- Parameters:
level – určuje, na jaké úrovni se provede agregace * ‘cfp’ (defaultní) - na úrovni veřejných soutěží * ‘prog’ - na úrovni programů
- Returns:
agregovaný DataFrame, který obsahuje: * Počet podaných projektů * Počet podpořených projektů * Náklady podpořených projektů * Podpora podpořených projektů
- select_cep(level: int, *args: str) Projects[source]
Vyfiltruje tabulku tak, aby obsahovala pouze projekty vybraných oborů nebo skupin oborů klasifikace CEP
- Parameters:
level – úroveň - 1 = skupiny oborů CEP, 2 = obory CEP
args – kódy skupin oborů CEP (1 písmeno) nebo oborů CEP (2 písmena), které se mají vyfiltrovat
úroveň 1 - skupiny oborů:
A = A - Společenské vědy
B = B - Fyzika a matematika
C = C - Chemie
D = D - Vědy o zemi
E = E - Biovědy
F = F - Lékařské vědy
G = G - Zemědělství
I = I - Informatika
J = J - Průmysl
K = K - Vojenství a politika
úroveň 2 - obory CEP dostupná zde https://docs.google.com/spreadsheets/d/1VknMmHAjKspJmyYlCeJCVEOn01xFGETbTNKi4dMvqf8/edit#gid=0
- Returns:
nová instance třídy Projects s vyfiltrovanými údaji
- Raise:
ValueError
- select_cfp(*args: str) Projects[source]
Vyfiltruje dataframe projektů tak, aby obsahovala pouze projekty vybraných veřejných soutěží.
- Parameters:
args – kódy veřejných soutěží (čtyřmístné - například ‘FW01’), které se mají vyfiltrovat
- Returns:
nová instance třídy Projects s vyfiltrovanými údaji
- Raise:
ValueError
- select_ford(level, *args: str) Projects[source]
Vyfiltruje tabulku projektů podle klasifikace FORD (úroveň 1, 2 nebo 3).
- Parameters:
level – úroveň - 1 (oblast), 2 (obor), 3 (detailní obor)
args – kódy k vyfiltrování (např. ‘1’, ‘101’, ‘10101’)
- Returns:
nová instance třídy Projects s vyfiltrovanými údaji
- Raise:
ValueError
- select_funded() Projects[source]
Vyfiltruje dataframe projektů tak, aby obsahoval pouze podpořené projekty.
- Returns:
nová instance třídy Projects s vyfiltrovanými údaji
- select_programme(*args: str) Projects[source]
Vyfiltruje dataframe projektů tak, aby obsahovala pouze projekty vybraných programů.
- Parameters:
args – kódy programů (dvoumístné - například ‘FW’), které se mají vyfiltrovat
- Returns:
nová instance třídy Projects s vyfiltrovanými údaji
- Raise:
ValueError
- tacrpy.data_fetcher.ssot.applicants_finance() DataFrame[source]
Načte data o financích organizací z databáze zdroje pravdy v Bigquery. Finance jsou v rozdělení po jednotlivých letech. Lze použít pouze v rámci Google Colab prostředí.
- Returns:
DataFrame načtených dat ze zdroje
- tacrpy.data_fetcher.ssot.applicants_raw_data() DataFrame[source]
Načte kompletní zdrojová data o organizacích z databáze zdroje pravdy v Bigquery. Lze použít pouze v rámci Google Colab prostředí.
- Returns:
DataFrame načtených dat ze zdroje
- tacrpy.data_fetcher.ssot.cfp() DataFrame[source]
Načte data o veřejných soutěží z databáze zdroje pravdy v Bigquery. Lze použít pouze v rámci Google Colab prostředí.
- Returns:
DataFrame načtených dat ze zdroje
- tacrpy.data_fetcher.ssot.initialize_bq_client()[source]
Inicializuje BigQuery klienta. Zkouší impersonaci servisního účtu, pokud selže, použije defaultní credentials uživatele.
- tacrpy.data_fetcher.ssot.podporene_VOPO(from_date, to_date, typ_agg, show_projects=False)[source]
Funkce, která spočítá počet podpořených organizací (unikátně podle IČO) po programech v zadaném roce. Organizace jsou dělené na VO - výzkumné organizace a PO - podniky, příp. O - ostatní. Používá se do tabulek ve VZ a zprávě pro KR.
Použití v Google prostředí.
- Parameters:
from_date – datum začátku intervalu, za který chceme podpořené organizace spočítat, ve formátu ‘YYYY-MM-DD’
to_date – datum konce intervalu, za který chceme podpořené organizace spočítat, ve formátu ‘YYYY-MM-DD’
typ_agg – typ agregace, ‘celkem’ počítá účasti nebo ‘unikatni’ počítá unikátní IČA
show_projects – volitelný parametr, pokud je True, vrací seznam projektů za dané období
- Returns:
dataframe s počtem podpořených organizací po porogramech rozděleno na VO, PO a ostatní
- tacrpy.data_fetcher.ssot.programmes() DataFrame[source]
Načte data o programech z databáze zdroje pravdy v Bigquery. Lze použít pouze v rámci Google Colab prostředí.
- Returns:
DataFrame načtených dat ze zdroje
- tacrpy.data_fetcher.ssot.projects_finance() DataFrame[source]
Načte data o financích projektů z databáze zdroje pravdy v Bigquery. Finance jsou v rozdělení po jednotlivých letech. Lze použít pouze v rámci Google Colab prostředí.
- Returns:
DataFrame načtených dat ze zdroje