tacrpy.data_fetcher package

Submodules

tacrpy.data_fetcher.isvavai module

Modul na načítání dat z IS VaVaI a STARFOSu.

tacrpy.data_fetcher.isvavai.get_providers() list[source]

Stáhne seznam kódu všech poskytovatelů v IS VaVaI. Data jsou získána pomocí web scrapingu z webu IS VaVaI.

Returns:

seznam kódu poskytovatelů

tacrpy.data_fetcher.isvavai.isvav_organizations() DataFrame[source]

Načte data o projektech z otevřených dat IS VaVaI. Data jsou aktualizovaná cca jednou za čtvrt roku.

Returns:

DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.isvavai.isvav_projects() DataFrame[source]

Načte data o příjemcích z otevřených dat IS VaVaI. Data jsou aktualizovaná cca jednou za čtvrt roku.

Returns:

DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.isvavai.starfos_projects(prog_select: str | list = None, prov_select: str | list = None) DataFrame | dict[str][source]

Stáhne ze STARFOS projekty buď podle kódů programů nebo kódů poskytovatelů

Volá API endpoint, který slouží pro vytváření exportů. Výstup exportu převede na DataFrame.

Parameters:
  • prog_select – seznam programů

  • prov_select – seznam poskytovatelů

Returns:

projekty ze STARFOS

tacrpy.data_fetcher.isvavai.starfos_projects_all() DataFrame[source]

Stáhne ze STARFOS všechny projekty.

Postupně volá API endpoint, který slouží pro vytváření exportu, za jednotlivé poskytovatele. Výjimku tvoří GA ČR, který přesahuje maximální limit 20 000 záznamů, proto se volá po jednotlivých programech (resp. zkouší různé kombinace s G na začátku). Výstupy se skládají do jednoho DataFrame.

Returns:

projekty ze STARFOS

tacrpy.data_fetcher.ssot module

class tacrpy.data_fetcher.ssot.Administrovane_projekty(agg_col: str, start_period: str, end_period: str)[source]

Bases: object

Třída, která vypočítává počet administrovaných projektů v určitému časovému úseku.

Lze použít pouze v rámci Google Colab prostředí.

Parameters:
  • df_hodnoceno_final (DataFrame) – DataFrame počtu hodnocených projektů ve zvoleném časovém úseku, agregace podle programu nebo VS

  • df_realizace_final (DataFrame) – DataFrame počtu realizovaných projektů ve zvoleném časovém úseku, agregace podle programu nebo VS

  • df_implementace_final (DataFrame) – DataFrame počtu implementovaných projektů ve zvoleném časovém úseku, agregace podle programu nebo VS

  • df_administrovan_vse_final (DataFrame) – DataFrame počtu administrovaných projektů ve zvoleném časovém úseku, agregace podle programu nebo VS

  • df_administrovan_bez_impl_final (DataFrame) – DataFrame počtu administrovaných projektů (bez implementovaných) ve zvoleném časovém úseku, agregace podle programu nebo VS

  • df_pouze_implementace_final (DataFrame) – DataFrame počtu pouze implementovaných projektů (vyloučení projektů, které byly ve stejném období v realizaci nebo hodnocené) ve zvoleném časovém úseku, agregace podle programu nebo VS

create_output(df: DataFrame, agg_col: str)[source]

vytoří agregovaný souhrn počtu projektů v zadané fázi

Parameters:
  • df – určuje fázi, pro kterou chci provést výpočet * hodnoceno - počet hodnocených projektů * realizace - počet realizovancých projektů * implementace - počet implementovaných projektů * administrovan_vse - počet administrovaných projektů * administrovan_bez_impl - počet administroavných projektů bez implementovaných * pouze_implementace - počet implementovaných projektů s vyloučením projektů které byly realizovány nebo hodnoceny

  • agg_col – určuje agregaci výpočtu * kod_programu - na úrovni programů * kod_VS - na úrovni VS

Returns:

dataframe s počty projektů v zadané fázi

static intersects(start_period, end_period)[source]
připraví data ze ssot načte projekty a přidá termíny ze souboru VS, upraví formáty dat

vyhodnotí, zda byl projekt hodnocen, realizován nebo implementován v případě administrovaných nebo pouze implementovaných projektů započítá každý projekt pouze jednou

Lze použít pouze v rámci Google Colab prostředí.

Parameters:
  • start_period – začátek intervalu pro výpočet ve formátu ‘YYYY-MM-DD’

  • end_period – konec intervalu pro výpočet ve formátu ‘YYYY-MM-DD’

Returns:

dataframe s novým sloupcem/sloupci s označením fáze ve kterém se projekt během zadaného intervalu nacházel

class tacrpy.data_fetcher.ssot.Applicants(df: object = None)[source]

Bases: object

Třída, která načítá a reprezentuje tabulku organizací.

Funguje pouze v rámci Google Colab prostředí.

Parameters:
  • applicants (DataFrame) – DataFrame načtených dat ze zdroje nebo z nově vytvořené (vyfiltrované) instance

  • summary_cfp (DataFrame) – DataFrame s agregovanými údaji na úrovni veřejných soutěží

  • summary_prog (DataFrame) – DataFrame s agregovanými údaji na úrovni programů

  • summary_ico (DataFrame) – DataFrame s agregovanými údaji na úrovni organizací

create_summary(level: str = 'cfp') DataFrame[source]

Vytvoří agregovaný souhrn buď na úrovni veřejných soutěží (defaultní),na úrovni programů nebo organizací.

Parameters:

level – určuje, na jaké úrovni se provede agregace * ‘cfp’ (defaultní) - na úrovni veřejných soutěží * ‘prog’ - na úrovni programů # ‘ico’ - na úrovni jednotlivých organizací

Returns:

agregovaný DataFrame, který obsahuje: * Počet žádostí o podporu * Počet účastí v podpořených projektech * Náklady organizace/organizací v podpořených projektech * Podpora organizace/organizací v podpořených projektech

select_cfp(*args: str) Applicants[source]

Vyfiltruje tabulku tak, aby obsahovala pouze organizace z vybraných veřejných soutěží.

Parameters:

args – kódy veřejných soutěží, které se mají vyfiltrovat

Returns:

nová instance třídy Applicants s vyfiltrovanými údaji

Raise:

ValueError

select_funded() Applicants[source]

Vyfiltruje tabulku tak, aby obsahovala pouze organizace v podpořených projektech.

Returns:

nová instance třídy Applicants s vyfiltrovanými údaji

select_ico(*args: str) Applicants[source]

Vyfiltruje tabulku tak, aby obsahovala pouze konkrétní vybrané organizace na základě zadaného IČ.

Parameters:

args – IČ organizace/organizací, které se mají vyfiltrovat

Returns:

nová instance třídy Applicants s vyfiltrovanými údaji

Raise:

ValueError

select_programme(*args: str) Applicants[source]

Vyfiltruje tabulku tak, aby obsahovala pouze organizace z vybraných programů.

Parameters:

args – kódy programů, které se mají vyfiltrovat

Returns:

nová instance třídy Applicants s vyfiltrovanými údaji

Raise:

ValueError

select_region(*args: str) Applicants[source]

Vyfiltruje tabulku tak, aby obsahovala pouze organiazce podle vybraného kraje.

Parameters:

args – kódy krajů, které se mají vyfiltrovat * PH = Hlavní město Praha * ST = Středočeský kraj * US = Ústecký kraj * LI = Liberecký kraj * PA = Pardubický kraj * KR = Královéhradecký kraj * KA = Karlovarský kraj * PL = Plzeňský kraj * JC = Jihočeský kraj * VY = Kraj Vysočina * JM = Jihomoravský kraj * ZL = Zlínský kraj * OL = Olomoucký kraj * MO = Moravskoslezský kraj * ZP = ZAH

Returns:

nová instance třídy Applicants s vyfiltrovanými údaji

Raise:

ValueError

select_role(*args: str) Applicants[source]

Vyfiltruje tabulku tak, aby obsahovala pouze organizace podle vybraného typu role.

Parameters:

args – kódy rolí, které se mají vyfiltrovat * main = hlavní příjemce * additional = další účastník * foreign = zahraniční účastník

Returns:

nová instance třídy Applicants s vyfiltrovanými údaji

Raise:

ValueError

select_type(*args: str) Applicants[source]

Vyfiltruje tabulku tak, aby obsahovala pouze organizace podle vybraného typu organizace.

Parameters:

args – kódy typu organizací, které se mají vyfiltrovat * UP = mikro podnik * MP = malý podnik * SP = střední podnik * VP = velký podnik * VO = výzkumná organizace * DPO = další právnické osoby veřejného i soukromého práva * O = ostatní uchazeči povolení ZD

Returns:

nová instance třídy Applicants s vyfiltrovanými údaji

Raise:

ValueError

class tacrpy.data_fetcher.ssot.Projects(df: object = None)[source]

Bases: object

Třída, která načítá a reprezentuje tabulku projektů. Funguje pouze v rámci Google Colab prostředí.

Parameters:
  • projects (DataFrame) – DataFrame načtených dat ze zdroje pravdy nebo z nově vytvořené (vyfiltrované) instance

  • summary_cfp (DataFrame) – DataFrame s agregovanými údaji na úrovni veřejných soutěží

  • summary_prog (DataFrame) – DataFrame s agregovanými údaji na úrovni programů

create_summary(level: str = 'cfp') DataFrame[source]

Vytvoří agregovaný souhrn buď na úrovni veřejných soutěží (defaultní) nebo na úrovni programů.

Parameters:

level – určuje, na jaké úrovni se provede agregace * ‘cfp’ (defaultní) - na úrovni veřejných soutěží * ‘prog’ - na úrovni programů

Returns:

agregovaný DataFrame, který obsahuje: * Počet podaných projektů * Počet podpořených projektů * Náklady podpořených projektů * Podpora podpořených projektů

select_cep(level: int, *args: str) Projects[source]

Vyfiltruje tabulku tak, aby obsahovala pouze projekty vybraných oborů nebo skupin oborů klasifikace CEP

Parameters:
  • level – úroveň - 1 = skupiny oborů CEP, 2 = obory CEP

  • args – kódy skupin oborů CEP (1 písmeno) nebo oborů CEP (2 písmena), které se mají vyfiltrovat

úroveň 1 - skupiny oborů:

  • A = A - Společenské vědy

  • B = B - Fyzika a matematika

  • C = C - Chemie

  • D = D - Vědy o zemi

  • E = E - Biovědy

  • F = F - Lékařské vědy

  • G = G - Zemědělství

  • I = I - Informatika

  • J = J - Průmysl

  • K = K - Vojenství a politika

úroveň 2 - obory CEP dostupná zde https://docs.google.com/spreadsheets/d/1VknMmHAjKspJmyYlCeJCVEOn01xFGETbTNKi4dMvqf8/edit#gid=0

Returns:

nová instance třídy Projects s vyfiltrovanými údaji

Raise:

ValueError

select_cfp(*args: str) Projects[source]

Vyfiltruje dataframe projektů tak, aby obsahovala pouze projekty vybraných veřejných soutěží.

Parameters:

args – kódy veřejných soutěží (čtyřmístné - například ‘FW01’), které se mají vyfiltrovat

Returns:

nová instance třídy Projects s vyfiltrovanými údaji

Raise:

ValueError

select_ford(level, *args: str) Projects[source]

Vyfiltruje tabulku projektů podle klasifikace FORD (úroveň 1, 2 nebo 3).

Parameters:
  • level – úroveň - 1 (oblast), 2 (obor), 3 (detailní obor)

  • args – kódy k vyfiltrování (např. ‘1’, ‘101’, ‘10101’)

Returns:

nová instance třídy Projects s vyfiltrovanými údaji

Raise:

ValueError

select_funded() Projects[source]

Vyfiltruje dataframe projektů tak, aby obsahoval pouze podpořené projekty.

Returns:

nová instance třídy Projects s vyfiltrovanými údaji

select_programme(*args: str) Projects[source]

Vyfiltruje dataframe projektů tak, aby obsahovala pouze projekty vybraných programů.

Parameters:

args – kódy programů (dvoumístné - například ‘FW’), které se mají vyfiltrovat

Returns:

nová instance třídy Projects s vyfiltrovanými údaji

Raise:

ValueError

tacrpy.data_fetcher.ssot.applicants_finance() DataFrame[source]

Načte data o financích organizací z databáze zdroje pravdy v Bigquery. Finance jsou v rozdělení po jednotlivých letech. Lze použít pouze v rámci Google Colab prostředí.

Returns:

DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.ssot.applicants_raw_data() DataFrame[source]

Načte kompletní zdrojová data o organizacích z databáze zdroje pravdy v Bigquery. Lze použít pouze v rámci Google Colab prostředí.

Returns:

DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.ssot.cfp() DataFrame[source]

Načte data o veřejných soutěží z databáze zdroje pravdy v Bigquery. Lze použít pouze v rámci Google Colab prostředí.

Returns:

DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.ssot.initialize_bq_client()[source]

Inicializuje BigQuery klienta. Zkouší impersonaci servisního účtu, pokud selže, použije defaultní credentials uživatele.

tacrpy.data_fetcher.ssot.podporene_VOPO(from_date, to_date, typ_agg, show_projects=False)[source]

Funkce, která spočítá počet podpořených organizací (unikátně podle IČO) po programech v zadaném roce. Organizace jsou dělené na VO - výzkumné organizace a PO - podniky, příp. O - ostatní. Používá se do tabulek ve VZ a zprávě pro KR.

Použití v Google prostředí.

Parameters:
  • from_date – datum začátku intervalu, za který chceme podpořené organizace spočítat, ve formátu ‘YYYY-MM-DD’

  • to_date – datum konce intervalu, za který chceme podpořené organizace spočítat, ve formátu ‘YYYY-MM-DD’

  • typ_agg – typ agregace, ‘celkem’ počítá účasti nebo ‘unikatni’ počítá unikátní IČA

  • show_projects – volitelný parametr, pokud je True, vrací seznam projektů za dané období

Returns:

dataframe s počtem podpořených organizací po porogramech rozděleno na VO, PO a ostatní

tacrpy.data_fetcher.ssot.programmes() DataFrame[source]

Načte data o programech z databáze zdroje pravdy v Bigquery. Lze použít pouze v rámci Google Colab prostředí.

Returns:

DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.ssot.projects_finance() DataFrame[source]

Načte data o financích projektů z databáze zdroje pravdy v Bigquery. Finance jsou v rozdělení po jednotlivých letech. Lze použít pouze v rámci Google Colab prostředí.

Returns:

DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.ssot.projects_raw_data() DataFrame[source]

Načte kompletní zdrojová data o projektech z databáze zdroje pravdy v Bigquery. Lze použít pouze v rámci Google Colab prostředí.

Returns:

DataFrame načtených dat ze zdroje

tacrpy.data_fetcher.ssot.results() DataFrame[source]

Načte data o výsledcích projektů z databáze zdroje pravdy v Bigquery. Lze použít pouze v rámci Google Colab prostředí.

Returns:

DataFrame načtených dat ze zdroje

Module contents