Automatic extraction of information from the footnotes of financial statements can be particularly challenging due to a wide variation in filing structure and terminologies. Standardized text and use of data tagging can facilitate this process. This paper: (i) proposes and demonstrates a new hybrid method of taxonomy creation, using historical data; (ii) compares the taxonomy structure using the new method, with that of the existing XBRL US GAAP taxonomy; (iii) shows evidence of structural differences between the official XBRL US GAAP taxonomy and the new hybrid taxonomy and (iv) demonstrates how the tool so developed could be used for more exploratory research. Comparison of this new structure with that of the existing XBRL taxonomy structure reveals that its creation from historical data provides a greater level of aggregation compared to the XBRL US GAAP taxonomy for Pension footnotes.
La extracción automática de información de las notas al pie en estados financieros puede ser particularmente dificultosa debido a una gran variación en estructuras de los archivos y terminologías. Un texto estandarizado y el uso de marcado de datos pueden facilitar este proceso. Este artículo: (i) propone y demuestra un nuevo método híbrido de creación de taxonomía, usando datos históricos; (ii) compara la estructura taxonómica, usando un nuevo método, con la del XBRL US GAAP; (iii) expone evidencias de diferencias estructurales entre la taxonomía oficial XBRL US GAAP y la nueva taxonomía híbrida y (iv) demuestra cómo la herramienta desarrollada se podría usar en futuras investigaciones exploratorias. La comparación de esta nueva estructura con la de la taxonomía XBRL revela que su creación a partir de datos históricos ofrece un mayor nivel de agregación en comparación con la taxonomía XBRL US GAAP para notas al pie Pension.