MAREC - MAREC

O MA trixware RE procurar C ollection ( Marec ) é um corpo de dados de patentes padronizado disponíveis para fins de investigação. O MAREC busca representar documentos de patentes em vários idiomas para responder a questões específicas de pesquisa. Ele consiste em 19 milhões de documentos de patentes em diferentes linguagens, normalizados para um esquema XML altamente específico .

O MAREC é uma matéria-prima para pesquisas em áreas como recuperação de informação , processamento de linguagem natural ou tradução automática , que requerem grande quantidade de documentos complexos. A coleção contém documentos em 19 idiomas, sendo a maioria inglês, alemão e francês, e cerca de metade dos documentos inclui texto completo.

No MAREC, os documentos de diferentes países e fontes são normalizados para um formato XML comum com um esquema de numeração de patente uniforme e formato de citação. Os campos padronizados incluem datas, países, idiomas, referências, nomes de pessoas e empresas, bem como classificações de assuntos, como códigos IPC .

MAREC é um corpus comparável, onde muitos documentos estão disponíveis em versões semelhantes em outros idiomas. Um corpus comparável pode ser definido como consistindo em textos que compartilham tópicos semelhantes - textos de notícias do mesmo período de tempo em diferentes países, enquanto um corpus paralelo é definido como uma coleção de documentos com traduções alinhadas da língua fonte para a língua de chegada. Uma vez que o documento de patente se refere à mesma "invenção" ou "conceito de ideia", o texto é uma tradução da invenção, mas não precisa ser uma tradução direta do texto em si - partes do texto poderiam ter sido removidas ou adicionadas para motivos de esclarecimento.

Os 19.386.697 arquivos XML medem um total de 621 GB e são hospedados pelo Information Retrieval Facility . O acesso e o suporte são gratuitos para fins de pesquisa.

Casos de Uso

Referências

links externos