xml - valeurs - xsd sequence



Schéma XML complexe pour le schéma Hive (0)

J'essaye de charger un dossier de xml dans la table de ruche. J'utilise xml serde [ici] [1]. Je suis capable de charger des fichiers plats simples xml. Mais quand il y a des éléments imbriqués dans le xml, j'utilise des types de données complexes pour les stocker (par exemple, array<struct> ). Ci-dessous l'exemple de xml que j'essaye de charger. Mon but est de charger tous les éléments, attributs et contenus dans la table Hive.

<classif action="del">
    <code>123</code>
    <class action="aou">
        <party>p1</party>
        <description action="up">
            <name action="aorup" ln="te">
            this is name1
            </name>
            <name action="aorup" ln="tm">
            this is name2
            </name>
            <name action="aorup" ln="hi">
            this is name2
            </name>
        </description>
    </class>
    <class action="a">
        <party>p2</party>
        <description action="up">
            <name action="aorup" ln="te">
            this is name4
            </name>
            <name action="aorup" ln="tm">
            this is name5
            </name>
            <name action="aorup" ln="hi">
            this is name6
            </name>
        </description>
    </class>
</classif>

La sortie de la ruche que j'essaie d'obtenir est ...

{action:"del", classif:{code:"123", class:[{action:"aou", class:{party:"p1", description:{action:"up", description:[{action:"aorup", ln:"te", name:"this is name1"}, {action:"aorup", ln:"tm", name:"this is name2"}, {action:"aorup", ln:"hi", name:"this is name3"}]}}}, {action:"a", class:{party:"p2", description:{action:"up", description:[{action:"aorup", ln:"te", name:"this is name4"}, {action:"aorup", ln:"tm", name:"this is name5"}, {action:"aorup", ln:"hi", name:"this is name6"}]}}}]}}

Je voulais charger tout ce xml dans une seule colonne de ruche. J'ai essayé ce qui suit:

DROP TABLE classif;
CREATE TABLE classif(
classif STRUCT<
Action:STRING, classif:STRUCT<Code:STRING, class:ARRAY<STRUCT<Action:STRING, class:STRUCT<party:STRING, description:STRUCT<action:STRING,description:ARRAY<STRUCT<action:STRING,ln:STRING,name:STRING>>>
>>>
>>)
ROW FORMAT SERDE 'com.ibm.spss.hive.serde2.xml.XmlSerDe'
WITH SERDEPROPERTIES (
"xml.processor.class"="com.ximpleware.hive.serde2.xml.vtd.XmlProcessor",
"column.xpath.classif"="/classif")
STORED AS INPUTFORMAT 'com.ibm.spss.hive.serde2.xml.XmlInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.IgnoreKeyTextOutputFormat'
TBLPROPERTIES ("xmlinput.start"="<classif ","xmlinput.end"= "</classif>");

Sortie que je reçois:

{"action":"del","classif":{"code":"123","class":[{"action":null,"class":null},{"action":"up","class":null},{"action":null,"class":null},{"action":"up","class":null}]}}




serde