前言
要把資料匯入到solr裡面,本來是想用json匯入,
所以想把xml轉成json,但一轉發現,這不是標準的xml,
所以變成要先做一下資料清洗
正文
先來看個範例,
<code>
<field name="videoId"><![CDATA[28713]]></field>
<field name="code"><![CDATA[CWPBD-62]]></field>
<field name="artistId"><![CDATA[5005]]></field>
<field name="sort"><![CDATA[9054]]></field>
<field name="views"><![CDATA[23004]]></field>
</code>
要將![CDATA[]] 中間的字串留下來,
這邊其實有兩種做法,
一種是用取代的,先把 ![CDATA[ 刪除,再把 ]] 刪除
還有另一種就是下面的範例,直接用正則取代,留下中間的字串。
先寫好一個正則,可以抓到 CDATA的資料
(\!\[CDATA\[)(.*)(\]\])
可以到 正則在線測試 測試
在 ATOM的話,於取代的位置寫上$2 ,這樣就會 留下中間的字了。(fig.1)
(fig.1)
如果是在微軟的excel,則是使用 \2 ,這樣才會留下中間的字。
0 意見:
張貼留言