Pages - Menu

2021年9月8日 星期三

[正規表示法]正則取代,留下特定字串

前言

要把資料匯入到solr裡面,本來是想用json匯入,
所以想把xml轉成json,但一轉發現,這不是標準的xml,
所以變成要先做一下資料清洗

正文

先來看個範例,

<code>
    <field name="videoId"><![CDATA[28713]]></field>
    <field name="code"><![CDATA[CWPBD-62]]></field>
    <field name="artistId"><![CDATA[5005]]></field>
    <field name="sort"><![CDATA[9054]]></field>
    <field name="views"><![CDATA[23004]]></field>
</code>

要將![CDATA[]] 中間的字串留下來,
這邊其實有兩種做法,

一種是用取代的,先把 ![CDATA[ 刪除,再把 ]] 刪除

還有另一種就是下面的範例,直接用正則取代,留下中間的字串。

先寫好一個正則,可以抓到 CDATA的資料

(\!\[CDATA\[)(.*)(\]\])

可以到 正則在線測試 測試

在 ATOM的話,於取代的位置寫上$2 ,這樣就會 留下中間的字了。(fig.1)



(fig.1)

如果是在微軟的excel,則是使用 \2 ,這樣才會留下中間的字。

ref.
Regular Expression(正則表達式)
入門修練 Ver3.50

沒有留言:

張貼留言