概要
Selenium (javaAPI) を用いてスクレイピングを実施しするような仕組みを作っていたところタイトルにもあるエラーに遭遇した
(そうでなくてもSeleniumはなれるまでなかなかピーキーな動きをするときもあるが)
厄介なことに毎回必ず同じタイミングで発生するわけでもなく、その発生はかなり不定期である。
実施しているスクレピング処理においては、条件を引き起こすページすら一致せずにどのページでもまんべんなく発生する可能性が存在するようである。
今回はその解決方法について調査して実装までを検討する。
調査
まずはスタックトレースを見てみる、関連部分だけを抽出すると概ね下記のようなメッセージが出ている。
Caused by: org.openqa.selenium.StaleElementReferenceException: Element not found in the cache - perhaps the page has changed since it was looked up Command duration or timeout: 7.64 seconds For documentation on this error, please visit: http://seleniumhq.org/exceptions/stale_element_reference.html Build info: version: 'unknown', revision: 'unknown', time: 'unknown' System info: host: 'something host', ip: 'xxx.xxx.xxx.xxx', os.name: 'Linux', os.arch: 'amd64', os.version: 'something os', java.version: '1.8.0_91' Driver info: org.openqa.selenium.firefox.FirefoxDriver Capabilities [{applicationCacheEnabled=true, rotatable=false, pageLoadStrategy=unstable, handlesAlerts=true, databaseEnabled=true, version=42.0, platform=LINUX, nativeEvents=false, acceptSslCerts=true, webStorageEnabled=true, locationContextEnabled=true, browserName=firefox, takesScreenshot=true, javascriptEnabled=true, pageLoadingStrategy=unstable, cssSelectorsEnabled=true}] Session ID: xxxxxxxxxx
ご丁寧にドキュメントのURLがエラーメッセージに含まれているので、公式ページへアクセスしてみる。
読んでみるとこの例外が発生するパターンは大きく分けて2つ存在するようだ。
参照しているエレメントが削除された場合
大概はこちらのケースに該当するようである。
例えばエレメントの参照を取得した時点から、別ページに移動、その後さらに保持していた参照を引き続き利用しようとした場合や、はたまた何らかのjsライブラリによって保持していたエレメントの参照が別の参照に置き換えられてしまった場合などがある。
この場合例えばid属性などは同じものを保持しているのにもかかわらず、内部的には別のDOMインスタンスとして管理されているため、例えば同じ属性を用いてセレクタを作成し、参照を引っ張ってきたとしても以前参照していたものはなくなってしまったためこのような例外を引き起こす。
エレメントがDOMにアタッチされていない場合
例えばtabを表現するテクニックにDivを予め用意しておいて、実際に表示されるDomは一つだけで他のDomは単純に値を保持するためだけに使用されているような場合、場合によっては他のDivはDOMから参照が保持されていない場合があるようである。
こんなケースは非常にまれでしょう。
その他jsによってエレメントタイプが変更された場合などもこの例外を引き起こす可能性があるようです。
が、どれにしても今回のケースに当てはまっていないように思う。
そのためweb上を検索しほかのサイトを調査していたところ、ページが読み込まれる際に間髪入れずにDOMを検索する際にうまくいかないことがあるようである。
またリトライすることでうまくDOMを検索できるケースもあるようであった。
これらを踏まえて対応を考える。
対応
はっきりとした原因はわからなかったが、おそらく今回のケースはページを移動した直後にDOMを検索することが原因だと予想する。
そのためページを移動した後にwait処理を導入する。またそれと同時にリトライ機構を導入する。
実装
下記の用に実装を行った。概念的なものしか示していないがなんとなくイメージは掴めると思います。
もともとの処理としてはループで色々なページを探索していたので、forの概形だけ残してあります。
変更前
for( someCondition ) { driver.get(url); // スクレイピング処理 someScrape(); }
変更後
for ( someCondition ) { driver.get(url); // StaleElementReferenceException を回避するため、ここで明示的にDOMの読み込みを待つ _sleepSec(5); for(int count=1; count<=RETRY_COUNT; count++) { try { // スクレイピング処理 someScrape(); break; } catch (StaleElementReferenceException e) { // StaleElementReferenceException が発生した場合は規定回数内であればリトライを行う if (count >= RETRY_COUNT) { throw e; } _sleepSec(5); } } }
対応したところ、今のところ問題なさそうである。
参考ページ
http://www.software-testing-tutorials-automation.com/2015/02/how-to-handle-stale-element-reference.html
http://blog.afnf.net/blog/69
コメントを残す