mixiユーザー(id:65933753)

2020年05月17日19:59

103 view

テキスト化しようと思ったら、スキャン元が小汚すぎて読み取れなかったでござるの巻

香川ゲーム条例、専門家に聞くパブコメの問題点 「公開性や透明性に疑問」「香川県の民主主義が問われている」
https://news.mixi.jp/view_news.pl?media_id=128&from=diary&id=6085381



この前、ねとらぼがスキャンしたpdfを全部画像に分解して、Tesseract OCRにかけようかと思ったら、スキャンの向きがカクついてたり、黒塗りが汚くて読み取れなかったり、スキャンdpi値を色々推測してやったんですがうまくいかないのでやめちゃいました。

今回の役所のおばかちゃんは、人力でやってましたが、世の中のパンピーは、Seleniumというもので、ブラウザの動きを代替します。3並列くらいで3秒から10秒おきにポストするみたいにすれば、余裕ですね。

もちろん、torとかプロキシを複数回噛ませてIPを動的にいじるに決まってるじゃないですか。
https://qiita.com/reinhardhq/items/46225cfadae1776b79a9

https://takazawa.github.io/hobby/selenium_python_tor/

seleniumに必要なブラウザとかはこちらから
https://github.com/GinSanaduki/EM_TM/blob/master/README.md

・・・・・・・・・・・・・・・・・

この前、ねとらぼのコメント見てたら、どうもX-forwarded-Forの転記の部分を業者がけちったみたいですね。
なにが必要なのかすらもわからない業者に頼むなよな。

https://mixi.jp/view_diary.pl?id=1975478429&owner_id=65933753&full=1

香川ゲーム条例、パブコメ原本を入手 賛成意見「大半が同じ日に投稿」「不自然な日本語」――あらためて見えた“異常”内容
https://news.mixi.jp/view_news.pl?media_id=128&from=diary&id=6061328


とりあえず、ここからダウンロードできる。
https://drive.google.com/drive/folders/1zeGA2tcJacWvbYNrFJkOG75AoMyVS3Kd?usp=sharing

56枚しかないじゃねえか、と思ったら、そんなことはなくて、1ドキュメントに20枚とかついていた。

というわけで、画像化した。
テキスト化は、時間がかかるので、また後で・・・。
確認とか、数人はほしいよなあ。
https://github.com/GinSanaduki/Survey_Kagawa_PubComment/blob/master/README.md



・・・さて、本文の補足をしよう。
「これも既に指摘されていますが、ローカルIPアドレス「192.168.7.21」から送信されたものが非常に多かったのも気になりました(通常、送信者のIPアドレスは見えない仕様ですが、「192.168.7.21」についてはそのまま公開されていた)。数えてみると「賛成」約2300件のうち1901件が「192.168.7.21」からの送信で、これは全賛成意見の83パーセントに相当します。
ただ、これ自体は単に「香川県のサイトにある『ご意見箱』から投稿するとこのように表示される」という仕様だったことが、議会事務局への取材や、KSB瀬戸内海放送などの検証で明らかになっています。つまり、これ自体が直ちに不正の証拠になるというわけではありません。」

これは、どういう原理で起きるかというと、キャッチボールを想像すればわかる。
ネットワーク構成図を見ていないのでおおかた推測だが、リバースプロキシというものをおいている可能性がある。

https://image.itmedia.co.jp/ait/articles/1608/25/wi-fig02.png

フォト


こんな感じでおく。
だいたい、不特定多数のクライアントに対するアクセス制限や、サーバーの負荷分散のために用意される。
ロードバランサなどと併用して、このアクセスは今空いているこのサーバに対応させよう、などと割り振りをしていく。

ただ、Webサーバ(ご意見箱の内容を、DBなりどこかに保存しておく処理をするサーバ)から見える、キャッチボールの相手は、中継器、つまりリバースプロキシになる。

これは、平成28年情報セキュリティスペシャリスト(現:情報処理安全確保支援士)試験の、午後1問3でも似たようなことが問われている。
https://www.jitec.ipa.go.jp/1_04hanni_sukiru/mondai_kaitou_2016h28_2/2016h28a_sc_pm1_qs.pdf

フォト

出典:山崎圭吾、濱野谷芳枝、八木美智子、佐宗万祐子『絶対わかる情報処理安全確保支援士 2017年春版』(日経BP社、2017.02)P158

ご意見箱の内容というのは、送信者が「送信」ボタンを押すと、Webサーバに向けて、HTTPリクエストとして、1行のデータとして送信される。リバースプロキシを経由すると、送信IPアドレスの部分がリバースプロキシのIPアドレスに書き換わるので、本来の送信者をわかるようにしておく必要がある。
そのためには、HTTPリクエスト内のHTTPリクエストヘッダ、という部分の、「X-Forwarded-For」という領域に本来のIPアドレスが書かれるので、その部分をWebサーバ側で取得して、保存する際に書いてやらないといけない。

Webサーバ、Apache(だいたい今の世の中、Apacheだから・・・)の設定は、以下を参照。
https://blog.kakakikikeke.com/2013/07/apachex-forwarded-for.html

その設定を怠っていない場合、ほんとうに192.168.7.21からバカスカ来ていた場合、それは、1カ所から送ってることになりますけどね。
だって、こんなの当たり前じゃないですか。
攻撃を受けたときに、ログから追えなくなっちゃうじゃないですか。
そんなこともしらんの?って、業者が呆れ顔しちゃうんじゃないですか?

「投稿者のUserAgent(投稿者のブラウザ環境を示すパラメータ)についても一部で話題になっていましたが、これについては時間が足りず、今回は詳細な検証まではできていません(IPアドレスは「ご意見箱」サーバのものですが、UserAgentは“送信者のもの”が記録されているようです)。」

だって、そんなところは、中継器で書き換わりませんからね。
あんまり今回大事なところとは考えていない。
https://qiita.com/nightyknite/items/b2590a69f2e0135756dc


0 0

コメント

mixiユーザー

ログインしてコメントを確認・投稿する